Прикладной статистический анализ данных
Содержание
О курсе
Курс читается для студентов 3-го курса ПМИ специализации "Машинное обучение и приложения" в 1-2 модулях.
Лектор: Рябенко Евгений Алексеевич
Лекции проходят по понедельникам, 10:30 - 11:50, ауд. 509.
Оставить отзыв на курс: форма
Семинары
Группа | Преподаватель | Учебный ассистент | Страница |
---|---|---|---|
142 (МОП) | Швечиков Павел Дмитриевич | Егоров Евгений Евгеньевич | |
141 (МОП) | Хальман Михаил Анатольевич | Варганов Георгий |
Внимание!!! Для работы на семинарах курса вам понадобятся ноутбуки с установленными на них R (https://www.r-project.org) и RStudio (https://www.rstudio.com/products/rstudio/download/). В противном случае вы не сможете принять полноценное участие в семинарах.
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента
- Практические домашние работы на языке R (всего 4шт: 2 в первом модуле и 2 во втором)
- Коллоквиум в конце 1-го модуля
- Экзамен в конце 2-го модуля
Проверочные работы будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице. В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам). Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара. При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ.
Проверочные работы: уточнение
- За каждое задание выставляются оценки из множества ${0; 1}$
- Можно получить дополнительный 1 балл: за доказательство утверждения/ответ с материалом, выходящим за рамки лекции; дополнительно решенную задачу из списка, Максимальный балл за летучку: 3
- Доп. баллы можно получить, только при верных обязательных заданиях. Уточняйте у семинаристов, что обязательно к выводу/доказательству в обязательных задачах.
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = 0.8 * Oнакопленная + 0.2 * Оэкз
Оценка за работу в семестре вычисляется по формуле
Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум
Оценка за домашние задания рассчитывается как среднее значение оценок за все выданные домашние задания. Оценка за самостоятельную работу рассчитывается как среднее значение оценок за все проверочные работы, проведённые на семинарских занятиях.
Правила сдачи домашних заданий
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работа не принимаются.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
Работы и вопросы по результатам проверки работа отправлять в соотвествии со своим семинаристом на адреса:
- Швечиков Павел: psad.homework+shvechikov@gmail.com
- Хальман Михаил: psad.homework+khalman@gmail.com
Темы писем:
- Для сдачи ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество"
- Для вопроса по результатам проверки ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество - Вопрос"
- Для вопроса по результатам проверки работы на семинаре: "Семинар {Номер Семинара} - Фамилия Имя Отчество - Вопрос"
ДЗ {Номер ДЗ} или Семинар {Номер Семинара} можно посмотреть в листах Таблицы с оценками
Софт
Лекции
Базовые распределения, статистики и их свойства
Случайные величины и распределения. Дискретные распределения: Бернулли, биномиальное, Пуассона. Функция и плотность распределения. Непрерывные распределения: равномерное, нормальное, Стьюдента, Фишера. Характеристики распределений. Статистики.
- [1.3], главы 1, 2, 4, 5.
Центральная предельная теорема. Метод максимального правдоподобия. Метод моментов. Бутстреп: параметрический, наивный, несмещённый.
- [1.8], главы 4, 6, 5.
Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. Свойства достигаемых уровней значимости. Статистическая и практическая значимость. Свойства критериев: несмещённость, состоятельность, мощность.
- [1.9], глава 5.
Проверка параметрических гипотез
Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок). Доверительные интервалы для параметров распределений Бернулли: Вальда, Уилсона.
Критерии нормальности: критерий Харке-Бера, хи-квадрат (Пирсона), Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании: t- и z-критерии Стьюдента, критерии хи-квадрат и Фишера.
- [1.6], глава 1; [1.2], раздел 3.2.1; [1.10], критерии 1, 3, 7, 9, 10, 15, 16.
Проверка непараметрических гипотез
Критерии знаков: одновыборочный, для связанных выборок. Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Ансари-Брэдли. Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании. Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).
- [1.6], главы 1, 2, 4; [2.3], глава 3.
Множественная проверка гипотез
Примеры задач. Меры числа ошибок первого рода. FWER, поправка Бонферрони. Нисходящие процедуры множественной проверки: общий вид, метод Холма. Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS. Оценка числа верных нулевых гипотез и её применение. FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.
- [1.7], главы 2, 3, 4; [2.2], главы 2-5.
Корреляция Пирсона, критерий Стьюдента, перестановочный критерий. Ранговая корреляция: коэффициенты Спирмена и Кенделла, их значимость. Связь коэффициентов корреляции. Частная и множественная корреляция, их значимость.
Таблица сопряженности K1xK2. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициенты V Крамера и γ для порядковых величин. Таблица сопряженности 2x2. Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса. Парадокс хи-квадрат.
- [1.2], раздел 5.2; [1.3], глава 20, параграфы 7, 8, 9; [1.4], главы 2, 3.
Cеминары
Ссылка на список задач для самостоятельной работы
Семинар 1 (5-6 сентября). Знакомство с языком R. Задачи по ТВ
До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl (инструкция по установке и запуску swirl) следующие уроки:
- 1: Basic Building Blocks
- 4: Vectors
- 7: Matrices and Data Frames
- 10: lapply and sapply
- 13: Simulation
- 15: Base Graphics
В противном случае на втором семинаре вы не сможете полноценно влиться в работу.
Семинар 2 (12-13 сентября). Введение в математическую статистику. Метод Максимального Правдоподобия. Метод Моментов. Бутстрэп. Дельта метод.
Cсылка на гуглформу с результатами
Семинар 3 (19-20 сентября). Статистические критерии основанные на функции правдоподобия.
Семинар 4 (26-27 сентября). Проверка параметрических гипотез
Семинар 5 (3-4 октября). Проверка непараметрических гипотез
Семинар 6 (10-11 октября). Множественная проверка гипотез
Семинар 7 (17-18 октября). Анализ зависимостей
Литература
1. Основная литература
- Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
- Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Лагутин, М.Б. Наглядная математическая статистика. — М.: П-центр, 2003.
- Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
- Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
- Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
- Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
- Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
- Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
- Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
- Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
- Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
- Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
- Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
- Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
- Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
2. Дополнительная литература
- Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
- Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
- Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
- Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.