Прикладной статистический анализ данных
Содержание
- 1 О курсе
- 2 Лекции
- 3 Cеминары
- 3.1 Основные ссылки
- 3.2 Самостоятельная работа
- 3.3 Семинар 1 (5-6 сентября). Знакомство с языком R.
- 3.4 Семинар 2 (12-13 сентября). Введение в математическую статистику. Метод максимального правдоподобия. Метод моментов. Бутстрэп. Дельта-метод.
- 3.5 Семинар 3 (19-20 сентября). Статистические критерии основанные на функции правдоподобия.
- 3.6 Семинар 4 (26-27 сентября). Проверка параметрических гипотез
- 3.7 Семинар 5 (3-4 октября). Проверка непараметрических гипотез
- 3.8 Семинар 6 (10-11 октября). Множественная проверка гипотез
- 3.9 Семинар 7 (17-18 октября). Анализ зависимостей
- 3.10 Семинар 8 (31 октября - 1 ноября). Дисперсионный анализ
- 3.11 Семинар 9 (7-8 ноября). Линейная регрессия
- 3.12 Семинар 10 (14-15 ноября). Обобщённые линейные модели
- 3.13 Семинар 11 (21-22 ноября). Временные ряды
- 3.14 Семинар 12 (28-29 ноября). Временные ряды. Продолжение
- 3.15 Семинар 13 (5-6 декабря) Анализ причинности
- 4 Домашние задания
- 5 Литература
О курсе
Курс читается для студентов 3-го курса ПМИ специализации "Машинное обучение и приложения" в 1-2 модулях.
Оставить отзыв на курс: форма
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента
- Практические домашние работы на языке R (всего 4шт: 1 в первом модуле и 3 во втором)
- Коллоквиум 31 октября в 9:00 (задачи)
- Экзамен в конце 2-го модуля
Проверочные работы будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице. В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам). Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара. При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ.
- За каждое задание выставляется бинарная оценка
- Можно получить дополнительный 1 балл: за доказательство утверждения/ответ с материалом, выходящим за рамки лекции; дополнительно решенную задачу из списка, Максимальный балл за летучку: 3
- Доп. баллы можно получить только при верных обязательных заданиях. Уточняйте у семинаристов, что обязательно к выводу/доказательству в обязательных задачах.
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = 0.8 * Oнакопленная + 0.2 * Оэкз.
Оценка за работу в семестре Oнакопленная вычисляется по формуле
Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум,
Одз — сумма оценок за все выданные домашние задания,
Oсамостоятельные — сумма значений оценок за все проверочные работы, делённая на максимально возможную сумму баллов без учёта лекционных контрольных и бонусов, и умноженная на 10.
Лекции
Лектор: Рябенко Евгений Алексеевич
Лекции проходят по понедельникам, 10:30 - 11:50, ауд. 509.
Базовые распределения, статистики и их свойства
Случайные величины и распределения. Дискретные распределения: Бернулли, биномиальное, Пуассона. Функция и плотность распределения. Непрерывные распределения: равномерное, нормальное, Стьюдента, Фишера. Характеристики распределений. Статистики.
- [1.3], главы 1, 2, 4, 5.
Центральная предельная теорема. Метод максимального правдоподобия. Метод моментов. Бутстреп: параметрический, наивный, несмещённый.
- [1.8], главы 4, 6, 5.
Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. Свойства достигаемых уровней значимости. Статистическая и практическая значимость. Свойства критериев: несмещённость, состоятельность, мощность.
- [1.9], глава 5.
Проверка параметрических гипотез
Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок). Доверительные интервалы для параметров распределений Бернулли: Вальда, Уилсона.
Критерии нормальности: критерий Харке-Бера, хи-квадрат (Пирсона), Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании: t- и z-критерии Стьюдента, критерии хи-квадрат и Фишера.
- [1.6], глава 1; [1.2], раздел 3.2.1; [1.10], критерии 1, 3, 7, 9, 10, 15, 16.
Проверка непараметрических гипотез
Критерии знаков: одновыборочный, для связанных выборок. Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Ансари-Брэдли. Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании. Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).
- [1.6], главы 1, 2, 4; [2.3], глава 3.
Множественная проверка гипотез
Примеры задач. Меры числа ошибок первого рода. FWER, поправка Бонферрони. Нисходящие процедуры множественной проверки: общий вид, метод Холма. Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS. Оценка числа верных нулевых гипотез и её применение. FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.
- [1.7], главы 2, 3, 4; [2.2], главы 2-5.
Корреляция Пирсона, критерий Стьюдента, перестановочный критерий. Ранговая корреляция: коэффициенты Спирмена и Кенделла, их значимость. Связь коэффициентов корреляции. Частная и множественная корреляция, их значимость.
Таблица сопряженности K1xK2. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициенты V Крамера и γ для порядковых величин. Таблица сопряженности 2x2. Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса. Парадокс хи-квадрат.
- [1.2], раздел 5.2; [1.3], глава 20, параграфы 7, 8, 9; [1.4], главы 2, 3.
Однофакторная модель. Независимые выборки: критерии Фишера, Краскела-Уоллиса, Джонкхиера. Связанные выборки: критерии Фишера, Фридмана и Пейджа. Предположение сферичности. Модель со случайным эффектом, разделение дисперсии. Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерии Неменьи и Даннета. Проверка гипотезы о равенстве дисперсий: критерии Бартлета и Флайнера-Киллиана.
Двухфакторная модель. Взаимодействие факторов, его интерпретация. Двухфакторный нормальный анализ.
- [1.15], раздел 3.2; [1.3], глава 17.
Линейная регрессия, МНК. Остаточная сумма квадратов (RSS), коэффициент детерминации. Предположения Гаусса-Маркова. Статистические свойства МНК-оценок. Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность. Кодирование нечисловых признаков. Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика. Значимость коэффициентов линейной регрессии. Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерий Бройша-Пагана), нормальности. Обработка выбросов, расстояние Кука. Метод Бокса-Кокса для преобразования отклика. Устойчивая оценка дисперсии Уайта, её модификации.
- [1.16], главы 3, 4, 6-8
Дополнения и обобщения регрессии
Обработка пропусков. Интерпретация регрессии.
Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия. Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия. Меры качества обобщённых линейных моделей: аномальность, информационные критерии. Постановка задачи логистической регрессии. Логит, интерпретация коэффициентов логистической регрессии. Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы. Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога. Регрессия счётного признака. Пуассоновская модель. Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов.
- [1.13], глава 2 (GLM)
- [1.5], глава 2, [2.4], главы 2, 3, 4, 5 (логистическая регрессия)
- [1.5], глава 4, [2.1], главы 2, 3, 5 (пуассоновская регрессия)
Прогнозирование временных рядов, часть 1
Временной ряд, основные компоненты. Автокорреляция, стационарность, преобразования рядов. Анализ остатков. Модели AR, MA, ARMA, ARIMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Учёт сезонности. Учёт дополнительных признаков.
- [1.10], главы 2, 8
Прогнозирование временных рядов, часть 2
Экспоненциальное сглаживание. Модели ETS. Меры качества прогнозов. Сравнение качества прогнозов. Обнаружение структурных изменений.
Адаптивная селекция и композиция моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка. Прогнозирование иерархических совокупностей рядов. Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии. Регрессионный подход к прогнозированию.
- [1.10], главы 7, 9
- Automatic Forecasting at Scale, S.J. Taylor, JSM, 2015
Причинно-следственные связи
Неразрешимость парадокса Симпсона в рамках классической статистики. Причинные графы, цепочки, вилки, коллайдеры. D-разделимость. Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки. Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери. Propensity score, обратное вероятностное взвешивание. Графы в линейных моделях. Связь со структурными уравнениями. Контрфакты и их вычисление. Восстановление графов: динамические данные (причинность по Грейнджеру), статические данные (алгоритм индуктивной причинности).
- [1.14]
- [2.5], глава 3
- [2.6], глава 2
Cеминары
Группа | Преподаватель | Учебный ассистент | Страница |
---|---|---|---|
142 (МОП) | Швечиков Павел Дмитриевич | Егоров Евгений Евгеньевич | |
141 (МОП) | Хальман Михаил Анатольевич | Варганов Георгий |
Основные ссылки
- Для работы на семинарах вам понадобятся ноутбуки с установленными на них R (https://www.r-project.org) и RStudio (https://www.rstudio.com/products/rstudio/download/).
- Инструкция по установке и запуску swirl
- Некоторые основные опции Rmarkdown
- Advanced R – для тех, кто хочет разобраться в том, как работает R изнутри
Самостоятельная работа
Ссылка на список задач для самостоятельной работы
Семинар 1 (5-6 сентября). Знакомство с языком R.
До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl (инструкция по установке и запуску swirl) следующие уроки:
- 1: Basic Building Blocks
- 4: Vectors
- 7: Matrices and Data Frames
- 10: lapply and sapply
- 13: Simulation
- 15: Base Graphics
В противном случае на втором семинаре вы не сможете полноценно влиться в работу.
Семинар 2 (12-13 сентября). Введение в математическую статистику. Метод максимального правдоподобия. Метод моментов. Бутстрэп. Дельта-метод.
Cсылка на гуглформу с результатами
Семинар 3 (19-20 сентября). Статистические критерии основанные на функции правдоподобия.
Семинар 4 (26-27 сентября). Проверка параметрических гипотез
Семинар 5 (3-4 октября). Проверка непараметрических гипотез
Семинар 6 (10-11 октября). Множественная проверка гипотез
Семинар 7 (17-18 октября). Анализ зависимостей
Задание 3 Bullshit & Conservativeness выносится на самостоятельную работу на оценку и будет приниматься только до начала следующего семинара.
Семинар 8 (31 октября - 1 ноября). Дисперсионный анализ
Внимание! Задание 3 принимается до начала следующего семинара на почту курса.
Семинар 9 (7-8 ноября). Линейная регрессия
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
Семинар 10 (14-15 ноября). Обобщённые линейные модели
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
Семинар 11 (21-22 ноября). Временные ряды
Семинар 12 (28-29 ноября). Временные ряды. Продолжение
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
Семинар 13 (5-6 декабря) Анализ причинности
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
Домашние задания
- Дедлайны по всем домашним заданиям являются мягкими.
- За каждые сутки просрочки из стоимости домашней работы вычитается 0.2 балла.
- Время, которое работа находится на проверке, не включается в штрафное время.
- При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
Работы и вопросы по результатам проверки работа отправлять в соотвествии со своим семинаристом на адреса:
- Швечиков Павел: psad.homework+shvechikov@gmail.com
- Хальман Михаил: psad.homework+khalman@gmail.com
Темы писем:
- Для сдачи ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество"
- Для вопроса по результатам проверки ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество - Вопрос"
- Для вопроса по результатам проверки работы на семинаре: "Семинар {Номер Семинара} - Фамилия Имя Отчество - Вопрос"
ДЗ {Номер ДЗ} или Семинар {Номер Семинара} можно посмотреть в листах Таблицы с оценками
Задание 1: исследование свойств статистических критериев на модельных данных
Стоимость — 2 балла, дедлайн — 23:59 31.10.
Задание 2: проверка гипотез
Стоимость — 2.5 балла, дедлайн — 23:59 19.11.
Задание 3: регрессия
Стоимость — 3 балла, дедлайн — 23:59 3.12.
Задание 4: прогнозирование временного ряда
Стоимость — 2.5 балла, дедлайн — 23:59 17.12.
Необходимо выбрать уникальный ряд и построить его прогноз на 3 сезонных периода вперёд; список требований к решению можно найти в слайдах 11 лекции.
Литература
1. Основная литература
- Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
- Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Лагутин, М.Б. Наглядная математическая статистика. — М.: П-центр, 2003.
- Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
- Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
- Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
- Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
- Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
- Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
- Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
- Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
- Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
- Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
- Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
- Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
- Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
2. Дополнительная литература
- Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
- Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
- Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
- Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
- Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
- Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013.