Прикладной статистический анализ данных

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

Содержание

О курсе

Курс читается для студентов 3-го курса ПМИ специализации "Машинное обучение и приложения" в 1-2 модулях.

Карточка курса и программа

Таблица с оценками

Оставить отзыв на курс: форма

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента
  • Практические домашние работы на языке R (всего 4шт: 1 в первом модуле и 3 во втором)
  • Коллоквиум 31 октября в 9:00 (задачи)
  • Экзамен в конце 2-го модуля

Проверочные работы будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице. В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам). Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара. При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ.

  1. За каждое задание выставляется бинарная оценка
  2. Можно получить дополнительный 1 балл: за доказательство утверждения/ответ с материалом, выходящим за рамки лекции; дополнительно решенную задачу из списка, Максимальный балл за летучку: 3
  3. Доп. баллы можно получить только при верных обязательных заданиях. Уточняйте у семинаристов, что обязательно к выводу/доказательству в обязательных задачах.

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = 0.8 * Oнакопленная + 0.2 * Оэкз.

Оценка за работу в семестре Oнакопленная вычисляется по формуле

Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум,

Одз — сумма оценок за все выданные домашние задания,

Oсамостоятельные — сумма значений оценок за все проверочные работы, делённая на максимально возможную сумму баллов без учёта лекционных контрольных и бонусов, и умноженная на 10.

Лекции

Лектор: Рябенко Евгений Алексеевич

Лекции проходят по понедельникам, 10:30 - 11:50, ауд. 509.

Базовые распределения, статистики и их свойства

Случайные величины и распределения. Дискретные распределения: Бернулли, биномиальное, Пуассона. Функция и плотность распределения. Непрерывные распределения: равномерное, нормальное, Стьюдента, Фишера. Характеристики распределений. Статистики.

[1.3], главы 1, 2, 4, 5.

Оценка параметров

Центральная предельная теорема. Метод максимального правдоподобия. Метод моментов. Бутстреп: параметрический, наивный, несмещённый.

[1.8], главы 4, 6, 5.

Основы проверки гипотез

Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. Свойства достигаемых уровней значимости. Статистическая и практическая значимость. Свойства критериев: несмещённость, состоятельность, мощность.

[1.9], глава 5.

Проверка параметрических гипотез

Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок). Доверительные интервалы для параметров распределений Бернулли: Вальда, Уилсона.

Критерии нормальности: критерий Харке-Бера, хи-квадрат (Пирсона), Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании: t- и z-критерии Стьюдента, критерии хи-квадрат и Фишера.

[1.6], глава 1; [1.2], раздел 3.2.1; [1.10], критерии 1, 3, 7, 9, 10, 15, 16.

Проверка непараметрических гипотез

Критерии знаков: одновыборочный, для связанных выборок. Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Ансари-Брэдли. Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании. Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).

[1.6], главы 1, 2, 4; [2.3], глава 3.

Множественная проверка гипотез

Примеры задач. Меры числа ошибок первого рода. FWER, поправка Бонферрони. Нисходящие процедуры множественной проверки: общий вид, метод Холма. Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS. Оценка числа верных нулевых гипотез и её применение. FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.

[1.7], главы 2, 3, 4; [2.2], главы 2-5.

Анализ зависимостей

Корреляция Пирсона, критерий Стьюдента, перестановочный критерий. Ранговая корреляция: коэффициенты Спирмена и Кенделла, их значимость. Связь коэффициентов корреляции. Частная и множественная корреляция, их значимость.

Таблица сопряженности K1xK2. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициенты V Крамера и γ для порядковых величин. Таблица сопряженности 2x2. Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса. Парадокс хи-квадрат.

[1.2], раздел 5.2; [1.3], глава 20, параграфы 7, 8, 9; [1.4], главы 2, 3.

Дисперсионный анализ

Однофакторная модель. Независимые выборки: критерии Фишера, Краскела-Уоллиса, Джонкхиера. Связанные выборки: критерии Фишера, Фридмана и Пейджа. Предположение сферичности. Модель со случайным эффектом, разделение дисперсии. Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерии Неменьи и Даннета. Проверка гипотезы о равенстве дисперсий: критерии Бартлета и Флайнера-Киллиана.

Двухфакторная модель. Взаимодействие факторов, его интерпретация. Двухфакторный нормальный анализ.

[1.15], раздел 3.2; [1.3], глава 17.

Линейная регрессия

Линейная регрессия, МНК. Остаточная сумма квадратов (RSS), коэффициент детерминации. Предположения Гаусса-Маркова. Статистические свойства МНК-оценок. Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность. Кодирование нечисловых признаков. Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика. Значимость коэффициентов линейной регрессии. Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерий Бройша-Пагана), нормальности. Обработка выбросов, расстояние Кука. Метод Бокса-Кокса для преобразования отклика. Устойчивая оценка дисперсии Уайта, её модификации.

[1.16], главы 3, 4, 6-8

Дополнения и обобщения регрессии

Обработка пропусков. Интерпретация регрессии.

Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия. Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия. Меры качества обобщённых линейных моделей: аномальность, информационные критерии. Постановка задачи логистической регрессии. Логит, интерпретация коэффициентов логистической регрессии. Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы. Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога. Регрессия счётного признака. Пуассоновская модель. Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов.

[1.13], глава 2 (GLM)
[1.5], глава 2, [2.4], главы 2, 3, 4, 5 (логистическая регрессия)
[1.5], глава 4, [2.1], главы 2, 3, 5 (пуассоновская регрессия)

Прогнозирование временных рядов, часть 1

Временной ряд, основные компоненты. Автокорреляция, стационарность, преобразования рядов. Анализ остатков. Модели AR, MA, ARMA, ARIMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Учёт сезонности. Учёт дополнительных признаков.

[1.10], главы 2, 8

Прогнозирование временных рядов, часть 2

Экспоненциальное сглаживание. Модели ETS. Меры качества прогнозов. Сравнение качества прогнозов. Обнаружение структурных изменений.

Адаптивная селекция и композиция моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка. Прогнозирование иерархических совокупностей рядов. Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии. Регрессионный подход к прогнозированию.

[1.10], главы 7, 9
Automatic Forecasting at Scale, S.J. Taylor, JSM, 2015

Причинно-следственные связи (осторожно, слайды неполные!)

Неразрешимость парадокса Симпсона в рамках классической статистики. Причинные графы, цепочки, вилки, коллайдеры. D-разделимость. Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки. Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери. Propensity score, обратное вероятностное взвешивание. Графы в линейных моделях. Связь со структурными уравнениями. Контрфакты и их вычисление. Восстановление графов: динамические данные (причинность по Грейнджеру), статические данные (алгоритм индуктивной причинности).

[1.14]
[2.5], глава 3
[2.6], глава 2

Последовательный анализ

Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений. Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным. Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий. Непараметрические последовательные доверительные интервалы для среднего и медианы.

[1.1], главы 2, 4-9

Cеминары

Группа Преподаватель Учебный ассистент Страница
142 (МОП) Швечиков Павел Дмитриевич Егоров Евгений Евгеньевич
141 (МОП) Хальман Михаил Анатольевич Варганов Георгий

Основные ссылки

Самостоятельная работа

Ссылка на список задач для самостоятельной работы

Семинар 1 (5-6 сентября). Знакомство с языком R.

Задачи по ТВ

До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl (инструкция по установке и запуску swirl) следующие уроки:

  • 1: Basic Building Blocks
  • 4: Vectors
  • 7: Matrices and Data Frames
  • 10: lapply and sapply
  • 13: Simulation
  • 15: Base Graphics

В противном случае на втором семинаре вы не сможете полноценно влиться в работу.

Семинар 2 (12-13 сентября). Введение в математическую статистику. Метод максимального правдоподобия. Метод моментов. Бутстрэп. Дельта-метод.

Задание на 2-ой семинар

Cсылка на гуглформу с результатами

Решение заданий с семинара

Семинар 3 (19-20 сентября). Статистические критерии основанные на функции правдоподобия.

Задание на 3-ий семинар

Решение заданий с семинара

Семинар 4 (26-27 сентября). Проверка параметрических гипотез

Задания на 4-ый семинар

Решение заданий с семинара

Семинар 5 (3-4 октября). Проверка непараметрических гипотез

Задания на 5-ый семинар

Решение заданий с семинара

Семинар 6 (10-11 октября). Множественная проверка гипотез

Задания на 6-ой семинар

Решение заданий с семинара

Семинар 7 (17-18 октября). Анализ зависимостей

Задания на 7-ой семинар

Решение заданий с семинара

Задание 3 Bullshit & Conservativeness выносится на самостоятельную работу на оценку и будет приниматься только до начала следующего семинара.

Семинар 8 (31 октября - 1 ноября). Дисперсионный анализ

Задания на 8-ой семинар

Решение 8-ого семинара

Скрипт помощь для сопоставления формул из лекций и значения коэффициентов в таблице ANOVA. Проведена аналогия с линейной регрессией.

Внимание! Задание 3 принимается до начала следующего семинара на почту курса.

Семинар 9 (7-8 ноября). Линейная регрессия

Задания на 9-ой семинар

Решение 9-го семинара

Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.

Семинар 10 (14-15 ноября). Обобщённые линейные модели

Задания на 10-ый семинар

Решение 10-го семинара

Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.

Семинар 11 (21-22 ноября). Временные ряды

Задания на 11-ый семинар

Решение 11-го семинара

Семинар 12 (28-29 ноября). Временные ряды. Продолжение

Задание на 12-ый семинар

Решение 12-го семинара

Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.

Семинар 13 (5-6 декабря) Анализ причинности

Задание на 13-ый семинар

Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.

Домашние задания

  • Дедлайны по всем домашним заданиям являются мягкими.
  • За каждые сутки просрочки из стоимости домашней работы вычитается 0.2 балла.
  • Время, которое работа находится на проверке, не включается в штрафное время.
  • При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

Работы и вопросы по результатам проверки работа отправлять в соотвествии со своим семинаристом на адреса:

  • Швечиков Павел: psad.homework+shvechikov@gmail.com
  • Хальман Михаил: psad.homework+khalman@gmail.com

Темы писем:

  • Для сдачи ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество"
  • Для вопроса по результатам проверки ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество - Вопрос"
  • Для вопроса по результатам проверки работы на семинаре: "Семинар {Номер Семинара} - Фамилия Имя Отчество - Вопрос"

ДЗ {Номер ДЗ} или Семинар {Номер Семинара} можно посмотреть в листах Таблицы с оценками

Задание 1: исследование свойств статистических критериев на модельных данных

Стоимость — 2 балла, дедлайн — 23:59 31.10.

Задание 2: проверка гипотез

Стоимость — 2.5 балла, дедлайн — 23:59 19.11.

Задание 3: регрессия

Стоимость — 3 балла, дедлайн — 23:59 3.12.

Задание 4: прогнозирование временного ряда

Стоимость — 2.5 балла, дедлайн — 23:59 17.12.

Необходимо выбрать уникальный ряд и построить его прогноз на 3 сезонных периода вперёд; список требований к решению можно найти в слайдах 11 лекции.

Литература

1. Основная литература

  1. Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
  2. Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  3. Лагутин, М.Б. Наглядная математическая статистика. — М.: П-центр, 2003.
  4. Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
  5. Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
  6. Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
  7. Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
  8. Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
  9. Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
  10. Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
  11. Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
  12. Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
  13. Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
  14. Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
  15. Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
  16. Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.

2. Дополнительная литература

  1. Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
  2. Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
  3. Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
  4. Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
  5. Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
  6. Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013.