Прикладной статистический анализ данных
Содержание
О курсе
Курс читается для студентов 3-го курса ПМИ специализации "Машинное обучение и приложения" в 1-2 модулях.
Лектор: Рябенко Евгений Алексеевич
Лекции проходят по понедельникам, 10:30 - 11:50, ауд. 509.
Оставить отзыв на курс: форма
Семинары
Группа | Преподаватель | Учебный ассистент | Страница |
---|---|---|---|
142 (МОП) | Швечиков Павел Дмитриевич | Егоров Евгений Евгеньевич | |
141 (МОП) | Хальман Михаил Анатольевич | Варганов Георгий |
Внимание!!! Для работы на семинарах курса вам понадобятся ноутбуки с установленными на них R (https://www.r-project.org) и RStudio (https://www.rstudio.com/products/rstudio/download/). В противном случае вы не сможете принять полноценное участие в семинарах.
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента
- Практические домашние работы на языке R (всего 4шт: 1 в первом модуле и 3 во втором)
- Коллоквиум 31 октября в 9:00
- Экзамен в конце 2-го модуля
Проверочные работы будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице. В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам). Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара. При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ.
- За каждое задание выставляется бинарная оценка
- Можно получить дополнительный 1 балл: за доказательство утверждения/ответ с материалом, выходящим за рамки лекции; дополнительно решенную задачу из списка, Максимальный балл за летучку: 3
- Доп. баллы можно получить только при верных обязательных заданиях. Уточняйте у семинаристов, что обязательно к выводу/доказательству в обязательных задачах.
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = 0.8 * Oнакопленная + 0.2 * Оэкз.
Оценка за работу в семестре Oнакопленная вычисляется по формуле
Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум,
Одз — сумма оценок за все выданные домашние задания,
Oсамостоятельные — сумма значений оценок за все проверочные работы, делённая на 26.
Лекции
Базовые распределения, статистики и их свойства
Случайные величины и распределения. Дискретные распределения: Бернулли, биномиальное, Пуассона. Функция и плотность распределения. Непрерывные распределения: равномерное, нормальное, Стьюдента, Фишера. Характеристики распределений. Статистики.
- [1.3], главы 1, 2, 4, 5.
Центральная предельная теорема. Метод максимального правдоподобия. Метод моментов. Бутстреп: параметрический, наивный, несмещённый.
- [1.8], главы 4, 6, 5.
Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. Свойства достигаемых уровней значимости. Статистическая и практическая значимость. Свойства критериев: несмещённость, состоятельность, мощность.
- [1.9], глава 5.
Проверка параметрических гипотез
Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок). Доверительные интервалы для параметров распределений Бернулли: Вальда, Уилсона.
Критерии нормальности: критерий Харке-Бера, хи-квадрат (Пирсона), Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании: t- и z-критерии Стьюдента, критерии хи-квадрат и Фишера.
- [1.6], глава 1; [1.2], раздел 3.2.1; [1.10], критерии 1, 3, 7, 9, 10, 15, 16.
Проверка непараметрических гипотез
Критерии знаков: одновыборочный, для связанных выборок. Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Ансари-Брэдли. Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании. Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).
- [1.6], главы 1, 2, 4; [2.3], глава 3.
Множественная проверка гипотез
Примеры задач. Меры числа ошибок первого рода. FWER, поправка Бонферрони. Нисходящие процедуры множественной проверки: общий вид, метод Холма. Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS. Оценка числа верных нулевых гипотез и её применение. FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.
- [1.7], главы 2, 3, 4; [2.2], главы 2-5.
Корреляция Пирсона, критерий Стьюдента, перестановочный критерий. Ранговая корреляция: коэффициенты Спирмена и Кенделла, их значимость. Связь коэффициентов корреляции. Частная и множественная корреляция, их значимость.
Таблица сопряженности K1xK2. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициенты V Крамера и γ для порядковых величин. Таблица сопряженности 2x2. Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса. Парадокс хи-квадрат.
- [1.2], раздел 5.2; [1.3], глава 20, параграфы 7, 8, 9; [1.4], главы 2, 3.
Cеминары
Ссылка на список задач для самостоятельной работы
Семинар 1 (5-6 сентября). Знакомство с языком R. Задачи по ТВ
До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl (инструкция по установке и запуску swirl) следующие уроки:
- 1: Basic Building Blocks
- 4: Vectors
- 7: Matrices and Data Frames
- 10: lapply and sapply
- 13: Simulation
- 15: Base Graphics
В противном случае на втором семинаре вы не сможете полноценно влиться в работу.
Семинар 2 (12-13 сентября). Введение в математическую статистику. Метод Максимального Правдоподобия. Метод Моментов. Бутстрэп. Дельта метод.
Cсылка на гуглформу с результатами
Семинар 3 (19-20 сентября). Статистические критерии основанные на функции правдоподобия.
Семинар 4 (26-27 сентября). Проверка параметрических гипотез
Задания на 4-ый семинар Решение заданий с семинара
Семинар 5 (3-4 октября). Проверка непараметрических гипотез
Задания на 5-ый семинар Решение заданий с семинара Семинар 6 (10-11 октября). Множественная проверка гипотез
Задания на 6-ой семинар Решение заданий с семинара
Семинар 7 (17-18 октября). Анализ зависимостей
Задания на 7-ой семинар Решение заданий с семинара Задание 3 Bullshit & Conservativeness выносится на самостоятельную работу на оценку и будет приниматься только до начала следующего семинара.
Домашние задания
- Дедлайны по всем домашним заданиям являются мягкими.
- За каждые сутки просрочки из стоимости домашней работы вычитается 0.2 балла.
- Для допуска к экзамену необходимо сдать как минимум 2 из 4 домашних работы.
- Время, которое работа находится на проверке, не включается в штрафное время.
- При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
Работы и вопросы по результатам проверки работа отправлять в соотвествии со своим семинаристом на адреса:
- Швечиков Павел: psad.homework+shvechikov@gmail.com
- Хальман Михаил: psad.homework+khalman@gmail.com
Темы писем:
- Для сдачи ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество"
- Для вопроса по результатам проверки ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество - Вопрос"
- Для вопроса по результатам проверки работы на семинаре: "Семинар {Номер Семинара} - Фамилия Имя Отчество - Вопрос"
ДЗ {Номер ДЗ} или Семинар {Номер Семинара} можно посмотреть в листах Таблицы с оценками
Задание 1: исследование свойств одномерных статистических критериев на модельных данных
Стоимость — 2 балла, дедлайн — 23:59 31.10.
Задание 2: проверка гипотез
Стоимость — 2.5 балла, дедлайн — .
Задание 3: регрессия
Стоимость — 3 балла, дедлайн — .
Задание 4: прогнозирование временного ряда
Стоимость — 2.5 балла, дедлайн — .
Литература
1. Основная литература
- Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
- Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Лагутин, М.Б. Наглядная математическая статистика. — М.: П-центр, 2003.
- Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
- Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
- Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
- Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
- Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
- Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
- Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
- Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
- Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
- Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
- Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
- Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
- Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
2. Дополнительная литература
- Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
- Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
- Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
- Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.