Прикладной статистический анализ данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Cеминары)
м (Откат правок Seosky (обсуждение) к версии Riabenko)
 
(не показано 95 промежуточных версии 5 участников)
Строка 2: Строка 2:
  
 
Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ] специализации [https://www.hse.ru/ba/ami/mla "Машинное обучение и приложения"] в 1-2 модулях.
 
Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ] специализации [https://www.hse.ru/ba/ami/mla "Машинное обучение и приложения"] в 1-2 модулях.
 
'''Лектор:''' [http://www.hse.ru/staff/??  Рябенко Евгений Алексеевич]
 
 
Лекции проходят по понедельникам,  10:30 - 11:50, ауд. 509.
 
  
 
[https://www.hse.ru/ba/ami/courses/184771666.html Карточка курса и программа]
 
[https://www.hse.ru/ba/ami/courses/184771666.html Карточка курса и программа]
Строка 13: Строка 9:
 
Оставить отзыв на курс: [https://goo.gl/forms/5CddG0gc75VZvqi52 форма]
 
Оставить отзыв на курс: [https://goo.gl/forms/5CddG0gc75VZvqi52 форма]
  
=== Семинары ===
+
=== Правила выставления оценок ===
 +
В курсе предусмотрено несколько форм контроля знания:
 +
* Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента
 +
* Практические домашние работы на языке R (всего 4шт: 1 в первом модуле и 3 во втором)
 +
* Коллоквиум 31 октября в 9:00 ([https://yadi.sk/d/vtwZEmeGyCDTz задачи])
 +
* Экзамен в конце 2-го модуля
 +
'''Проверочные работы'''  будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице.  В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя  случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам).  Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара.    При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ.
 +
# За каждое задание выставляется бинарная оценка
 +
# Можно получить дополнительный 1 балл: за доказательство утверждения/ответ с материалом, выходящим за рамки лекции; дополнительно решенную задачу из списка, Максимальный балл за летучку: 3
 +
# Доп. баллы можно получить только при верных обязательных заданиях. Уточняйте у семинаристов, что обязательно к выводу/доказательству в обязательных задачах.
  
 +
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
 +
 +
O<sub>итоговая</sub> = 0.8 * O<sub>накопленная</sub> + 0.2 * О<sub>экз</sub>.
 +
 +
Оценка за работу в семестре O<sub>накопленная</sub> вычисляется по формуле
 +
 +
O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>дз</sub> + 0.2 * О<sub>коллоквиум</sub>,
 +
 +
О<sub>дз</sub> — сумма оценок за все выданные домашние задания,
 +
 +
O<sub>самостоятельные</sub> — сумма значений оценок за все проверочные работы, делённая на максимально возможную сумму баллов без учёта лекционных контрольных и бонусов, и умноженная на 10.
 +
 +
== Лекции ==
 +
 +
'''Лектор:''' [http://www.hse.ru/staff/riabenko  Рябенко Евгений Алексеевич]
 +
 +
Лекции проходят по понедельникам,  10:30 - 11:50, ауд. 509.
 +
 +
[https://yadi.sk/d/fFrArK_jum4ve '''Базовые распределения, статистики и их свойства''']
 +
 +
Случайные величины и распределения. Дискретные распределения: Бернулли, биномиальное, Пуассона. Функция и плотность распределения. Непрерывные распределения: равномерное, нормальное, Стьюдента, Фишера. Характеристики распределений. Статистики.
 +
:[1.3], главы 1, 2, 4, 5.
 +
 +
[https://yadi.sk/i/NtdP7y-4v3g6Y '''Оценка параметров''']
 +
 +
Центральная предельная теорема. Метод максимального правдоподобия. Метод моментов. Бутстреп: параметрический, наивный, несмещённый.
 +
:[1.8], главы 4, 6, 5.
 +
 +
[https://yadi.sk/i/C6_mU6OjvMTmV '''Основы проверки гипотез''']
 +
 +
Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. Свойства достигаемых уровней значимости. Статистическая и практическая значимость. Свойства критериев: несмещённость, состоятельность, мощность.
 +
:[1.9], глава 5.
 +
 +
[https://yadi.sk/d/RyXS_4LjvbygS '''Проверка параметрических гипотез''']
 +
 +
Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок). Доверительные интервалы для параметров распределений Бернулли: Вальда, Уилсона.
 +
 +
Критерии нормальности: критерий Харке-Бера, хи-квадрат (Пирсона), Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании: t- и z-критерии Стьюдента, критерии хи-квадрат и Фишера.
 +
:[1.6], глава 1; [1.2], раздел 3.2.1; [1.10], критерии 1, 3, 7, 9, 10, 15, 16.
 +
 +
[https://yadi.sk/d/rPboM70mw6ZRT '''Проверка непараметрических гипотез''']
 +
 +
Критерии знаков: одновыборочный, для связанных выборок. Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Ансари-Брэдли. Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании. Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).
 +
:[1.6], главы 1, 2, 4; [2.3], глава 3.
 +
 +
[https://yadi.sk/d/rO6skAPNwYg6i '''Множественная проверка гипотез''']
 +
 +
Примеры задач. Меры числа ошибок первого рода. FWER, поправка Бонферрони. Нисходящие процедуры множественной проверки: общий вид, метод Холма. Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS. Оценка числа верных нулевых гипотез и её применение. FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.
 +
:[1.7], главы 2, 3, 4; [2.2], главы 2-5.
 +
 +
[https://yadi.sk/d/VD_oURfBwxWoi '''Анализ зависимостей''']
 +
 +
Корреляция Пирсона, критерий Стьюдента, перестановочный критерий. Ранговая корреляция: коэффициенты Спирмена и Кенделла, их значимость. Связь коэффициентов корреляции. Частная и множественная корреляция, их значимость.
 +
 +
Таблица сопряженности K1xK2. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициенты V Крамера и γ для порядковых величин. Таблица сопряженности 2x2. Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса. Парадокс хи-квадрат.
 +
:[1.2], раздел 5.2; [1.3], глава 20, параграфы 7, 8, 9; [1.4], главы 2, 3.
 +
 +
[https://yadi.sk/d/rQrD_O0qxrCC2 '''Дисперсионный анализ''']
 +
 +
Однофакторная модель. Независимые выборки: критерии Фишера, Краскела-Уоллиса, Джонкхиера. Связанные выборки: критерии Фишера, Фридмана и Пейджа. Предположение сферичности. Модель со случайным эффектом, разделение дисперсии. Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерии Неменьи и Даннета. Проверка гипотезы о равенстве дисперсий: критерии Бартлета и Флайнера-Киллиана.
 +
 +
Двухфакторная модель. Взаимодействие факторов, его интерпретация. Двухфакторный нормальный анализ.
 +
:[1.15], раздел 3.2; [1.3], глава 17.
 +
 +
[https://yadi.sk/d/qkbNyDWByAG7y '''Линейная регрессия''']
 +
 +
Линейная регрессия, МНК. Остаточная сумма квадратов (RSS), коэффициент детерминации. Предположения Гаусса-Маркова. Статистические свойства МНК-оценок. Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность. Кодирование нечисловых признаков. Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика. Значимость коэффициентов линейной регрессии. Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерий Бройша-Пагана), нормальности. Обработка выбросов, расстояние Кука. Метод Бокса-Кокса для преобразования отклика. Устойчивая оценка дисперсии Уайта, её модификации.
 +
:[1.16], главы 3, 4, 6-8
 +
 +
[https://yadi.sk/d/tivdm1oOyXt4M '''Дополнения и обобщения регрессии''']
 +
 +
Обработка пропусков. Интерпретация регрессии.
 +
 +
Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия. Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия. Меры качества обобщённых линейных моделей: аномальность, информационные критерии. Постановка задачи логистической регрессии. Логит, интерпретация коэффициентов логистической регрессии. Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы. Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога. Регрессия счётного признака. Пуассоновская модель. Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов.
 +
 +
:[1.13], глава 2 (GLM)
 +
:[1.5], глава 2, [2.4], главы 2, 3, 4, 5 (логистическая регрессия)
 +
:[1.5], глава 4, [2.1], главы 2, 3, 5 (пуассоновская регрессия)
 +
 +
[https://yadi.sk/d/6iBv286Fz2BH5 '''Прогнозирование временных рядов, часть 1''']
 +
 +
Временной ряд, основные компоненты. Автокорреляция, стационарность, преобразования рядов.  Анализ остатков. Модели AR, MA, ARMA, ARIMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Учёт сезонности. Учёт дополнительных признаков.
 +
:[1.10], главы 2, 8
 +
 +
[https://yadi.sk/d/VGvhzJMnzdT3L '''Прогнозирование временных рядов, часть 2''']
 +
 +
Экспоненциальное сглаживание. Модели ETS. Меры качества прогнозов. Сравнение качества прогнозов. Обнаружение структурных изменений.
 +
 +
Адаптивная селекция и композиция моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка.
 +
Прогнозирование иерархических совокупностей рядов.
 +
Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии. Регрессионный подход к прогнозированию.
 +
:[1.10], главы 7, 9
 +
:[https://yadi.sk/i/qMEJcs7_zfyU8 Automatic Forecasting at Scale, S.J. Taylor, JSM, 2015]
 +
 +
[https://yadi.sk/i/l-qDTqjV33zMsk '''Причинно-следственные связи'''] (осторожно, слайды неполные!)
 +
 +
Неразрешимость парадокса Симпсона в рамках классической статистики.
 +
Причинные графы, цепочки, вилки, коллайдеры. D-разделимость.
 +
Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки.
 +
Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери.
 +
Propensity score, обратное вероятностное взвешивание.
 +
Графы в линейных моделях. Связь со структурными уравнениями.
 +
Контрфакты и их вычисление.
 +
Восстановление графов: динамические данные (причинность по Грейнджеру), статические данные (алгоритм индуктивной причинности).
 +
:[1.14]
 +
:[2.5], глава 3
 +
:[2.6], глава 2
 +
 +
[https://yadi.sk/d/dhj3zAla33wHez '''Последовательный анализ''']
 +
 +
Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений. Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным. Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий. Непараметрические последовательные доверительные интервалы для среднего и медианы.
 +
:[1.1], главы 2, 4-9
 +
 +
== Cеминары ==
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
 
! Группа !! Преподаватель !! Учебный ассистент !! Страница
 
! Группа !! Преподаватель !! Учебный ассистент !! Страница
 
|-
 
|-
| 141 (МОП) || [https://www.hse.ru/?? Швечиков Павел Дмитриевич]  || Егоров Евгений Евгеньевич||   
+
| 142 (МОП) || [https://www.hse.ru/?? Швечиков Павел Дмитриевич]  || Егоров Евгений Евгеньевич||   
 
|-
 
|-
| 142 (МОП) || [http://??.?? Хальман Михаил Анатольевич] || Варганов  Георгий  ||
+
| 141 (МОП) || [http://??.?? Хальман Михаил Анатольевич] || Варганов  Георгий  ||
 
|-
 
|-
 
|}
 
|}
  
'''''Внимание!!!''''' Для работы на семинарах курса  вам понадобятся ноутбуки с установленными на них R (https://www.r-project.org) и RStudio (https://www.rstudio.com/products/rstudio/download/). В противном случае вы не сможете принять полноценное участие в семинарах.  
+
=== Основные ссылки ===
 +
* Для работы на семинарах вам понадобятся ноутбуки с установленными на них R (https://www.r-project.org) и RStudio (https://www.rstudio.com/products/rstudio/download/).  
 +
* [http://swirlstats.com/students.html Инструкция по установке и запуску swirl]
 +
* [http://kbroman.org/knitr_knutshell/pages/Rmarkdown.html  Некоторые основные опции Rmarkdown]
 +
* [http://adv-r.had.co.nz  Advanced R – для тех, кто хочет разобраться в том, как работает R  изнутри]
  
=== Правила выставления оценок ===
+
=== Самостоятельная работа ===  
 +
[https://yadi.sk/i/1WD_sN-YwreBd Ссылка на список задач для самостоятельной работы]
  
В курсе предусмотрено несколько форм контроля знания:
+
===Семинар 1  (5-6 сентября).  Знакомство с языком R.===
* Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента
+
[https://docs.google.com/document/d/1Y_7HMHYN-0D4ot-0rjucya-KVdmZPk-OfQDBbLVumbc/edit?usp=sharing  Задачи по ТВ]
* Практические домашние работы на языке R (всего 4шт: 2 в первом модуле и 2 во втором)
+
* Коллоквиум в конце 1-го модуля
+
* Экзамен в конце 2-го модуля
+
  
 +
До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R"  пакета swirl [http://swirlstats.com/students.html (инструкция по установке и запуску swirl)]  следующие уроки:
 +
* 1: Basic Building Blocks           
 +
* 4: Vectors             
 +
* 7: Matrices and Data Frames         
 +
* 10: lapply and sapply     
 +
* 13: Simulation                       
 +
* 15: Base Graphics   
  
'''Проверочные работы'''  будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице.  В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя  случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам).  Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара.    При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ.  
+
В противном случае на втором семинаре вы не сможете полноценно влиться в работу.
  
 +
===Семинар 2 (12-13 сентября).  Введение в математическую статистику. Метод максимального правдоподобия. Метод моментов. Бутстрэп. Дельта-метод.===
 +
[https://yadi.sk/i/ouWUOF7cv4V4W  Задание на 2-ой семинар]
  
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
+
[https://goo.gl/forms/7k2x8LE6VM0iB48L2 Cсылка на гуглформу с результатами]
  
O<sub>итоговая</sub> = 0.8 * O<sub>накопленная</sub> + 0.2 * О<sub>экз</sub>
+
[https://yadi.sk/d/GyPhCNkRvLFAN  Решение заданий с семинара]
  
Оценка за работу в семестре вычисляется по формуле
+
===Семинар 3 (19-20 сентября).  Статистические критерии основанные на функции правдоподобия.===
 +
[https://yadi.sk/i/Y9LFxEkxvRZdT Задание на 3-ий семинар]
  
O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>дз</sub> + 0.2 * О<sub>коллоквиум</sub>
+
[https://yadi.sk/d/i39dK6dLvTRcr Решение заданий с семинара]
  
Оценка за домашние задания рассчитывается как среднее значение оценок за все выданные домашние задания.  
+
===Семинар 4 (26-27 сентября).   Проверка параметрических  гипотез===
Оценка за самостоятельную работу рассчитывается как среднее значение оценок за все проверочные работы, проведённые на семинарских занятиях.  
+
[https://www.dropbox.com/sh/e9k1c8hemojaw56/AAAMNiL9TuhZzAwcX3dyJtU-a?dl=0 Задания на 4-ый семинар]
  
=== Правила сдачи домашних заданий ===
+
[https://www.dropbox.com/sh/2dpyu4aro1rphdd/AADUnmoP_GPqJuU2lZCnNH47a?dl=0  Решение заданий с семинара]
  
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работа не принимаются.
+
===Семинар 5 (3-4 октября).   Проверка непараметрических  гипотез===
 +
[https://www.dropbox.com/sh/s5jkmlvjg09177q/AAB4XolIe1A-82sL4zHrPvsaa?dl=0 Задания на 5-ый семинар]
  
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
+
[https://www.dropbox.com/sh/1d7u5op3mo992uw/AADn4f9hUsFpnH1NoNo0CP6_a?dl=0  Решение заданий с семинара]
 +
 
 +
===Семинар 6 (10-11 октября).  Множественная проверка гипотез===
 +
[https://www.dropbox.com/sh/2ijvqt199y0iavm/AACqWYIWvYYCogzDnTCK31POa?dl=0 Задания на 6-ой семинар]
 +
 
 +
[https://www.dropbox.com/sh/ztlrzuxzw75c5bo/AAAAYVWtq8lu7pN56x_bv82Xa?dl=0    Решение заданий с семинара]
 +
 
 +
===Семинар 7 (17-18 октября). Анализ зависимостей ===
 +
[https://www.dropbox.com/sh/4gjs1yrcztb473m/AACrAr-Dva8rTMpWqnsR9fkla?dl=0 Задания на 7-ой семинар]
 +
 
 +
[https://www.dropbox.com/sh/siljbe2kilcfwke/AABGyqYzLO1Vm9ux023KbtPWa?dl=0    Решение заданий с семинара]
 +
 
 +
Задание 3 '''Bullshit & Conservativeness''' выносится на самостоятельную работу на оценку и будет приниматься только до начала следующего семинара.
 +
 
 +
===Семинар 8 (31 октября - 1 ноября). Дисперсионный анализ ===
 +
[https://www.dropbox.com/sh/1ghedr54femordt/AACqv5ZEuaimnbV5yHEg8Ieia?dl=0 Задания на 8-ой семинар]
 +
 
 +
[https://www.dropbox.com/sh/62m54i68oeefk9t/AAC0HuNDSSz1jUKC1yB7O4zKa?dl=0 Решение  8-ого семинара]
 +
 
 +
[https://yadi.sk/d/bzNANVTnxwQcB  Скрипт помощь для сопоставления формул из лекций и значения  коэффициентов в таблице ANOVA. Проведена аналогия с линейной регрессией. ]
 +
 
 +
'''Внимание!'''  Задание 3 принимается до начала следующего семинара на почту курса.
 +
 
 +
===Семинар 9 (7-8 ноября). Линейная регрессия ===
 +
[https://www.dropbox.com/sh/jznaw0nlambbwvg/AAABs5X2Dq_I6OH1rx_Gnv35a?dl=0  Задания на 9-ой семинар]
 +
 
 +
[https://www.dropbox.com/sh/03ih9gf2zdbey6h/AABMLz31_5M8hL-5n5E6BEH7a?dl=0  Решение  9-го семинара]
 +
 
 +
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
 +
 
 +
===Семинар 10 (14-15 ноября). Обобщённые линейные модели ===
 +
[https://www.dropbox.com/sh/qk8ginfq6a05gmr/AACQ8ZD9n0gHKPIhBkRkm_6Va?dl=0  Задания на 10-ый семинар]
 +
 
 +
[https://www.dropbox.com/sh/h6cxx14c6je440n/AABc8ZabT-Maj8yOj-Pd6Ftra?dl=0 Решение  10-го семинара]
 +
 
 +
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
 +
 
 +
===Семинар 11 (21-22 ноября). Временные ряды ===
 +
[https://www.dropbox.com/sh/qcn5wnys7j6gp25/AAAI4jHMl2dCfMsx805CnvN8a?dl=0  Задания на 11-ый семинар]
 +
 
 +
[https://www.dropbox.com/sh/z8m0kw8wermqhc2/AACYYP5h8AsMp1P_1kWj6AhHa?dl=0 Решение 11-го семинара]
 +
 
 +
===Семинар 12 (28-29 ноября). Временные ряды. Продолжение ===
 +
 
 +
[https://www.dropbox.com/sh/l60nimzr3y9l2sc/AAAlh0MwHrD8b2nqBfyjD21wa?dl=0 Задание на 12-ый семинар]
 +
 
 +
[https://www.dropbox.com/sh/abwckrl0o2pjq12/AAADNaRDo7-xYoGrPdi_W_dSa?dl=0 Решение 12-го семинара]
 +
 
 +
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
 +
 
 +
===Семинар 13 (5-6 декабря)  Анализ причинности  ===
 +
[https://www.dropbox.com/sh/72vvbbu771mz8xk/AAAPiXeC23XPwga3QYI_4YAha?dl=0  Задание на 13-ый семинар]
 +
 
 +
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
 +
 
 +
== Домашние задания ==
 +
*  Дедлайны по всем домашним заданиям являются мягкими.
 +
*  '''За каждые сутки просрочки из стоимости домашней работы вычитается 0.2  балла.'''
 +
*  Время, которое работа находится на проверке, не включается  в штрафное время.
 +
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. '''Следует помнить, что при повторном списывании деканат имеет право отчислить студента.'''
  
 
Работы и вопросы по результатам проверки работа отправлять '''в соотвествии со своим семинаристом на адреса''':
 
Работы и вопросы по результатам проверки работа отправлять '''в соотвествии со своим семинаристом на адреса''':
Строка 67: Строка 258:
 
ДЗ {Номер ДЗ} или Семинар {Номер Семинара} можно посмотреть в листах [https://docs.google.com/spreadsheets/d/11k6ULlMORmjqqq67RmrArF37qTE2cC1JN9IgYTTNU8s/edit?usp=sharing Таблицы с оценками]
 
ДЗ {Номер ДЗ} или Семинар {Номер Семинара} можно посмотреть в листах [https://docs.google.com/spreadsheets/d/11k6ULlMORmjqqq67RmrArF37qTE2cC1JN9IgYTTNU8s/edit?usp=sharing Таблицы с оценками]
  
=== Софт ===
+
=== Задание 1: исследование свойств статистических критериев на модельных данных===
 +
Стоимость — 2 балла, дедлайн — '''23:59 31.10'''.
 +
<!---
 +
[https://yadi.sk/i/cgT5jGTox5Vrx Задание для 141 группы]
  
== Лекции ==
+
[https://yadi.sk/d/yowkvbBix5cur Задание для 142 группы]
'''Лекция 1''' (5 сентября). Базовые распределения, статистики и их свойства [[https://yadi.sk/d/fFrArK_jum4ve слайды]]
+
--->
 +
=== Задание 2: проверка гипотез ===
 +
Стоимость — 2.5 балла, дедлайн — '''23:59 19.11'''.
 +
<!---
 +
[https://yadi.sk/d/Gt2Wnuf7y3D3M Задание для 141 группы]
  
'''Лекция 2''' (12 сентября). Оценка параметров: ММП, метод моментов, бутстрэп  [[https://yadi.sk/i/NtdP7y-4v3g6Y слайды]]
+
[https://yadi.sk/d/nr4EHvWjy3CzT Задание для 142 группы]
 +
--->
 +
=== Задание 3: регрессия===
 +
Стоимость — 3 балла, дедлайн — '''23:59 3.12'''.
 +
<!---
 +
[https://yadi.sk/i/IkB-rjsMywVQD Задание для 141 группы]
  
== Cеминары ==
+
[https://yadi.sk/i/gJn9ySftywVRU Задание для 142 группы]
'''Семинар 1''' (5-6 сентября).  Знакомство с языком R.  [https://docs.google.com/document/d/1Y_7HMHYN-0D4ot-0rjucya-KVdmZPk-OfQDBbLVumbc/edit?usp=sharing Задачи по ТВ]
+
--->
 +
=== Задание 4: прогнозирование временного ряда ===
 +
Стоимость — 2.5 балла, дедлайн — '''23:59 17.12'''.
  
До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R"  пакета swirl [http://swirlstats.com/students.html (инструкция по установке и запуску swirl)]  следующие уроки:
+
Необходимо выбрать уникальный ряд и построить его прогноз на 3 сезонных периода вперёд; список требований к решению можно найти в слайдах 11 лекции.
* 1: Basic Building Blocks           
+
<!---
* 4: Vectors             
+
[https://docs.google.com/spreadsheets/d/1timOKrFCdYBVECxZePx4esZ_P_LHZZudlOWM7EEbJDY/edit?usp=sharing Таблица с выбранными рядами]
* 7: Matrices and Data Frames         
+
--->
* 10: lapply and sapply     
+
* 13: Simulation                       
+
* 15: Base Graphics   
+
 
+
В противном случае на втором семинаре вы не сможете полноценно влиться в работу.
+
 
+
'''Семинар 2''' (12-13 сентября).  Введение в математическую статистику. Метод Максимального Правдоподобия. Метод Моментов. Бутстрэп. Дельта метод.
+
 
+
Ссылка на задание на семинар:
+
https://yadi.sk/i/ouWUOF7cv4V4W
+
  
 
== Литература ==  
 
== Литература ==  
 
+
===1. Основная литература===
===Основная литература===
+
 
# Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.  
 
# Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.  
 
# Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.  
 
# Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.  
 
# Лагутин, М.Б. Наглядная математическая статистика. — М.: П-центр, 2003.  
 
# Лагутин, М.Б. Наглядная математическая статистика. — М.: П-центр, 2003.  
 
# Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.  
 
# Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.  
# Baltagi, B.H. Econometric analysis of panel data. — Hoboken: John Wiley & Sons, 3rd ed., 2005.  
+
# Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. Boca Raton: Chapman and Hall/CRC, 2013.
 
# Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.  
 
# Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.  
 
# Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.  
 
# Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.  
# Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
 
 
# Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.  
 
# Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.  
 
# Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. —  OpenIntro, 2015.  
 
# Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. —  OpenIntro, 2015.  
# Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
 
 
# Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp  
 
# Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp  
 
# Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.  
 
# Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.  
Строка 113: Строка 305:
 
# Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.  
 
# Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.  
 
# Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.  
 
# Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.  
 
+
=== 2. Дополнительная литература ===
 
+
# Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
=== Дополнительная литература ===
+
+
 
# Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
 
# Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
 
# Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
 
# Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
# Khurshid, A. (2010). Binomial and Poisson Confidence Intervals and its Variants: A Bibliography. Pakistan Journal of Statistics and Operation Research, (1), 75–100.
+
# Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
# Newcombe, R. G. (1998). Two-sided confidence intervals for the single proportion: comparison of seven methods. Statistics in Medicine, 17, 857–72.  
+
# Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
# Newcombe, R. G. (1998). Improved confidence intervals for the difference between binomial proportions based on paired data. Statistics in Medicine, 17, 2635–2650.  
+
# Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013.
# Newcombe, R. G. (1998). Interval estimation for the difference between independent proportions: comparison of eleven methods. Statistics in Medicine, 17, 873–890.  
+
# Ng, H. K. T., Gu, K., & Tang, M. L. (2007). A comparative study of tests for the difference of two Poisson means. Computational Statistics & Data Analysis, 51(6), 3085–3099.
+

Текущая версия на 13:36, 26 августа 2022

Содержание

О курсе

Курс читается для студентов 3-го курса ПМИ специализации "Машинное обучение и приложения" в 1-2 модулях.

Карточка курса и программа

Таблица с оценками

Оставить отзыв на курс: форма

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента
  • Практические домашние работы на языке R (всего 4шт: 1 в первом модуле и 3 во втором)
  • Коллоквиум 31 октября в 9:00 (задачи)
  • Экзамен в конце 2-го модуля

Проверочные работы будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице. В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам). Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара. При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ.

  1. За каждое задание выставляется бинарная оценка
  2. Можно получить дополнительный 1 балл: за доказательство утверждения/ответ с материалом, выходящим за рамки лекции; дополнительно решенную задачу из списка, Максимальный балл за летучку: 3
  3. Доп. баллы можно получить только при верных обязательных заданиях. Уточняйте у семинаристов, что обязательно к выводу/доказательству в обязательных задачах.

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = 0.8 * Oнакопленная + 0.2 * Оэкз.

Оценка за работу в семестре Oнакопленная вычисляется по формуле

Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум,

Одз — сумма оценок за все выданные домашние задания,

Oсамостоятельные — сумма значений оценок за все проверочные работы, делённая на максимально возможную сумму баллов без учёта лекционных контрольных и бонусов, и умноженная на 10.

Лекции

Лектор: Рябенко Евгений Алексеевич

Лекции проходят по понедельникам, 10:30 - 11:50, ауд. 509.

Базовые распределения, статистики и их свойства

Случайные величины и распределения. Дискретные распределения: Бернулли, биномиальное, Пуассона. Функция и плотность распределения. Непрерывные распределения: равномерное, нормальное, Стьюдента, Фишера. Характеристики распределений. Статистики.

[1.3], главы 1, 2, 4, 5.

Оценка параметров

Центральная предельная теорема. Метод максимального правдоподобия. Метод моментов. Бутстреп: параметрический, наивный, несмещённый.

[1.8], главы 4, 6, 5.

Основы проверки гипотез

Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. Свойства достигаемых уровней значимости. Статистическая и практическая значимость. Свойства критериев: несмещённость, состоятельность, мощность.

[1.9], глава 5.

Проверка параметрических гипотез

Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок). Доверительные интервалы для параметров распределений Бернулли: Вальда, Уилсона.

Критерии нормальности: критерий Харке-Бера, хи-квадрат (Пирсона), Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании: t- и z-критерии Стьюдента, критерии хи-квадрат и Фишера.

[1.6], глава 1; [1.2], раздел 3.2.1; [1.10], критерии 1, 3, 7, 9, 10, 15, 16.

Проверка непараметрических гипотез

Критерии знаков: одновыборочный, для связанных выборок. Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Ансари-Брэдли. Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании. Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).

[1.6], главы 1, 2, 4; [2.3], глава 3.

Множественная проверка гипотез

Примеры задач. Меры числа ошибок первого рода. FWER, поправка Бонферрони. Нисходящие процедуры множественной проверки: общий вид, метод Холма. Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS. Оценка числа верных нулевых гипотез и её применение. FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.

[1.7], главы 2, 3, 4; [2.2], главы 2-5.

Анализ зависимостей

Корреляция Пирсона, критерий Стьюдента, перестановочный критерий. Ранговая корреляция: коэффициенты Спирмена и Кенделла, их значимость. Связь коэффициентов корреляции. Частная и множественная корреляция, их значимость.

Таблица сопряженности K1xK2. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициенты V Крамера и γ для порядковых величин. Таблица сопряженности 2x2. Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса. Парадокс хи-квадрат.

[1.2], раздел 5.2; [1.3], глава 20, параграфы 7, 8, 9; [1.4], главы 2, 3.

Дисперсионный анализ

Однофакторная модель. Независимые выборки: критерии Фишера, Краскела-Уоллиса, Джонкхиера. Связанные выборки: критерии Фишера, Фридмана и Пейджа. Предположение сферичности. Модель со случайным эффектом, разделение дисперсии. Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерии Неменьи и Даннета. Проверка гипотезы о равенстве дисперсий: критерии Бартлета и Флайнера-Киллиана.

Двухфакторная модель. Взаимодействие факторов, его интерпретация. Двухфакторный нормальный анализ.

[1.15], раздел 3.2; [1.3], глава 17.

Линейная регрессия

Линейная регрессия, МНК. Остаточная сумма квадратов (RSS), коэффициент детерминации. Предположения Гаусса-Маркова. Статистические свойства МНК-оценок. Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность. Кодирование нечисловых признаков. Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика. Значимость коэффициентов линейной регрессии. Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерий Бройша-Пагана), нормальности. Обработка выбросов, расстояние Кука. Метод Бокса-Кокса для преобразования отклика. Устойчивая оценка дисперсии Уайта, её модификации.

[1.16], главы 3, 4, 6-8

Дополнения и обобщения регрессии

Обработка пропусков. Интерпретация регрессии.

Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия. Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия. Меры качества обобщённых линейных моделей: аномальность, информационные критерии. Постановка задачи логистической регрессии. Логит, интерпретация коэффициентов логистической регрессии. Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы. Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога. Регрессия счётного признака. Пуассоновская модель. Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов.

[1.13], глава 2 (GLM)
[1.5], глава 2, [2.4], главы 2, 3, 4, 5 (логистическая регрессия)
[1.5], глава 4, [2.1], главы 2, 3, 5 (пуассоновская регрессия)

Прогнозирование временных рядов, часть 1

Временной ряд, основные компоненты. Автокорреляция, стационарность, преобразования рядов. Анализ остатков. Модели AR, MA, ARMA, ARIMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Учёт сезонности. Учёт дополнительных признаков.

[1.10], главы 2, 8

Прогнозирование временных рядов, часть 2

Экспоненциальное сглаживание. Модели ETS. Меры качества прогнозов. Сравнение качества прогнозов. Обнаружение структурных изменений.

Адаптивная селекция и композиция моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка. Прогнозирование иерархических совокупностей рядов. Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии. Регрессионный подход к прогнозированию.

[1.10], главы 7, 9
Automatic Forecasting at Scale, S.J. Taylor, JSM, 2015

Причинно-следственные связи (осторожно, слайды неполные!)

Неразрешимость парадокса Симпсона в рамках классической статистики. Причинные графы, цепочки, вилки, коллайдеры. D-разделимость. Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки. Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери. Propensity score, обратное вероятностное взвешивание. Графы в линейных моделях. Связь со структурными уравнениями. Контрфакты и их вычисление. Восстановление графов: динамические данные (причинность по Грейнджеру), статические данные (алгоритм индуктивной причинности).

[1.14]
[2.5], глава 3
[2.6], глава 2

Последовательный анализ

Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений. Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным. Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий. Непараметрические последовательные доверительные интервалы для среднего и медианы.

[1.1], главы 2, 4-9

Cеминары

Группа Преподаватель Учебный ассистент Страница
142 (МОП) Швечиков Павел Дмитриевич Егоров Евгений Евгеньевич
141 (МОП) Хальман Михаил Анатольевич Варганов Георгий

Основные ссылки

Самостоятельная работа

Ссылка на список задач для самостоятельной работы

Семинар 1 (5-6 сентября). Знакомство с языком R.

Задачи по ТВ

До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl (инструкция по установке и запуску swirl) следующие уроки:

  • 1: Basic Building Blocks
  • 4: Vectors
  • 7: Matrices and Data Frames
  • 10: lapply and sapply
  • 13: Simulation
  • 15: Base Graphics

В противном случае на втором семинаре вы не сможете полноценно влиться в работу.

Семинар 2 (12-13 сентября). Введение в математическую статистику. Метод максимального правдоподобия. Метод моментов. Бутстрэп. Дельта-метод.

Задание на 2-ой семинар

Cсылка на гуглформу с результатами

Решение заданий с семинара

Семинар 3 (19-20 сентября). Статистические критерии основанные на функции правдоподобия.

Задание на 3-ий семинар

Решение заданий с семинара

Семинар 4 (26-27 сентября). Проверка параметрических гипотез

Задания на 4-ый семинар

Решение заданий с семинара

Семинар 5 (3-4 октября). Проверка непараметрических гипотез

Задания на 5-ый семинар

Решение заданий с семинара

Семинар 6 (10-11 октября). Множественная проверка гипотез

Задания на 6-ой семинар

Решение заданий с семинара

Семинар 7 (17-18 октября). Анализ зависимостей

Задания на 7-ой семинар

Решение заданий с семинара

Задание 3 Bullshit & Conservativeness выносится на самостоятельную работу на оценку и будет приниматься только до начала следующего семинара.

Семинар 8 (31 октября - 1 ноября). Дисперсионный анализ

Задания на 8-ой семинар

Решение 8-ого семинара

Скрипт помощь для сопоставления формул из лекций и значения коэффициентов в таблице ANOVA. Проведена аналогия с линейной регрессией.

Внимание! Задание 3 принимается до начала следующего семинара на почту курса.

Семинар 9 (7-8 ноября). Линейная регрессия

Задания на 9-ой семинар

Решение 9-го семинара

Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.

Семинар 10 (14-15 ноября). Обобщённые линейные модели

Задания на 10-ый семинар

Решение 10-го семинара

Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.

Семинар 11 (21-22 ноября). Временные ряды

Задания на 11-ый семинар

Решение 11-го семинара

Семинар 12 (28-29 ноября). Временные ряды. Продолжение

Задание на 12-ый семинар

Решение 12-го семинара

Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.

Семинар 13 (5-6 декабря) Анализ причинности

Задание на 13-ый семинар

Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.

Домашние задания

  • Дедлайны по всем домашним заданиям являются мягкими.
  • За каждые сутки просрочки из стоимости домашней работы вычитается 0.2 балла.
  • Время, которое работа находится на проверке, не включается в штрафное время.
  • При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

Работы и вопросы по результатам проверки работа отправлять в соотвествии со своим семинаристом на адреса:

  • Швечиков Павел: psad.homework+shvechikov@gmail.com
  • Хальман Михаил: psad.homework+khalman@gmail.com

Темы писем:

  • Для сдачи ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество"
  • Для вопроса по результатам проверки ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество - Вопрос"
  • Для вопроса по результатам проверки работы на семинаре: "Семинар {Номер Семинара} - Фамилия Имя Отчество - Вопрос"

ДЗ {Номер ДЗ} или Семинар {Номер Семинара} можно посмотреть в листах Таблицы с оценками

Задание 1: исследование свойств статистических критериев на модельных данных

Стоимость — 2 балла, дедлайн — 23:59 31.10.

Задание 2: проверка гипотез

Стоимость — 2.5 балла, дедлайн — 23:59 19.11.

Задание 3: регрессия

Стоимость — 3 балла, дедлайн — 23:59 3.12.

Задание 4: прогнозирование временного ряда

Стоимость — 2.5 балла, дедлайн — 23:59 17.12.

Необходимо выбрать уникальный ряд и построить его прогноз на 3 сезонных периода вперёд; список требований к решению можно найти в слайдах 11 лекции.

Литература

1. Основная литература

  1. Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
  2. Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  3. Лагутин, М.Б. Наглядная математическая статистика. — М.: П-центр, 2003.
  4. Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
  5. Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
  6. Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
  7. Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
  8. Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
  9. Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
  10. Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
  11. Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
  12. Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
  13. Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
  14. Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
  15. Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
  16. Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.

2. Дополнительная литература

  1. Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
  2. Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
  3. Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
  4. Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
  5. Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
  6. Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013.