Прикладной статистический анализ данных — различия между версиями
Ipaulo (обсуждение | вклад) |
Mednik (обсуждение | вклад) м (Откат правок Seosky (обсуждение) к версии Riabenko) |
||
(не показано 57 промежуточных версии 4 участников) | |||
Строка 2: | Строка 2: | ||
Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ] специализации [https://www.hse.ru/ba/ami/mla "Машинное обучение и приложения"] в 1-2 модулях. | Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ] специализации [https://www.hse.ru/ba/ami/mla "Машинное обучение и приложения"] в 1-2 модулях. | ||
− | |||
− | |||
− | |||
− | |||
[https://www.hse.ru/ba/ami/courses/184771666.html Карточка курса и программа] | [https://www.hse.ru/ba/ami/courses/184771666.html Карточка курса и программа] | ||
Строка 12: | Строка 8: | ||
Оставить отзыв на курс: [https://goo.gl/forms/5CddG0gc75VZvqi52 форма] | Оставить отзыв на курс: [https://goo.gl/forms/5CddG0gc75VZvqi52 форма] | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
=== Правила выставления оценок === | === Правила выставления оценок === | ||
− | |||
В курсе предусмотрено несколько форм контроля знания: | В курсе предусмотрено несколько форм контроля знания: | ||
* Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента | * Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента | ||
− | * Практические домашние работы на языке R (всего 4шт: | + | * Практические домашние работы на языке R (всего 4шт: 1 в первом модуле и 3 во втором) |
− | * Коллоквиум в | + | * Коллоквиум 31 октября в 9:00 ([https://yadi.sk/d/vtwZEmeGyCDTz задачи]) |
* Экзамен в конце 2-го модуля | * Экзамен в конце 2-го модуля | ||
− | |||
− | |||
'''Проверочные работы''' будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице. В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам). Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара. При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ. | '''Проверочные работы''' будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице. В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам). Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара. При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ. | ||
− | + | # За каждое задание выставляется бинарная оценка | |
− | + | ||
− | # | + | |
# Можно получить дополнительный 1 балл: за доказательство утверждения/ответ с материалом, выходящим за рамки лекции; дополнительно решенную задачу из списка, Максимальный балл за летучку: 3 | # Можно получить дополнительный 1 балл: за доказательство утверждения/ответ с материалом, выходящим за рамки лекции; дополнительно решенную задачу из списка, Максимальный балл за летучку: 3 | ||
− | # Доп. баллы можно получить | + | # Доп. баллы можно получить только при верных обязательных заданиях. Уточняйте у семинаристов, что обязательно к выводу/доказательству в обязательных задачах. |
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен: | Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен: | ||
− | O<sub>итоговая</sub> = 0.8 * O<sub>накопленная</sub> + 0.2 * О<sub>экз</sub> | + | O<sub>итоговая</sub> = 0.8 * O<sub>накопленная</sub> + 0.2 * О<sub>экз</sub>. |
− | Оценка за работу в семестре вычисляется по формуле | + | Оценка за работу в семестре O<sub>накопленная</sub> вычисляется по формуле |
− | O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>дз</sub> + 0.2 * О<sub>коллоквиум</sub> | + | O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>дз</sub> + 0.2 * О<sub>коллоквиум</sub>, |
− | + | О<sub>дз</sub> — сумма оценок за все выданные домашние задания, | |
− | + | ||
− | + | O<sub>самостоятельные</sub> — сумма значений оценок за все проверочные работы, делённая на максимально возможную сумму баллов без учёта лекционных контрольных и бонусов, и умноженная на 10. | |
− | + | == Лекции == | |
− | + | '''Лектор:''' [http://www.hse.ru/staff/riabenko Рябенко Евгений Алексеевич] | |
− | + | Лекции проходят по понедельникам, 10:30 - 11:50, ауд. 509. | |
− | + | ||
− | + | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
[https://yadi.sk/d/fFrArK_jum4ve '''Базовые распределения, статистики и их свойства'''] | [https://yadi.sk/d/fFrArK_jum4ve '''Базовые распределения, статистики и их свойства'''] | ||
Случайные величины и распределения. Дискретные распределения: Бернулли, биномиальное, Пуассона. Функция и плотность распределения. Непрерывные распределения: равномерное, нормальное, Стьюдента, Фишера. Характеристики распределений. Статистики. | Случайные величины и распределения. Дискретные распределения: Бернулли, биномиальное, Пуассона. Функция и плотность распределения. Непрерывные распределения: равномерное, нормальное, Стьюдента, Фишера. Характеристики распределений. Статистики. | ||
− | |||
:[1.3], главы 1, 2, 4, 5. | :[1.3], главы 1, 2, 4, 5. | ||
Строка 83: | Строка 46: | ||
Центральная предельная теорема. Метод максимального правдоподобия. Метод моментов. Бутстреп: параметрический, наивный, несмещённый. | Центральная предельная теорема. Метод максимального правдоподобия. Метод моментов. Бутстреп: параметрический, наивный, несмещённый. | ||
− | |||
:[1.8], главы 4, 6, 5. | :[1.8], главы 4, 6, 5. | ||
Строка 89: | Строка 51: | ||
Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. Свойства достигаемых уровней значимости. Статистическая и практическая значимость. Свойства критериев: несмещённость, состоятельность, мощность. | Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. Свойства достигаемых уровней значимости. Статистическая и практическая значимость. Свойства критериев: несмещённость, состоятельность, мощность. | ||
− | |||
:[1.9], глава 5. | :[1.9], глава 5. | ||
Строка 97: | Строка 58: | ||
Критерии нормальности: критерий Харке-Бера, хи-квадрат (Пирсона), Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании: t- и z-критерии Стьюдента, критерии хи-квадрат и Фишера. | Критерии нормальности: критерий Харке-Бера, хи-квадрат (Пирсона), Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании: t- и z-критерии Стьюдента, критерии хи-квадрат и Фишера. | ||
− | |||
:[1.6], глава 1; [1.2], раздел 3.2.1; [1.10], критерии 1, 3, 7, 9, 10, 15, 16. | :[1.6], глава 1; [1.2], раздел 3.2.1; [1.10], критерии 1, 3, 7, 9, 10, 15, 16. | ||
Строка 103: | Строка 63: | ||
Критерии знаков: одновыборочный, для связанных выборок. Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Ансари-Брэдли. Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании. Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона). | Критерии знаков: одновыборочный, для связанных выборок. Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Ансари-Брэдли. Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании. Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона). | ||
− | |||
:[1.6], главы 1, 2, 4; [2.3], глава 3. | :[1.6], главы 1, 2, 4; [2.3], глава 3. | ||
Строка 109: | Строка 68: | ||
Примеры задач. Меры числа ошибок первого рода. FWER, поправка Бонферрони. Нисходящие процедуры множественной проверки: общий вид, метод Холма. Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS. Оценка числа верных нулевых гипотез и её применение. FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели. | Примеры задач. Меры числа ошибок первого рода. FWER, поправка Бонферрони. Нисходящие процедуры множественной проверки: общий вид, метод Холма. Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS. Оценка числа верных нулевых гипотез и её применение. FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели. | ||
− | |||
:[1.7], главы 2, 3, 4; [2.2], главы 2-5. | :[1.7], главы 2, 3, 4; [2.2], главы 2-5. | ||
Строка 117: | Строка 75: | ||
Таблица сопряженности K1xK2. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициенты V Крамера и γ для порядковых величин. Таблица сопряженности 2x2. Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса. Парадокс хи-квадрат. | Таблица сопряженности K1xK2. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициенты V Крамера и γ для порядковых величин. Таблица сопряженности 2x2. Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса. Парадокс хи-квадрат. | ||
− | |||
:[1.2], раздел 5.2; [1.3], глава 20, параграфы 7, 8, 9; [1.4], главы 2, 3. | :[1.2], раздел 5.2; [1.3], глава 20, параграфы 7, 8, 9; [1.4], главы 2, 3. | ||
+ | |||
+ | [https://yadi.sk/d/rQrD_O0qxrCC2 '''Дисперсионный анализ'''] | ||
+ | |||
+ | Однофакторная модель. Независимые выборки: критерии Фишера, Краскела-Уоллиса, Джонкхиера. Связанные выборки: критерии Фишера, Фридмана и Пейджа. Предположение сферичности. Модель со случайным эффектом, разделение дисперсии. Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерии Неменьи и Даннета. Проверка гипотезы о равенстве дисперсий: критерии Бартлета и Флайнера-Киллиана. | ||
+ | |||
+ | Двухфакторная модель. Взаимодействие факторов, его интерпретация. Двухфакторный нормальный анализ. | ||
+ | :[1.15], раздел 3.2; [1.3], глава 17. | ||
+ | |||
+ | [https://yadi.sk/d/qkbNyDWByAG7y '''Линейная регрессия'''] | ||
+ | |||
+ | Линейная регрессия, МНК. Остаточная сумма квадратов (RSS), коэффициент детерминации. Предположения Гаусса-Маркова. Статистические свойства МНК-оценок. Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность. Кодирование нечисловых признаков. Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика. Значимость коэффициентов линейной регрессии. Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерий Бройша-Пагана), нормальности. Обработка выбросов, расстояние Кука. Метод Бокса-Кокса для преобразования отклика. Устойчивая оценка дисперсии Уайта, её модификации. | ||
+ | :[1.16], главы 3, 4, 6-8 | ||
+ | |||
+ | [https://yadi.sk/d/tivdm1oOyXt4M '''Дополнения и обобщения регрессии'''] | ||
+ | |||
+ | Обработка пропусков. Интерпретация регрессии. | ||
+ | |||
+ | Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия. Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия. Меры качества обобщённых линейных моделей: аномальность, информационные критерии. Постановка задачи логистической регрессии. Логит, интерпретация коэффициентов логистической регрессии. Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы. Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога. Регрессия счётного признака. Пуассоновская модель. Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов. | ||
+ | |||
+ | :[1.13], глава 2 (GLM) | ||
+ | :[1.5], глава 2, [2.4], главы 2, 3, 4, 5 (логистическая регрессия) | ||
+ | :[1.5], глава 4, [2.1], главы 2, 3, 5 (пуассоновская регрессия) | ||
+ | |||
+ | [https://yadi.sk/d/6iBv286Fz2BH5 '''Прогнозирование временных рядов, часть 1'''] | ||
+ | |||
+ | Временной ряд, основные компоненты. Автокорреляция, стационарность, преобразования рядов. Анализ остатков. Модели AR, MA, ARMA, ARIMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Учёт сезонности. Учёт дополнительных признаков. | ||
+ | :[1.10], главы 2, 8 | ||
+ | |||
+ | [https://yadi.sk/d/VGvhzJMnzdT3L '''Прогнозирование временных рядов, часть 2'''] | ||
+ | |||
+ | Экспоненциальное сглаживание. Модели ETS. Меры качества прогнозов. Сравнение качества прогнозов. Обнаружение структурных изменений. | ||
+ | |||
+ | Адаптивная селекция и композиция моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка. | ||
+ | Прогнозирование иерархических совокупностей рядов. | ||
+ | Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии. Регрессионный подход к прогнозированию. | ||
+ | :[1.10], главы 7, 9 | ||
+ | :[https://yadi.sk/i/qMEJcs7_zfyU8 Automatic Forecasting at Scale, S.J. Taylor, JSM, 2015] | ||
+ | |||
+ | [https://yadi.sk/i/l-qDTqjV33zMsk '''Причинно-следственные связи'''] (осторожно, слайды неполные!) | ||
+ | |||
+ | Неразрешимость парадокса Симпсона в рамках классической статистики. | ||
+ | Причинные графы, цепочки, вилки, коллайдеры. D-разделимость. | ||
+ | Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки. | ||
+ | Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери. | ||
+ | Propensity score, обратное вероятностное взвешивание. | ||
+ | Графы в линейных моделях. Связь со структурными уравнениями. | ||
+ | Контрфакты и их вычисление. | ||
+ | Восстановление графов: динамические данные (причинность по Грейнджеру), статические данные (алгоритм индуктивной причинности). | ||
+ | :[1.14] | ||
+ | :[2.5], глава 3 | ||
+ | :[2.6], глава 2 | ||
+ | |||
+ | [https://yadi.sk/d/dhj3zAla33wHez '''Последовательный анализ'''] | ||
+ | |||
+ | Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений. Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным. Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий. Непараметрические последовательные доверительные интервалы для среднего и медианы. | ||
+ | :[1.1], главы 2, 4-9 | ||
== Cеминары == | == Cеминары == | ||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | ! Группа !! Преподаватель !! Учебный ассистент !! Страница | ||
+ | |- | ||
+ | | 142 (МОП) || [https://www.hse.ru/?? Швечиков Павел Дмитриевич] || Егоров Евгений Евгеньевич|| | ||
+ | |- | ||
+ | | 141 (МОП) || [http://??.?? Хальман Михаил Анатольевич] || Варганов Георгий || | ||
+ | |- | ||
+ | |} | ||
+ | |||
+ | === Основные ссылки === | ||
+ | * Для работы на семинарах вам понадобятся ноутбуки с установленными на них R (https://www.r-project.org) и RStudio (https://www.rstudio.com/products/rstudio/download/). | ||
+ | * [http://swirlstats.com/students.html Инструкция по установке и запуску swirl] | ||
+ | * [http://kbroman.org/knitr_knutshell/pages/Rmarkdown.html Некоторые основные опции Rmarkdown] | ||
+ | * [http://adv-r.had.co.nz Advanced R – для тех, кто хочет разобраться в том, как работает R изнутри] | ||
+ | === Самостоятельная работа === | ||
[https://yadi.sk/i/1WD_sN-YwreBd Ссылка на список задач для самостоятельной работы] | [https://yadi.sk/i/1WD_sN-YwreBd Ссылка на список задач для самостоятельной работы] | ||
− | + | ===Семинар 1 (5-6 сентября). Знакомство с языком R.=== | |
− | + | [https://docs.google.com/document/d/1Y_7HMHYN-0D4ot-0rjucya-KVdmZPk-OfQDBbLVumbc/edit?usp=sharing Задачи по ТВ] | |
До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl [http://swirlstats.com/students.html (инструкция по установке и запуску swirl)] следующие уроки: | До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl [http://swirlstats.com/students.html (инструкция по установке и запуску swirl)] следующие уроки: | ||
Строка 137: | Строка 166: | ||
В противном случае на втором семинаре вы не сможете полноценно влиться в работу. | В противном случае на втором семинаре вы не сможете полноценно влиться в работу. | ||
− | + | ===Семинар 2 (12-13 сентября). Введение в математическую статистику. Метод максимального правдоподобия. Метод моментов. Бутстрэп. Дельта-метод.=== | |
− | + | ||
[https://yadi.sk/i/ouWUOF7cv4V4W Задание на 2-ой семинар] | [https://yadi.sk/i/ouWUOF7cv4V4W Задание на 2-ой семинар] | ||
Строка 145: | Строка 173: | ||
[https://yadi.sk/d/GyPhCNkRvLFAN Решение заданий с семинара] | [https://yadi.sk/d/GyPhCNkRvLFAN Решение заданий с семинара] | ||
− | + | ===Семинар 3 (19-20 сентября). Статистические критерии основанные на функции правдоподобия.=== | |
− | + | ||
[https://yadi.sk/i/Y9LFxEkxvRZdT Задание на 3-ий семинар] | [https://yadi.sk/i/Y9LFxEkxvRZdT Задание на 3-ий семинар] | ||
[https://yadi.sk/d/i39dK6dLvTRcr Решение заданий с семинара] | [https://yadi.sk/d/i39dK6dLvTRcr Решение заданий с семинара] | ||
− | + | ===Семинар 4 (26-27 сентября). Проверка параметрических гипотез=== | |
− | + | ||
[https://www.dropbox.com/sh/e9k1c8hemojaw56/AAAMNiL9TuhZzAwcX3dyJtU-a?dl=0 Задания на 4-ый семинар] | [https://www.dropbox.com/sh/e9k1c8hemojaw56/AAAMNiL9TuhZzAwcX3dyJtU-a?dl=0 Задания на 4-ый семинар] | ||
− | + | [https://www.dropbox.com/sh/2dpyu4aro1rphdd/AADUnmoP_GPqJuU2lZCnNH47a?dl=0 Решение заданий с семинара] | |
− | + | ||
+ | ===Семинар 5 (3-4 октября). Проверка непараметрических гипотез=== | ||
[https://www.dropbox.com/sh/s5jkmlvjg09177q/AAB4XolIe1A-82sL4zHrPvsaa?dl=0 Задания на 5-ый семинар] | [https://www.dropbox.com/sh/s5jkmlvjg09177q/AAB4XolIe1A-82sL4zHrPvsaa?dl=0 Задания на 5-ый семинар] | ||
− | + | [https://www.dropbox.com/sh/1d7u5op3mo992uw/AADn4f9hUsFpnH1NoNo0CP6_a?dl=0 Решение заданий с семинара] | |
+ | ===Семинар 6 (10-11 октября). Множественная проверка гипотез=== | ||
[https://www.dropbox.com/sh/2ijvqt199y0iavm/AACqWYIWvYYCogzDnTCK31POa?dl=0 Задания на 6-ой семинар] | [https://www.dropbox.com/sh/2ijvqt199y0iavm/AACqWYIWvYYCogzDnTCK31POa?dl=0 Задания на 6-ой семинар] | ||
− | + | [https://www.dropbox.com/sh/ztlrzuxzw75c5bo/AAAAYVWtq8lu7pN56x_bv82Xa?dl=0 Решение заданий с семинара] | |
+ | ===Семинар 7 (17-18 октября). Анализ зависимостей === | ||
[https://www.dropbox.com/sh/4gjs1yrcztb473m/AACrAr-Dva8rTMpWqnsR9fkla?dl=0 Задания на 7-ой семинар] | [https://www.dropbox.com/sh/4gjs1yrcztb473m/AACrAr-Dva8rTMpWqnsR9fkla?dl=0 Задания на 7-ой семинар] | ||
+ | [https://www.dropbox.com/sh/siljbe2kilcfwke/AABGyqYzLO1Vm9ux023KbtPWa?dl=0 Решение заданий с семинара] | ||
+ | |||
+ | Задание 3 '''Bullshit & Conservativeness''' выносится на самостоятельную работу на оценку и будет приниматься только до начала следующего семинара. | ||
+ | |||
+ | ===Семинар 8 (31 октября - 1 ноября). Дисперсионный анализ === | ||
+ | [https://www.dropbox.com/sh/1ghedr54femordt/AACqv5ZEuaimnbV5yHEg8Ieia?dl=0 Задания на 8-ой семинар] | ||
+ | |||
+ | [https://www.dropbox.com/sh/62m54i68oeefk9t/AAC0HuNDSSz1jUKC1yB7O4zKa?dl=0 Решение 8-ого семинара] | ||
+ | |||
+ | [https://yadi.sk/d/bzNANVTnxwQcB Скрипт помощь для сопоставления формул из лекций и значения коэффициентов в таблице ANOVA. Проведена аналогия с линейной регрессией. ] | ||
+ | |||
+ | '''Внимание!''' Задание 3 принимается до начала следующего семинара на почту курса. | ||
+ | |||
+ | ===Семинар 9 (7-8 ноября). Линейная регрессия === | ||
+ | [https://www.dropbox.com/sh/jznaw0nlambbwvg/AAABs5X2Dq_I6OH1rx_Gnv35a?dl=0 Задания на 9-ой семинар] | ||
+ | |||
+ | [https://www.dropbox.com/sh/03ih9gf2zdbey6h/AABMLz31_5M8hL-5n5E6BEH7a?dl=0 Решение 9-го семинара] | ||
+ | |||
+ | Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника. | ||
+ | |||
+ | ===Семинар 10 (14-15 ноября). Обобщённые линейные модели === | ||
+ | [https://www.dropbox.com/sh/qk8ginfq6a05gmr/AACQ8ZD9n0gHKPIhBkRkm_6Va?dl=0 Задания на 10-ый семинар] | ||
+ | |||
+ | [https://www.dropbox.com/sh/h6cxx14c6je440n/AABc8ZabT-Maj8yOj-Pd6Ftra?dl=0 Решение 10-го семинара] | ||
+ | |||
+ | Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника. | ||
+ | |||
+ | ===Семинар 11 (21-22 ноября). Временные ряды === | ||
+ | [https://www.dropbox.com/sh/qcn5wnys7j6gp25/AAAI4jHMl2dCfMsx805CnvN8a?dl=0 Задания на 11-ый семинар] | ||
+ | |||
+ | [https://www.dropbox.com/sh/z8m0kw8wermqhc2/AACYYP5h8AsMp1P_1kWj6AhHa?dl=0 Решение 11-го семинара] | ||
+ | |||
+ | ===Семинар 12 (28-29 ноября). Временные ряды. Продолжение === | ||
+ | |||
+ | [https://www.dropbox.com/sh/l60nimzr3y9l2sc/AAAlh0MwHrD8b2nqBfyjD21wa?dl=0 Задание на 12-ый семинар] | ||
+ | |||
+ | [https://www.dropbox.com/sh/abwckrl0o2pjq12/AAADNaRDo7-xYoGrPdi_W_dSa?dl=0 Решение 12-го семинара] | ||
+ | |||
+ | Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника. | ||
+ | |||
+ | ===Семинар 13 (5-6 декабря) Анализ причинности === | ||
+ | [https://www.dropbox.com/sh/72vvbbu771mz8xk/AAAPiXeC23XPwga3QYI_4YAha?dl=0 Задание на 13-ый семинар] | ||
+ | |||
+ | Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника. | ||
== Домашние задания == | == Домашние задания == | ||
+ | * Дедлайны по всем домашним заданиям являются мягкими. | ||
+ | * '''За каждые сутки просрочки из стоимости домашней работы вычитается 0.2 балла.''' | ||
+ | * Время, которое работа находится на проверке, не включается в штрафное время. | ||
+ | * При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. '''Следует помнить, что при повторном списывании деканат имеет право отчислить студента.''' | ||
+ | Работы и вопросы по результатам проверки работа отправлять '''в соотвествии со своим семинаристом на адреса''': | ||
+ | * Швечиков Павел: psad.homework+shvechikov@gmail.com | ||
+ | * Хальман Михаил: psad.homework+khalman@gmail.com | ||
− | + | Темы писем: | |
− | + | * Для сдачи ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество" | |
+ | * Для вопроса по результатам проверки ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество - Вопрос" | ||
+ | * Для вопроса по результатам проверки работы на семинаре: "Семинар {Номер Семинара} - Фамилия Имя Отчество - Вопрос" | ||
+ | ДЗ {Номер ДЗ} или Семинар {Номер Семинара} можно посмотреть в листах [https://docs.google.com/spreadsheets/d/11k6ULlMORmjqqq67RmrArF37qTE2cC1JN9IgYTTNU8s/edit?usp=sharing Таблицы с оценками] | ||
+ | === Задание 1: исследование свойств статистических критериев на модельных данных=== | ||
+ | Стоимость — 2 балла, дедлайн — '''23:59 31.10'''. | ||
+ | <!--- | ||
+ | [https://yadi.sk/i/cgT5jGTox5Vrx Задание для 141 группы] | ||
− | == | + | [https://yadi.sk/d/yowkvbBix5cur Задание для 142 группы] |
+ | ---> | ||
+ | === Задание 2: проверка гипотез === | ||
+ | Стоимость — 2.5 балла, дедлайн — '''23:59 19.11'''. | ||
+ | <!--- | ||
+ | [https://yadi.sk/d/Gt2Wnuf7y3D3M Задание для 141 группы] | ||
+ | [https://yadi.sk/d/nr4EHvWjy3CzT Задание для 142 группы] | ||
+ | ---> | ||
+ | === Задание 3: регрессия=== | ||
+ | Стоимость — 3 балла, дедлайн — '''23:59 3.12'''. | ||
+ | <!--- | ||
+ | [https://yadi.sk/i/IkB-rjsMywVQD Задание для 141 группы] | ||
+ | |||
+ | [https://yadi.sk/i/gJn9ySftywVRU Задание для 142 группы] | ||
+ | ---> | ||
+ | === Задание 4: прогнозирование временного ряда === | ||
+ | Стоимость — 2.5 балла, дедлайн — '''23:59 17.12'''. | ||
+ | |||
+ | Необходимо выбрать уникальный ряд и построить его прогноз на 3 сезонных периода вперёд; список требований к решению можно найти в слайдах 11 лекции. | ||
+ | <!--- | ||
+ | [https://docs.google.com/spreadsheets/d/1timOKrFCdYBVECxZePx4esZ_P_LHZZudlOWM7EEbJDY/edit?usp=sharing Таблица с выбранными рядами] | ||
+ | ---> | ||
+ | |||
+ | == Литература == | ||
===1. Основная литература=== | ===1. Основная литература=== | ||
# Вальд, А. Последовательный анализ. — М.: Физматлит, 1960. | # Вальд, А. Последовательный анализ. — М.: Физматлит, 1960. | ||
Строка 195: | Строка 305: | ||
# Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012. | # Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012. | ||
# Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013. | # Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013. | ||
− | |||
=== 2. Дополнительная литература === | === 2. Дополнительная литература === | ||
# Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013. | # Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013. | ||
Строка 201: | Строка 310: | ||
# Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005. | # Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005. | ||
# Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013. | # Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013. | ||
+ | # Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013. | ||
+ | # Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013. |
Текущая версия на 13:36, 26 августа 2022
Содержание
- 1 О курсе
- 2 Лекции
- 3 Cеминары
- 3.1 Основные ссылки
- 3.2 Самостоятельная работа
- 3.3 Семинар 1 (5-6 сентября). Знакомство с языком R.
- 3.4 Семинар 2 (12-13 сентября). Введение в математическую статистику. Метод максимального правдоподобия. Метод моментов. Бутстрэп. Дельта-метод.
- 3.5 Семинар 3 (19-20 сентября). Статистические критерии основанные на функции правдоподобия.
- 3.6 Семинар 4 (26-27 сентября). Проверка параметрических гипотез
- 3.7 Семинар 5 (3-4 октября). Проверка непараметрических гипотез
- 3.8 Семинар 6 (10-11 октября). Множественная проверка гипотез
- 3.9 Семинар 7 (17-18 октября). Анализ зависимостей
- 3.10 Семинар 8 (31 октября - 1 ноября). Дисперсионный анализ
- 3.11 Семинар 9 (7-8 ноября). Линейная регрессия
- 3.12 Семинар 10 (14-15 ноября). Обобщённые линейные модели
- 3.13 Семинар 11 (21-22 ноября). Временные ряды
- 3.14 Семинар 12 (28-29 ноября). Временные ряды. Продолжение
- 3.15 Семинар 13 (5-6 декабря) Анализ причинности
- 4 Домашние задания
- 5 Литература
О курсе
Курс читается для студентов 3-го курса ПМИ специализации "Машинное обучение и приложения" в 1-2 модулях.
Оставить отзыв на курс: форма
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента
- Практические домашние работы на языке R (всего 4шт: 1 в первом модуле и 3 во втором)
- Коллоквиум 31 октября в 9:00 (задачи)
- Экзамен в конце 2-го модуля
Проверочные работы будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице. В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам). Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара. При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ.
- За каждое задание выставляется бинарная оценка
- Можно получить дополнительный 1 балл: за доказательство утверждения/ответ с материалом, выходящим за рамки лекции; дополнительно решенную задачу из списка, Максимальный балл за летучку: 3
- Доп. баллы можно получить только при верных обязательных заданиях. Уточняйте у семинаристов, что обязательно к выводу/доказательству в обязательных задачах.
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = 0.8 * Oнакопленная + 0.2 * Оэкз.
Оценка за работу в семестре Oнакопленная вычисляется по формуле
Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум,
Одз — сумма оценок за все выданные домашние задания,
Oсамостоятельные — сумма значений оценок за все проверочные работы, делённая на максимально возможную сумму баллов без учёта лекционных контрольных и бонусов, и умноженная на 10.
Лекции
Лектор: Рябенко Евгений Алексеевич
Лекции проходят по понедельникам, 10:30 - 11:50, ауд. 509.
Базовые распределения, статистики и их свойства
Случайные величины и распределения. Дискретные распределения: Бернулли, биномиальное, Пуассона. Функция и плотность распределения. Непрерывные распределения: равномерное, нормальное, Стьюдента, Фишера. Характеристики распределений. Статистики.
- [1.3], главы 1, 2, 4, 5.
Центральная предельная теорема. Метод максимального правдоподобия. Метод моментов. Бутстреп: параметрический, наивный, несмещённый.
- [1.8], главы 4, 6, 5.
Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. Свойства достигаемых уровней значимости. Статистическая и практическая значимость. Свойства критериев: несмещённость, состоятельность, мощность.
- [1.9], глава 5.
Проверка параметрических гипотез
Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок). Доверительные интервалы для параметров распределений Бернулли: Вальда, Уилсона.
Критерии нормальности: критерий Харке-Бера, хи-квадрат (Пирсона), Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании: t- и z-критерии Стьюдента, критерии хи-квадрат и Фишера.
- [1.6], глава 1; [1.2], раздел 3.2.1; [1.10], критерии 1, 3, 7, 9, 10, 15, 16.
Проверка непараметрических гипотез
Критерии знаков: одновыборочный, для связанных выборок. Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Ансари-Брэдли. Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании. Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).
- [1.6], главы 1, 2, 4; [2.3], глава 3.
Множественная проверка гипотез
Примеры задач. Меры числа ошибок первого рода. FWER, поправка Бонферрони. Нисходящие процедуры множественной проверки: общий вид, метод Холма. Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS. Оценка числа верных нулевых гипотез и её применение. FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.
- [1.7], главы 2, 3, 4; [2.2], главы 2-5.
Корреляция Пирсона, критерий Стьюдента, перестановочный критерий. Ранговая корреляция: коэффициенты Спирмена и Кенделла, их значимость. Связь коэффициентов корреляции. Частная и множественная корреляция, их значимость.
Таблица сопряженности K1xK2. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициенты V Крамера и γ для порядковых величин. Таблица сопряженности 2x2. Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса. Парадокс хи-квадрат.
- [1.2], раздел 5.2; [1.3], глава 20, параграфы 7, 8, 9; [1.4], главы 2, 3.
Однофакторная модель. Независимые выборки: критерии Фишера, Краскела-Уоллиса, Джонкхиера. Связанные выборки: критерии Фишера, Фридмана и Пейджа. Предположение сферичности. Модель со случайным эффектом, разделение дисперсии. Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерии Неменьи и Даннета. Проверка гипотезы о равенстве дисперсий: критерии Бартлета и Флайнера-Киллиана.
Двухфакторная модель. Взаимодействие факторов, его интерпретация. Двухфакторный нормальный анализ.
- [1.15], раздел 3.2; [1.3], глава 17.
Линейная регрессия, МНК. Остаточная сумма квадратов (RSS), коэффициент детерминации. Предположения Гаусса-Маркова. Статистические свойства МНК-оценок. Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность. Кодирование нечисловых признаков. Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика. Значимость коэффициентов линейной регрессии. Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерий Бройша-Пагана), нормальности. Обработка выбросов, расстояние Кука. Метод Бокса-Кокса для преобразования отклика. Устойчивая оценка дисперсии Уайта, её модификации.
- [1.16], главы 3, 4, 6-8
Дополнения и обобщения регрессии
Обработка пропусков. Интерпретация регрессии.
Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия. Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия. Меры качества обобщённых линейных моделей: аномальность, информационные критерии. Постановка задачи логистической регрессии. Логит, интерпретация коэффициентов логистической регрессии. Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы. Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога. Регрессия счётного признака. Пуассоновская модель. Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов.
- [1.13], глава 2 (GLM)
- [1.5], глава 2, [2.4], главы 2, 3, 4, 5 (логистическая регрессия)
- [1.5], глава 4, [2.1], главы 2, 3, 5 (пуассоновская регрессия)
Прогнозирование временных рядов, часть 1
Временной ряд, основные компоненты. Автокорреляция, стационарность, преобразования рядов. Анализ остатков. Модели AR, MA, ARMA, ARIMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Учёт сезонности. Учёт дополнительных признаков.
- [1.10], главы 2, 8
Прогнозирование временных рядов, часть 2
Экспоненциальное сглаживание. Модели ETS. Меры качества прогнозов. Сравнение качества прогнозов. Обнаружение структурных изменений.
Адаптивная селекция и композиция моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка. Прогнозирование иерархических совокупностей рядов. Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии. Регрессионный подход к прогнозированию.
- [1.10], главы 7, 9
- Automatic Forecasting at Scale, S.J. Taylor, JSM, 2015
Причинно-следственные связи (осторожно, слайды неполные!)
Неразрешимость парадокса Симпсона в рамках классической статистики. Причинные графы, цепочки, вилки, коллайдеры. D-разделимость. Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки. Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери. Propensity score, обратное вероятностное взвешивание. Графы в линейных моделях. Связь со структурными уравнениями. Контрфакты и их вычисление. Восстановление графов: динамические данные (причинность по Грейнджеру), статические данные (алгоритм индуктивной причинности).
- [1.14]
- [2.5], глава 3
- [2.6], глава 2
Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений. Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным. Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий. Непараметрические последовательные доверительные интервалы для среднего и медианы.
- [1.1], главы 2, 4-9
Cеминары
Группа | Преподаватель | Учебный ассистент | Страница |
---|---|---|---|
142 (МОП) | Швечиков Павел Дмитриевич | Егоров Евгений Евгеньевич | |
141 (МОП) | Хальман Михаил Анатольевич | Варганов Георгий |
Основные ссылки
- Для работы на семинарах вам понадобятся ноутбуки с установленными на них R (https://www.r-project.org) и RStudio (https://www.rstudio.com/products/rstudio/download/).
- Инструкция по установке и запуску swirl
- Некоторые основные опции Rmarkdown
- Advanced R – для тех, кто хочет разобраться в том, как работает R изнутри
Самостоятельная работа
Ссылка на список задач для самостоятельной работы
Семинар 1 (5-6 сентября). Знакомство с языком R.
До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl (инструкция по установке и запуску swirl) следующие уроки:
- 1: Basic Building Blocks
- 4: Vectors
- 7: Matrices and Data Frames
- 10: lapply and sapply
- 13: Simulation
- 15: Base Graphics
В противном случае на втором семинаре вы не сможете полноценно влиться в работу.
Семинар 2 (12-13 сентября). Введение в математическую статистику. Метод максимального правдоподобия. Метод моментов. Бутстрэп. Дельта-метод.
Cсылка на гуглформу с результатами
Семинар 3 (19-20 сентября). Статистические критерии основанные на функции правдоподобия.
Семинар 4 (26-27 сентября). Проверка параметрических гипотез
Семинар 5 (3-4 октября). Проверка непараметрических гипотез
Семинар 6 (10-11 октября). Множественная проверка гипотез
Семинар 7 (17-18 октября). Анализ зависимостей
Задание 3 Bullshit & Conservativeness выносится на самостоятельную работу на оценку и будет приниматься только до начала следующего семинара.
Семинар 8 (31 октября - 1 ноября). Дисперсионный анализ
Внимание! Задание 3 принимается до начала следующего семинара на почту курса.
Семинар 9 (7-8 ноября). Линейная регрессия
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
Семинар 10 (14-15 ноября). Обобщённые линейные модели
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
Семинар 11 (21-22 ноября). Временные ряды
Семинар 12 (28-29 ноября). Временные ряды. Продолжение
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
Семинар 13 (5-6 декабря) Анализ причинности
Единственное задание на семинаре выносится на самостоятельную работу до 23:59 следующего вторника.
Домашние задания
- Дедлайны по всем домашним заданиям являются мягкими.
- За каждые сутки просрочки из стоимости домашней работы вычитается 0.2 балла.
- Время, которое работа находится на проверке, не включается в штрафное время.
- При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
Работы и вопросы по результатам проверки работа отправлять в соотвествии со своим семинаристом на адреса:
- Швечиков Павел: psad.homework+shvechikov@gmail.com
- Хальман Михаил: psad.homework+khalman@gmail.com
Темы писем:
- Для сдачи ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество"
- Для вопроса по результатам проверки ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество - Вопрос"
- Для вопроса по результатам проверки работы на семинаре: "Семинар {Номер Семинара} - Фамилия Имя Отчество - Вопрос"
ДЗ {Номер ДЗ} или Семинар {Номер Семинара} можно посмотреть в листах Таблицы с оценками
Задание 1: исследование свойств статистических критериев на модельных данных
Стоимость — 2 балла, дедлайн — 23:59 31.10.
Задание 2: проверка гипотез
Стоимость — 2.5 балла, дедлайн — 23:59 19.11.
Задание 3: регрессия
Стоимость — 3 балла, дедлайн — 23:59 3.12.
Задание 4: прогнозирование временного ряда
Стоимость — 2.5 балла, дедлайн — 23:59 17.12.
Необходимо выбрать уникальный ряд и построить его прогноз на 3 сезонных периода вперёд; список требований к решению можно найти в слайдах 11 лекции.
Литература
1. Основная литература
- Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
- Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Лагутин, М.Б. Наглядная математическая статистика. — М.: П-центр, 2003.
- Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
- Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
- Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
- Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
- Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
- Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
- Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
- Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
- Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
- Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
- Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
- Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
- Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
2. Дополнительная литература
- Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
- Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
- Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
- Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
- Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
- Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013.