Прикладной статистический анализ данных

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс читается для студентов 3-го курса ПМИ специализации "Машинное обучение и приложения" в 1-2 модулях.

Лектор: Рябенко Евгений Алексеевич

Лекции проходят по понедельникам, 10:30 - 11:50, ауд. 509.

Карточка курса и программа

Таблица с оценками

Оставить отзыв на курс: форма

Семинары

Группа Преподаватель Учебный ассистент Страница
141 (МОП) Швечиков Павел Дмитриевич Егоров Евгений Евгеньевич
142 (МОП) Хальман Михаил Анатольевич Варганов Георгий

Внимание!!! Для работы на семинарах курса вам понадобятся ноутбуки с установленными на них R (https://www.r-project.org) и RStudio (https://www.rstudio.com/products/rstudio/download/). В противном случае вы не сможете принять полноценное участие в семинарах.

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Проверочные работы на семинарах, проверяющие знание основных фактов с лекций и ключевые навыки студента
  • Практические домашние работы на языке R (всего 4шт: 2 в первом модуле и 2 во втором)
  • Коллоквиум в конце 1-го модуля
  • Экзамен в конце 2-го модуля


Проверочные работы будут проводиться в режиме блиц преимущественно в начале семинара. В каждую проверочную работу будут входить задачи из списка, вывешенного на этой странице. В этот список будет входить фиксированный набор задач по каждой пройденной теме. После прохождения темы выложенные задачи к этой теме меняться не будут. Каждая следующая проверочная работа будет включать в себя случайную выборку из всех задач, включенных в этот список (в т.ч. и по предыдущим пройденным темам). Таким образом, у всех есть возможность подготовиться к проверочной работе до начала семинара. При этом любые попытки списывания будут жестко караться в соответствии с правилами ВШЭ.

Проверочные работы: уточнение

  1. За каждое задание выставляются оценки из множества ${0; 1}$
  2. Можно получить дополнительный 1 балл: за доказательство утверждения/ответ с материалом, выходящим за рамки лекции; дополнительно решенную задачу из списка, Максимальный балл за летучку: 3
  3. Доп. баллы можно получить, только при верных обязательных заданиях. Уточняйте у семинаристов, что обязательно к выводу/доказательству в обязательных задачах.

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = 0.8 * Oнакопленная + 0.2 * Оэкз

Оценка за работу в семестре вычисляется по формуле

Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум

Оценка за домашние задания рассчитывается как среднее значение оценок за все выданные домашние задания. Оценка за самостоятельную работу рассчитывается как среднее значение оценок за все проверочные работы, проведённые на семинарских занятиях.

Правила сдачи домашних заданий

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работа не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

Работы и вопросы по результатам проверки работа отправлять в соотвествии со своим семинаристом на адреса:

  • Швечиков Павел: psad.homework+shvechikov@gmail.com
  • Хальман Михаил: psad.homework+khalman@gmail.com

Темы писем:

  • Для сдачи ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество"
  • Для вопроса по результатам проверки ДЗ: "ДЗ {Номер ДЗ} - Фамилия Имя Отчество - Вопрос"
  • Для вопроса по результатам проверки работы на семинаре: "Семинар {Номер Семинара} - Фамилия Имя Отчество - Вопрос"

ДЗ {Номер ДЗ} или Семинар {Номер Семинара} можно посмотреть в листах Таблицы с оценками

Софт

Лекции

Лекция 1 (5 сентября). Базовые распределения, статистики и их свойства [слайды]

Лекция 2 (12 сентября). Оценка параметров: ММП, метод моментов, бутстрэп [слайды]

Лекция 3 (19 сентября). Основы проверки гипотез [слайды]

Лекция 4 (26 сентября). Проверка параметрических гипотез [[1]]

Cеминары

Ссылка на список задач для самостоятельной работы


Семинар 1 (5-6 сентября). Знакомство с языком R. Задачи по ТВ

До начала второго семинара, убедитесь, пожалуйста, что вы прошли из блока "R Programming: The basics of programming in R" пакета swirl (инструкция по установке и запуску swirl) следующие уроки:

  • 1: Basic Building Blocks
  • 4: Vectors
  • 7: Matrices and Data Frames
  • 10: lapply and sapply
  • 13: Simulation
  • 15: Base Graphics

В противном случае на втором семинаре вы не сможете полноценно влиться в работу.

Семинар 2 (12-13 сентября). Введение в математическую статистику. Метод Максимального Правдоподобия. Метод Моментов. Бутстрэп. Дельта метод.

Задание на 2-ой семинар

Cсылка на гуглформу с результатами

Решение заданий с семинара

Семинар 3 (19-20 сентября). Статистические критерии основанные на функции правдоподобия.

Задание на 3-ий семинар

Решение заданий с семинара

Семинар 4 (26-27 сентября). Проверка параметрических гипотез

Задания на 4-ый семинар

Литература

Основная литература

  1. Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
  2. Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  3. Лагутин, М.Б. Наглядная математическая статистика. — М.: П-центр, 2003.
  4. Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
  5. Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
  6. Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
  7. Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
  8. Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
  9. Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
  10. Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
  11. Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
  12. Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
  13. Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
  14. Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
  15. Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
  16. Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.

Дополнительная литература

  1. Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
  2. Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
  3. Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
  4. Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.