Прикладная статистика в машинном обучении

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 1-2 модулях.

Лектор: Артемов Алексей Валерьевич

Лекции проходят по субботам (9, 23 сентября, 7, 21 октября, 11, 25 ноября, 9, 16 декабря), 13:40 - 16:30, ауд. 509.

Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub: TBD

Сдача домашних заданий через систему AnyTask: http://anytask.org , в профиле вводите инвайт, соотвествующей вашей группе и курс появится в списке ваших курсов.

Чат в telegram для обсуждений: https://t.me/joinchat/A6_aGA2TPu-XFv45Ac4zlw

Таблица с оценками: http://anytask.org/course/234

Семинары

Группа Преподаватель Учебный ассистент Расписание чат инвайт AnyTask
152 (МОП) Евгений Егоров Иван Барабанов пятница, 12:10 - 13:30, ауд. 300 https://t.me/joinchat/Bx03rAx_Bc0frjMeCgjIGw 1NMqJTw
151 (МОП) Аршак Минасян Григорий Иванов понедельник, 18:10 - 19:30, ауд. 503 o81nn7v

Дата выдачи/сдачи дз

  • Задание #1 25/09 - 08/10 (см. AnyTask)
  • Задание #2 09/10 - 23/10 (см. AnyTask)
  • Задание #3 13/11 - 27/11 (см. AnyTask, по 6 баллов за задачу, максимальный балл 18)

Система оценок

Результирующая оценка по дисциплине рассчитывается по формуле

O_итог=0.7 O_накопл + 0.3 O_экз

Накопленная оценка рассчитывается по формуле

O_накопл=0.2 O_самост + 0.6 O_дз + 0.2 O_коллоквиум

Накопленная и итоговая оценки округляются арифметически.

Расчет O_дз

  1. За каждую выполенную задачу в задании студент получает соответствующее число баллов, максимум указан в тексте задания. Они суммируются и получается общее число баллов за конкретное домашнее задание.
  2. Рассчитывается взвешенное средние из баллов за все домашние задания. Веса пропорциональны числу баллов за задания.
  3. Полученный результат отобржается в [0;10] делением

Бонусные баллы

Бонус: при верном решении всех задач в домашнем задании, студент получает два бонусных балла. Бонусные баллы можно будет конвертировать как плюс-баллы на экзамене. Бонусные баллы суммируются.

Расчет O_коллоквиум

  • Оценка за коллоквиум -- это (приведенная в [0; 10]) оценка за первую контрольную работу, проведенную 11.11.2017

Расчет O_самост

  • Оценка за самостоятельную работу -- это (приведенная в [0; 10]) оценка за вторую контрольную работу, проведенную 19.12.2017

Студенту, получившему отличную накопленную оценку, данная оценка может быть выставлена в качестве итоговой при условии, что им набрано не менее 2 бонусных баллов.

Коллоквиум

Коллоквиум в письменной форме будет проведен в субботу 11.11.2017 в аудитории 509 четвертой парой 15.10-16.30 и будет включать темы:

  • Основные задачи и методы теории статистических выводов;
  • Параметрическое оценивание;
  • Проверка гипотез.

Программа курса

Презентация со введением в курс

1. Введение. Основные задачи и методы теории статистических выводов (1 лекция, 1 семинар) (проведена 09.09.2017)

Параметрические и непараметрические модели. Основные задачи: точечное оценивание, доверительные множества, тестирование гипотез, исследование зависимостей. Эмпирическая функция распределения. Статистические функционалы.

Слайды к лекции 1, часть 1 (основы теории)

Слайды к лекции 1, часть 2 (статистические функционалы)


2. Параметрическое оценивание (2 лекции, 2 семинара) (первая часть проведена 09.09.2017)

Метод моментов. Метод максимального правдоподобия и его свойства. Дельта-метод. Случай векторного параметра. Параметрический бутстреп. Доверительное оценивание. Достаточная статистика. Экспоненциальное семейство распределений. EM-алгоритм.

Слайды к лекции 2 (параметрическое оценивание)


3. Бутстреп (1 лекция, 1 семинар)

Моделирование Монте-Карло, бутстреп. Оценка дисперсии на основе бутстрепа. Оценка доверительных интервалов на основе бутстрепа. Метод складного ножа.

Слайды к лекции 3, часть 1 (бутстреп)


4. Проверка гипотез (2 лекции, 2 семинара)

Основные понятия теории проверки гипотез. Критерий Вальда. P-значение. Распределение хи-квадрат и критерий Пирсона. Критерий перестановок. Критерий на основе отношения правдоподобия. Множественные тесты. Критерий согласия. Критерий Неймана-Пирсона для случая двух простых гипотез, t-критерий.

Слайды к лекции 3, часть 2 (проверка гипотез)


5. Линейная и логистическая регрессия (2 лекции, 2 семинара)

Стандартная линейная регрессия. Метод оценивания на основе минимизации невязок/максимизации правдоподобия. Свойства оценок метода наименьших квадратов. Прогнозирование. Множественная регрессия. Выбор модели. AIC, BIC. Логистическая регрессия.

Слайды к лекции 3, часть 3 (регрессия)


6. Непараметрическое оценивание сигналов (1 лекция, 1 семинар) (проведена 21.10.2017)

Выбор оптимального соотношения между смещением и дисперсией. Гистограммы. Ядерная оценка плотности. Непараметрическая регрессия.

Слайды к лекции 4


7. Нелинейные методы построения регрессионных зависимостей (1 лекция, 1 семинар) (проведена 11.11.2017)

Аддитивные модели. Аппроксимационные модели на основе параметрических словарей (сигмоидальные функции, гауссоподобные функции, и т.д.). Построение аппроксимационных моделей на основе параметрических словарей: методы инициализации структуры; методы оценки параметров, учитывающие структуру модели; методы адаптивной регуляризации в процесс оценки параметров модели.

Слайды к лекции 5


8. Регрессионные модели на основе гауссовских процессов (1 лекция, 1 семинар) (проведена 25.11.2017)

Гауссовские процессы. Прогноз и оценка точности прогноза на основе гауссовских процессов. Оценка параметров ковариационной функции. Регуляризация логарифма правдоподобия. Модель нестационарной ковариационной функции. Регрессия на основе гауссовских процессов как ядерная гребневая регрессия. Глобальная оптимизация на основе гауссовских процессов. Планирование экспериментов на основе гауссовских процессов.

Слайды к лекции 6

Материалы к семинару после лекции 6


9. Оценка чувствительности модели (1 лекция, 1 семинар)

Введение, начальные условия, области применения. Постановка задачи оценки глобальной чувствительности модели. Обзор методов оценки чувствительности модели в случае выборки данных. Обзор методов оценки чувствительности модели в случае черного ящика. Выделение параметров, которые сильнее всего влияют на уровень радиоактивных изотопов в воде (Level E test case). Обзор теоретических основ метода оценки чувствительности модели на основе индексов Соболя.


10. Методы планирования экспериментов (Design of Experiments) (1 лекция, 1 семинар) (проведена 16.12.2017)

Space-filling DoE. Планирование экспериментов для линейных регрессионных моделей.

Слайды к лекции 7

Материалы к семинару после лекции 6


11. Снижение размерности многомерных данных (1 лекция, 1 семинар)

Снижение размерности в суррогатном моделировании. Постановка задачи снижения размерности. Обзор линейных методов снижения размерности (метод главных компонент, целенаправленное проектирование и т.п.). Обзор локальных и нелинейных методов снижения размерности (метод нелинейных главных компонент, метод локального линейного вложения и т.п.). Новые постановки задач снижения размерности. Аппроксимация многомерных зависимостей как решение задачи снижения размерности.

Материалы

1. Hastie T., Tibshirani R., Friedman J. The elements of statistical learning: data mining, inference, and prediction. Springer, 2001.

2. Wasserman L. All of Nonparametric Statistics. Springer, 2006.

3. Bishop C.M. Pattern recognition and machine learning. Springer, 2006.

4. David Mackay J.C. Information theory, inference, and learning algorithms. Cambridge, 2007.

5. Grimmett G., Stirzaker D. Probability and Random Processes. Oxford University Press, 2001.

6. Forrester A., Sobester A., Keane A. Engineering Design via Surrogate Modelling. A Practical Guide. Wiley, 2008.

7. Lee J.A., Verleysen M. Nonlinear Dimensionality Reduction. Springer, 2007.

8. Wang G.G., Shan S. Review of Metamodeling Techniques in Support of Engineering Design Optimization // Journal of Mechanical Design, Vol. 129, No. 4, pp. 370-380, 2007.

9. Deconinck, Periaux, Giannakoglou (eds.). Optimization method and tools for multicriteria/multidisciplinary design. Applications to aeronautics and turbomachinary // von Karman Institute for Fluid Dynamics, Lecture Series 2004-07, 2004.

10. Лагутин М.Б. Наглядная математическая статистика. М.: БИНОМ. Лаборатория знаний, 2007.

11. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983.

12. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика, 1985.

13. Айвазян С.А., Бухштабер В.М., Енюков С.А., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.