Прикладная статистика в машинном обучении

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 1-2 модулях.

Лектор: Артемов Алексей Валерьевич

Лекции проходят по субботам (9, 23 сентября, 7, 21 октября, 11, 25 ноября, 9, 16 декабря), 13:40 - 16:30, ауд. 509.

Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub: TBD

Сдача домашних заданий через систему AnyTask: TBD

Чат в telegram для обсуждений: https://t.me/joinchat/A6_aGA2TPu-XFv45Ac4zlw

Таблица с оценками: TBD

Семинары

Группа Преподаватель Учебный ассистент Расписание чат
152 (МОП) Евгений Егоров Иван Барабанов пятница, 9 - 10:20, ауд. 300 https://t.me/joinchat/Bx03rAx_Bc0frjMeCgjIGw
151 (МОП) Аршак Минасян Григорий Иванов понедельник, 18:10 - 19:30, ауд. 503

Дата выдачи/сдачи дз

TBD

Система оценок

Результирующая оценка по дисциплине рассчитывается по формуле

O_итог=0.7 O_накопл + 0.3 O_экз

Накопленная оценка рассчитывается по формуле

O_накопл=0.2 O_самост + 0.6 O_дз + 0.2 O_коллоквиум

Накопленная и итоговая оценки округляются арифметически.

  • Оценка за домашние задания рассчитывается как среднее значение оценок за все выданные домашние задания.
  • Оценка за самостоятельную работу рассчитывается как среднее значение оценок за все проверочные работы, проведённые на семинарских занятиях.
  • В конце семестра разрешается переписать все самостоятельные работы, пропущенные по уважительной причине.
  • Студенту, получившему отличную накопленную оценку, данная оценка может быть выставлена в качестве итоговой при условии, что им набрано не менее 10 дополнительных баллов.
  • Дополнительные баллы выставляются за выполнение дополнительных частей домашних заданий, имеющих повышенную сложность и не участвующих при выставлении накопленной оценки.

Программа курса

Презентация со введением в курс

1. Введение. Основные задачи и методы теории статистических выводов (1 лекция, 1 семинар) (проведена 09.09.2017)

Параметрические и непараметрические модели. Основные задачи: точечное оценивание, доверительные множества, тестирование гипотез, исследование зависимостей. Эмпирическая функция распределения. Статистические функционалы.

Слайды к лекции 1, часть 1 (основы теории)

Слайды к лекции 1, часть 2 (статистические функционалы)


2. Параметрическое оценивание (2 лекции, 2 семинара) (первая часть проведена 09.09.2017)

Метод моментов. Метод максимального правдоподобия и его свойства. Дельта-метод. Случай векторного параметра. Параметрический бутстреп. Доверительное оценивание. Достаточная статистика. Экспоненциальное семейство распределений. EM-алгоритм.

Слайды к лекции 2 (параметрическое оценивание)


3. Бутстреп (1 лекция, 1 семинар)

Моделирование Монте-Карло, бутстреп. Оценка дисперсии на основе бутстрепа. Оценка доверительных интервалов на основе бутстрепа. Метод складного ножа.


4. Проверка гипотез (2 лекции, 2 семинара)

Основные понятия теории проверки гипотез. Критерий Вальда. P-значение. Распределение хи-квадрат и критерий Пирсона. Критерий перестановок. Критерий на основе отношения правдоподобия. Множественные тесты. Критерий согласия. Критерий Неймана-Пирсона для случая двух простых гипотез, t-критерий.


5. Линейная и логистическая регрессия (2 лекции, 2 семинара)

Стандартная линейная регрессия. Метод оценивания на основе минимизации невязок/максимизации правдоподобия. Свойства оценок метода наименьших квадратов. Прогнозирование. Множественная регрессия. Выбор модели. AIC, BIC. Логистическая регрессия.


6. Непараметрическое оценивание сигналов (1 лекция, 1 семинар)

Выбор оптимального соотношения между смещением и дисперсией. Гистограммы. Ядерная оценка плотности. Непараметрическая регрессия.


7. Нелинейные методы построения регрессионных зависимостей (1 лекция, 1 семинар)

Аддитивные модели. Аппроксимационные модели на основе параметрических словарей (сигмоидальные функции, гауссоподобные функции, и т.д.). Построение аппроксимационных моделей на основе параметрических словарей: методы инициализации структуры; методы оценки параметров, учитывающие структуру модели; методы адаптивной регуляризации в процесс оценки параметров модели.


8. Регрессионные модели на основе гауссовских процессов (1 лекция, 1 семинар)

Гауссовские процессы. Прогноз и оценка точности прогноза на основе гауссовских процессов. Оценка параметров ковариационной функции. Регуляризация логарифма правдоподобия. Модель нестационарной ковариационной функции. Регрессия на основе гауссовских процессов как ядерная гребневая регрессия. Глобальная оптимизация на основе гауссовских процессов. Планирование экспериментов на основе гауссовских процессов.


9. Оценка чувствительности модели (1 лекция, 1 семинар)

Введение, начальные условия, области применения. Постановка задачи оценки глобальной чувствительности модели. Обзор методов оценки чувствительности модели в случае выборки данных. Обзор методов оценки чувствительности модели в случае черного ящика. Выделение параметров, которые сильнее всего влияют на уровень радиоактивных изотопов в воде (Level E test case). Обзор теоретических основ метода оценки чувствительности модели на основе индексов Соболя.


10. Методы планирования экспериментов (Design of Experiments) (1 лекция, 1 семинар)

Space-filling DoE. Планирование экспериментов для линейных регрессионных моделей.


11. Снижение размерности многомерных данных (1 лекция, 1 семинар)

Снижение размерности в суррогатном моделировании. Постановка задачи снижения размерности. Обзор линейных методов снижения размерности (метод главных компонент, целенаправленное проектирование и т.п.). Обзор локальных и нелинейных методов снижения размерности (метод нелинейных главных компонент, метод локального линейного вложения и т.п.). Новые постановки задач снижения размерности. Аппроксимация многомерных зависимостей как решение задачи снижения размерности.


Материалы

1. Hastie T., Tibshirani R., Friedman J. The elements of statistical learning: data mining, inference, and prediction. Springer, 2001.

2. Wasserman L. All of Nonparametric Statistics. Springer, 2006.

3. Bishop C.M. Pattern recognition and machine learning. Springer, 2006.

4. David Mackay J.C. Information theory, inference, and learning algorithms. Cambridge, 2007.

5. Grimmett G., Stirzaker D. Probability and Random Processes. Oxford University Press, 2001.

6. Forrester A., Sobester A., Keane A. Engineering Design via Surrogate Modelling. A Practical Guide. Wiley, 2008.

7. Lee J.A., Verleysen M. Nonlinear Dimensionality Reduction. Springer, 2007.

8. Wang G.G., Shan S. Review of Metamodeling Techniques in Support of Engineering Design Optimization // Journal of Mechanical Design, Vol. 129, No. 4, pp. 370-380, 2007.

9. Deconinck, Periaux, Giannakoglou (eds.). Optimization method and tools for multicriteria/multidisciplinary design. Applications to aeronautics and turbomachinary // von Karman Institute for Fluid Dynamics, Lecture Series 2004-07, 2004.

10. Лагутин М.Б. Наглядная математическая статистика. М.: БИНОМ. Лаборатория знаний, 2007.

11. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983.

12. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика, 1985.

13. Айвазян С.А., Бухштабер В.М., Енюков С.А., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.