Прикладная статистика в машинном обучении
Содержание
О курсе
Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 1-2 модулях.
Лектор: Артемов Алексей Валерьевич
Лекции проходят по субботам (9, 23 сентября, 7, 21 октября, 11, 25 ноября, 9, 16 декабря), 13:40 - 16:30, ауд. 509.
Полезные ссылки
Репозиторий с материалами на GitHub: TBD
Сдача домашних заданий через систему AnyTask: http://anytask.org , в профиле вводите инвайт, соотвествующей вашей группе и курс появится в списке ваших курсов.
Чат в telegram для обсуждений: https://t.me/joinchat/A6_aGA2TPu-XFv45Ac4zlw
Таблица с оценками: http://anytask.org/course/234
Семинары
Группа | Преподаватель | Учебный ассистент | Расписание | чат | инвайт AnyTask |
---|---|---|---|---|---|
152 (МОП) | Евгений Егоров | Иван Барабанов | пятница, 12:10 - 13:30, ауд. 300 | https://t.me/joinchat/Bx03rAx_Bc0frjMeCgjIGw | 1NMqJTw |
151 (МОП) | Аршак Минасян | Григорий Иванов | понедельник, 18:10 - 19:30, ауд. 503 | o81nn7v |
Дата выдачи/сдачи дз
- Задание #1 25/09 - 08/10 (см. AnyTask)
- Задание #2 09/10 - 23/10 (см. AnyTask)
- Задание #3 13/11 - 27/11 (см. AnyTask, по 6 баллов за задачу, максимальный балл 18)
Система оценок
Результирующая оценка по дисциплине рассчитывается по формуле
O_итог=0.7 O_накопл + 0.3 O_экз
Накопленная оценка рассчитывается по формуле
O_накопл=0.2 O_самост + 0.6 O_дз + 0.2 O_коллоквиум
Накопленная и итоговая оценки округляются арифметически.
Расчет O_дз
- За каждую выполенную задачу в задании студент получает соответствующее число баллов, максимум указан в тексте задания. Они суммируются и получается общее число баллов за конкретное домашнее задание.
- Рассчитывается взвешенное средние из баллов за все домашние задания. Веса пропорциональны числу баллов за задания.
- Полученный результат отобржается в [0;10] делением
Бонусные баллы
Бонус: при верном решении всех задач в домашнем задании, студент получает два бонусных балла. Бонусные баллы можно будет конвертировать как плюс-баллы на экзамене. Бонусные баллы суммируются.
Расчет O_коллоквиум
- Оценка за коллоквиум -- это (приведенная в [0; 10]) оценка за первую контрольную работу, проведенную 11.11.2017
Расчет O_самост
- Оценка за самостоятельную работу -- это (приведенная в [0; 10]) оценка за вторую контрольную работу, проведенную 19.12.2017
Студенту, получившему отличную накопленную оценку, данная оценка может быть выставлена в качестве итоговой при условии, что им набрано не менее 2 бонусных баллов.
Коллоквиум
Коллоквиум в письменной форме будет проведен в субботу 11.11.2017 в аудитории 509 четвертой парой 15.10-16.30 и будет включать темы:
- Основные задачи и методы теории статистических выводов;
- Параметрическое оценивание;
- Проверка гипотез.
Программа курса
Презентация со введением в курс
1. Введение. Основные задачи и методы теории статистических выводов (1 лекция, 1 семинар) (проведена 09.09.2017)
Параметрические и непараметрические модели. Основные задачи: точечное оценивание, доверительные множества, тестирование гипотез, исследование зависимостей. Эмпирическая функция распределения. Статистические функционалы.
Слайды к лекции 1, часть 1 (основы теории)
Слайды к лекции 1, часть 2 (статистические функционалы)
2. Параметрическое оценивание (2 лекции, 2 семинара) (первая часть проведена 09.09.2017)
Метод моментов. Метод максимального правдоподобия и его свойства. Дельта-метод. Случай векторного параметра. Параметрический бутстреп. Доверительное оценивание. Достаточная статистика. Экспоненциальное семейство распределений. EM-алгоритм.
Слайды к лекции 2 (параметрическое оценивание)
3. Бутстреп (1 лекция, 1 семинар)
Моделирование Монте-Карло, бутстреп. Оценка дисперсии на основе бутстрепа. Оценка доверительных интервалов на основе бутстрепа. Метод складного ножа.
Слайды к лекции 3, часть 1 (бутстреп)
4. Проверка гипотез (2 лекции, 2 семинара)
Основные понятия теории проверки гипотез. Критерий Вальда. P-значение. Распределение хи-квадрат и критерий Пирсона. Критерий перестановок. Критерий на основе отношения правдоподобия. Множественные тесты. Критерий согласия. Критерий Неймана-Пирсона для случая двух простых гипотез, t-критерий.
Слайды к лекции 3, часть 2 (проверка гипотез)
5. Линейная и логистическая регрессия (2 лекции, 2 семинара)
Стандартная линейная регрессия. Метод оценивания на основе минимизации невязок/максимизации правдоподобия. Свойства оценок метода наименьших квадратов. Прогнозирование. Множественная регрессия. Выбор модели. AIC, BIC. Логистическая регрессия.
Слайды к лекции 3, часть 3 (регрессия)
6. Непараметрическое оценивание сигналов (1 лекция, 1 семинар) (проведена 21.10.2017)
Выбор оптимального соотношения между смещением и дисперсией. Гистограммы. Ядерная оценка плотности. Непараметрическая регрессия.
7. Нелинейные методы построения регрессионных зависимостей (1 лекция, 1 семинар) (проведена 11.11.2017)
Аддитивные модели. Аппроксимационные модели на основе параметрических словарей (сигмоидальные функции, гауссоподобные функции, и т.д.). Построение аппроксимационных моделей на основе параметрических словарей: методы инициализации структуры; методы оценки параметров, учитывающие структуру модели; методы адаптивной регуляризации в процесс оценки параметров модели.
8. Регрессионные модели на основе гауссовских процессов (1 лекция, 1 семинар) (проведена 25.11.2017)
Гауссовские процессы. Прогноз и оценка точности прогноза на основе гауссовских процессов. Оценка параметров ковариационной функции. Регуляризация логарифма правдоподобия. Модель нестационарной ковариационной функции. Регрессия на основе гауссовских процессов как ядерная гребневая регрессия. Глобальная оптимизация на основе гауссовских процессов. Планирование экспериментов на основе гауссовских процессов.
Материалы к семинару после лекции 6
9. Оценка чувствительности модели (1 лекция, 1 семинар)
Введение, начальные условия, области применения. Постановка задачи оценки глобальной чувствительности модели. Обзор методов оценки чувствительности модели в случае выборки данных. Обзор методов оценки чувствительности модели в случае черного ящика. Выделение параметров, которые сильнее всего влияют на уровень радиоактивных изотопов в воде (Level E test case). Обзор теоретических основ метода оценки чувствительности модели на основе индексов Соболя.
10. Методы планирования экспериментов (Design of Experiments) (1 лекция, 1 семинар) (проведена 16.12.2017)
Space-filling DoE. Планирование экспериментов для линейных регрессионных моделей.
Материалы к семинару после лекции 6
11. Снижение размерности многомерных данных (1 лекция, 1 семинар)
Снижение размерности в суррогатном моделировании. Постановка задачи снижения размерности. Обзор линейных методов снижения размерности (метод главных компонент, целенаправленное проектирование и т.п.). Обзор локальных и нелинейных методов снижения размерности (метод нелинейных главных компонент, метод локального линейного вложения и т.п.). Новые постановки задач снижения размерности. Аппроксимация многомерных зависимостей как решение задачи снижения размерности.
Материалы
2. Wasserman L. All of Nonparametric Statistics. Springer, 2006.
3. Bishop C.M. Pattern recognition and machine learning. Springer, 2006.
4. David Mackay J.C. Information theory, inference, and learning algorithms. Cambridge, 2007.
5. Grimmett G., Stirzaker D. Probability and Random Processes. Oxford University Press, 2001.
7. Lee J.A., Verleysen M. Nonlinear Dimensionality Reduction. Springer, 2007.
10. Лагутин М.Б. Наглядная математическая статистика. М.: БИНОМ. Лаборатория знаний, 2007.