Прикладная статистика в машинном обучении — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Семинары)
(Программа курса)
Строка 52: Строка 52:
  
 
=== Программа курса ===
 
=== Программа курса ===
 +
[https://www.dropbox.com/s/ztykp2c7nle4r2n/intro.pdf?dl=0 Презентация со введением в курс]
 +
 +
1. '''Введение. Основные задачи и методы теории статистических выводов''' (1 лекция, 1 семинар) ''(проведена 09.09.2017)''
  
1. '''Введение. Основные задачи и методы теории статистических выводов''' (1 лекция, 1 семинар)
 
 
Параметрические и непараметрические модели. Основные задачи: точечное оценивание, доверительные множества, тестирование гипотез, исследование зависимостей. Эмпирическая функция распределения. Статистические функционалы.
 
Параметрические и непараметрические модели. Основные задачи: точечное оценивание, доверительные множества, тестирование гипотез, исследование зависимостей. Эмпирическая функция распределения. Статистические функционалы.
  
2. '''Бутстреп''' (1 лекция, 1 семинар)
+
[https://www.dropbox.com/s/00agifix9p2ddfv/lecture1-1.pdf?dl=0 Слайды к лекции 1, часть 1 (основы теории)]
Моделирование Монте-Карло, бутстреп. Оценка дисперсии на основе бутстрепа. Оценка доверительных интервалов на основе бутстрепа. Метод складного ножа.
+
 
 +
[https://www.dropbox.com/s/v6l1ahvags2gtyw/lecture1-2.pdf?dl=0 Слайды к лекции 1, часть 2 (статистические функционалы)]
 +
 
 +
 
 +
2. '''Параметрическое оценивание''' (2 лекции, 2 семинара) ''(первая часть проведена 09.09.2017)''
  
3. '''Параметрическое оценивание''' (2 лекции, 2 семинара)
 
 
Метод моментов. Метод максимального правдоподобия и его свойства. Дельта-метод. Случай векторного параметра. Параметрический бутстреп. Доверительное оценивание. Достаточная статистика. Экспоненциальное семейство распределений. EM-алгоритм.
 
Метод моментов. Метод максимального правдоподобия и его свойства. Дельта-метод. Случай векторного параметра. Параметрический бутстреп. Доверительное оценивание. Достаточная статистика. Экспоненциальное семейство распределений. EM-алгоритм.
 +
 +
[https://www.dropbox.com/s/o8gc6fo1s9zkp1z/lecture2.pdf?dl=0 Слайды к лекции 2 (параметрическое оценивание)]
 +
 +
 +
3. '''Бутстреп''' (1 лекция, 1 семинар)
 +
 +
Моделирование Монте-Карло, бутстреп. Оценка дисперсии на основе бутстрепа. Оценка доверительных интервалов на основе бутстрепа. Метод складного ножа.
 +
  
 
4. '''Проверка гипотез''' (2 лекции, 2 семинара)
 
4. '''Проверка гипотез''' (2 лекции, 2 семинара)
 +
 
Основные понятия теории проверки гипотез. Критерий Вальда. P-значение. Распределение хи-квадрат и критерий Пирсона. Критерий перестановок. Критерий на основе отношения правдоподобия. Множественные тесты. Критерий согласия.  Критерий Неймана-Пирсона для случая двух простых гипотез, t-критерий.
 
Основные понятия теории проверки гипотез. Критерий Вальда. P-значение. Распределение хи-квадрат и критерий Пирсона. Критерий перестановок. Критерий на основе отношения правдоподобия. Множественные тесты. Критерий согласия.  Критерий Неймана-Пирсона для случая двух простых гипотез, t-критерий.
 +
  
 
5. '''Линейная и логистическая регрессия''' (2 лекции, 2 семинара)
 
5. '''Линейная и логистическая регрессия''' (2 лекции, 2 семинара)
 +
 
Стандартная линейная регрессия. Метод оценивания на основе минимизации невязок/максимизации правдоподобия. Свойства оценок метода наименьших квадратов. Прогнозирование. Множественная регрессия. Выбор модели. AIC, BIC. Логистическая регрессия.
 
Стандартная линейная регрессия. Метод оценивания на основе минимизации невязок/максимизации правдоподобия. Свойства оценок метода наименьших квадратов. Прогнозирование. Множественная регрессия. Выбор модели. AIC, BIC. Логистическая регрессия.
 +
  
 
6. '''Непараметрическое оценивание сигналов''' (1 лекция, 1 семинар)
 
6. '''Непараметрическое оценивание сигналов''' (1 лекция, 1 семинар)
 +
 
Выбор оптимального соотношения между смещением и дисперсией. Гистограммы. Ядерная оценка плотности. Непараметрическая регрессия.  
 
Выбор оптимального соотношения между смещением и дисперсией. Гистограммы. Ядерная оценка плотности. Непараметрическая регрессия.  
 +
  
 
7. '''Нелинейные методы построения регрессионных зависимостей''' (1 лекция, 1 семинар)
 
7. '''Нелинейные методы построения регрессионных зависимостей''' (1 лекция, 1 семинар)
 +
 
Аддитивные модели. Аппроксимационные модели на основе параметрических словарей (сигмоидальные функции, гауссоподобные функции, и т.д.). Построение аппроксимационных моделей на основе параметрических словарей: методы инициализации структуры; методы оценки параметров, учитывающие структуру модели; методы адаптивной регуляризации в процесс оценки параметров модели.
 
Аддитивные модели. Аппроксимационные модели на основе параметрических словарей (сигмоидальные функции, гауссоподобные функции, и т.д.). Построение аппроксимационных моделей на основе параметрических словарей: методы инициализации структуры; методы оценки параметров, учитывающие структуру модели; методы адаптивной регуляризации в процесс оценки параметров модели.
 +
  
 
8. '''Регрессионные модели на основе гауссовских процессов''' (1 лекция, 1 семинар)
 
8. '''Регрессионные модели на основе гауссовских процессов''' (1 лекция, 1 семинар)
 +
 
Гауссовские процессы. Прогноз и оценка точности прогноза на основе гауссовских процессов. Оценка параметров ковариационной функции. Регуляризация логарифма правдоподобия. Модель нестационарной ковариационной функции. Регрессия на основе гауссовских процессов как ядерная гребневая регрессия. Глобальная оптимизация на основе гауссовских процессов. Планирование экспериментов на основе гауссовских процессов.
 
Гауссовские процессы. Прогноз и оценка точности прогноза на основе гауссовских процессов. Оценка параметров ковариационной функции. Регуляризация логарифма правдоподобия. Модель нестационарной ковариационной функции. Регрессия на основе гауссовских процессов как ядерная гребневая регрессия. Глобальная оптимизация на основе гауссовских процессов. Планирование экспериментов на основе гауссовских процессов.
 +
  
 
9. '''Оценка чувствительности модели''' (1 лекция, 1 семинар)
 
9. '''Оценка чувствительности модели''' (1 лекция, 1 семинар)
 +
 
Введение, начальные условия, области применения. Постановка задачи оценки глобальной чувствительности модели. Обзор методов оценки чувствительности модели в случае выборки данных. Обзор методов оценки чувствительности модели в случае черного ящика. Выделение параметров, которые сильнее всего влияют на уровень радиоактивных изотопов в воде (Level E test case). Обзор теоретических основ метода оценки чувствительности модели на основе индексов Соболя.
 
Введение, начальные условия, области применения. Постановка задачи оценки глобальной чувствительности модели. Обзор методов оценки чувствительности модели в случае выборки данных. Обзор методов оценки чувствительности модели в случае черного ящика. Выделение параметров, которые сильнее всего влияют на уровень радиоактивных изотопов в воде (Level E test case). Обзор теоретических основ метода оценки чувствительности модели на основе индексов Соболя.
 +
  
 
10. '''Методы планирования экспериментов (Design of Experiments)''' (1 лекция, 1 семинар)
 
10. '''Методы планирования экспериментов (Design of Experiments)''' (1 лекция, 1 семинар)
 +
 
Space-filling DoE. Планирование экспериментов для линейных регрессионных моделей.
 
Space-filling DoE. Планирование экспериментов для линейных регрессионных моделей.
 +
  
 
11. '''Снижение размерности многомерных данных''' (1 лекция, 1 семинар)
 
11. '''Снижение размерности многомерных данных''' (1 лекция, 1 семинар)
 +
 
Снижение размерности в суррогатном моделировании. Постановка задачи снижения размерности. Обзор линейных методов снижения размерности (метод главных компонент, целенаправленное проектирование и т.п.). Обзор локальных и нелинейных методов снижения размерности (метод нелинейных главных компонент, метод локального линейного вложения и т.п.). Новые постановки задач снижения размерности. Аппроксимация многомерных зависимостей как решение задачи снижения размерности.
 
Снижение размерности в суррогатном моделировании. Постановка задачи снижения размерности. Обзор линейных методов снижения размерности (метод главных компонент, целенаправленное проектирование и т.п.). Обзор локальных и нелинейных методов снижения размерности (метод нелинейных главных компонент, метод локального линейного вложения и т.п.). Новые постановки задач снижения размерности. Аппроксимация многомерных зависимостей как решение задачи снижения размерности.

Версия 23:17, 10 сентября 2017

О курсе

Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 1-2 модулях.

Лектор: Артемов Алексей Валерьевич

Лекции проходят по субботам (9, 23 сентября, 7, 21 октября, 11, 25 ноября, 9, 16 декабря), 13:40 - 16:30, ауд. 509.

Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub: TBD

Сдача домашних заданий через систему AnyTask: TBD

Чат в telegram для обсуждений: https://t.me/joinchat/A6_aGA2TPu-XFv45Ac4zlw

Таблица с оценками: TBD

Семинары

Группа Преподаватель Учебный ассистент Расписание
152 (МОП) Евгений Егоров Иван Барабанов пятница, 9 - 10:20, ауд. 300
151 (МОП) Аршак Минасян Григорий Иванов понедельник, 18:10 - 19:30, ауд. 503

Дата выдачи/сдачи дз

TBD

Система оценок

Результирующая оценка по дисциплине рассчитывается по формуле

O_итог=0.7 O_накопл + 0.3 O_экз

Накопленная оценка рассчитывается по формуле

O_накопл=0.2 O_самост + 0.6 O_дз + 0.2 O_коллоквиум

Накопленная и итоговая оценки округляются арифметически.

  • Оценка за домашние задания рассчитывается как среднее значение оценок за все выданные домашние задания.
  • Оценка за самостоятельную работу рассчитывается как среднее значение оценок за все проверочные работы, проведённые на семинарских занятиях.
  • В конце семестра разрешается переписать все самостоятельные работы, пропущенные по уважительной причине.
  • Студенту, получившему отличную накопленную оценку, данная оценка может быть выставлена в качестве итоговой при условии, что им набрано не менее 10 дополнительных баллов.
  • Дополнительные баллы выставляются за выполнение дополнительных частей домашних заданий, имеющих повышенную сложность и не участвующих при выставлении накопленной оценки.

Программа курса

Презентация со введением в курс

1. Введение. Основные задачи и методы теории статистических выводов (1 лекция, 1 семинар) (проведена 09.09.2017)

Параметрические и непараметрические модели. Основные задачи: точечное оценивание, доверительные множества, тестирование гипотез, исследование зависимостей. Эмпирическая функция распределения. Статистические функционалы.

Слайды к лекции 1, часть 1 (основы теории)

Слайды к лекции 1, часть 2 (статистические функционалы)


2. Параметрическое оценивание (2 лекции, 2 семинара) (первая часть проведена 09.09.2017)

Метод моментов. Метод максимального правдоподобия и его свойства. Дельта-метод. Случай векторного параметра. Параметрический бутстреп. Доверительное оценивание. Достаточная статистика. Экспоненциальное семейство распределений. EM-алгоритм.

Слайды к лекции 2 (параметрическое оценивание)


3. Бутстреп (1 лекция, 1 семинар)

Моделирование Монте-Карло, бутстреп. Оценка дисперсии на основе бутстрепа. Оценка доверительных интервалов на основе бутстрепа. Метод складного ножа.


4. Проверка гипотез (2 лекции, 2 семинара)

Основные понятия теории проверки гипотез. Критерий Вальда. P-значение. Распределение хи-квадрат и критерий Пирсона. Критерий перестановок. Критерий на основе отношения правдоподобия. Множественные тесты. Критерий согласия. Критерий Неймана-Пирсона для случая двух простых гипотез, t-критерий.


5. Линейная и логистическая регрессия (2 лекции, 2 семинара)

Стандартная линейная регрессия. Метод оценивания на основе минимизации невязок/максимизации правдоподобия. Свойства оценок метода наименьших квадратов. Прогнозирование. Множественная регрессия. Выбор модели. AIC, BIC. Логистическая регрессия.


6. Непараметрическое оценивание сигналов (1 лекция, 1 семинар)

Выбор оптимального соотношения между смещением и дисперсией. Гистограммы. Ядерная оценка плотности. Непараметрическая регрессия.


7. Нелинейные методы построения регрессионных зависимостей (1 лекция, 1 семинар)

Аддитивные модели. Аппроксимационные модели на основе параметрических словарей (сигмоидальные функции, гауссоподобные функции, и т.д.). Построение аппроксимационных моделей на основе параметрических словарей: методы инициализации структуры; методы оценки параметров, учитывающие структуру модели; методы адаптивной регуляризации в процесс оценки параметров модели.


8. Регрессионные модели на основе гауссовских процессов (1 лекция, 1 семинар)

Гауссовские процессы. Прогноз и оценка точности прогноза на основе гауссовских процессов. Оценка параметров ковариационной функции. Регуляризация логарифма правдоподобия. Модель нестационарной ковариационной функции. Регрессия на основе гауссовских процессов как ядерная гребневая регрессия. Глобальная оптимизация на основе гауссовских процессов. Планирование экспериментов на основе гауссовских процессов.


9. Оценка чувствительности модели (1 лекция, 1 семинар)

Введение, начальные условия, области применения. Постановка задачи оценки глобальной чувствительности модели. Обзор методов оценки чувствительности модели в случае выборки данных. Обзор методов оценки чувствительности модели в случае черного ящика. Выделение параметров, которые сильнее всего влияют на уровень радиоактивных изотопов в воде (Level E test case). Обзор теоретических основ метода оценки чувствительности модели на основе индексов Соболя.


10. Методы планирования экспериментов (Design of Experiments) (1 лекция, 1 семинар)

Space-filling DoE. Планирование экспериментов для линейных регрессионных моделей.


11. Снижение размерности многомерных данных (1 лекция, 1 семинар)

Снижение размерности в суррогатном моделировании. Постановка задачи снижения размерности. Обзор линейных методов снижения размерности (метод главных компонент, целенаправленное проектирование и т.п.). Обзор локальных и нелинейных методов снижения размерности (метод нелинейных главных компонент, метод локального линейного вложения и т.п.). Новые постановки задач снижения размерности. Аппроксимация многомерных зависимостей как решение задачи снижения размерности.