Машинное обучение для построения моделей — различия между версиями

Версия 14:34, 14 апреля 2022

Курс читается для студентов 1-го курса магистратуры МИЭМ в 4-ом модуле. Проводится с 2020 года.

Лектор: Ратников Федор Дмитриевич

Семинарист: Болдырев Алексей Сергеевич

Материалы на GitHub: [1]

Материалы на Google Drive: [2]

Чат курса в Telegram: [3]

Машинное обучение, статистика, линейные методы регрессии История анализа данных. Постановки задач в машинном обучении: классификация, регрессия, ранжирование, кластеризация, латентные модели. Примеры задач. Виды данных. Признаки. Метод максимального правдоподобия и его свойства. Статистические гипотезы и статистические критерии. Лемма Неймана-Пирсона. Критерий отношения правдоподобия. Аналитическое и численное решение задачи МНК. Градиентный спуск, методы оценивания градиента. Функции потерь. Регуляризация. Методы оценивания обобщающей способности, кросс-валидация. Метрики каче- ства регрессии.

Линейные методы классификации, Особенности работы с реальными данными, Работа с признаками Аппроксимация эмпирического риска. Персептрон. Метод опорных векторов. Задача оценивания вероятностей, логистическая регрессия. Обобщённые линейные модели. Метрики качества в задачах классификации. Пропуски в данных. Предобработка признаков. Чистка данных. Категориальные признаки. Разреженные признаки. Методы отбора признаков. Метод главных компонент.

Решающие деревья, Композиции алгоритмов Общий алгоритм построения, критерии информативности. Конкретные критерии для классификации и регрессии. Тонкости решающих деревьев: обработка пропущенных значений, стрижка, регуляризация. Общая идея bias-variance decomposition. Бэггинг, бустинг. Градиентный бустинг над решающими деревьями. Нейронные сети, Обучение без учителя, Restricted Bolzmann Machine.

Структура нейронной сети. Обратное распространение ошибки. Полносвязные нейронные сети. Методы регуляризации. Примеры архитектур как наборов кубиков. Задача кластеризации. K-Means, spectral clustering. Автокодировщики. Постановка задачи статистического вывода. Подходы к решению. Применение для расчёта модели Изинга.

Анализ явлений и обоснование выбора модели. Общие принципы построения математических моделей. Явления распространения инфекций, добычи нефти и газа и т.п. и их описание с помощью модели протекания. Протекание на решетке. Методы анализа - Монте-Карло, кластерный метод Хошена- Копельмана. Ферромагнетизм и спиновые модели. Модель Изинга. Методы исследования - ана¬литические, численные и моделирование. Специализированные вычислительные системы.

Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical LearningWith Applications in R (2013, 2021)
Hastie, T., Tibshirani, R., and Friedman, J. H. The Elements of Statistical Learning : Data Mining, Inference, and Prediction (2009)
Christopher Bishop. Pattern Recognition and Machine Learning (2006)
Ian Goodfellow, Yoshua Bengio and Aaron Courville. Deep Learning (2016)

@@ Строка 6: / Строка 6: @@
 '''Лектор:''' [https://www.hse.ru/org/persons/174480967 Ратников Федор Дмитриевич]
-'''Семинары:''' [https://www.hse.ru/org/persons/223985242 Болдырев Алексей Сергеевич]
+'''Семинарист:''' [https://www.hse.ru/org/persons/223985242 Болдырев Алексей Сергеевич]
 === Нужные ссылки на ресурсы ===