Машинное обучение для построения моделей

Материал из Wiki - Факультет компьютерных наук
Версия от 14:29, 14 апреля 2022; Alexey (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

О курсе

Курс читается для студентов 1-го курса магистратуры МИЭМ в 4-ом модуле. Проводится с 2020 года.

Лектор: Ратников Федор Дмитриевич

Семинары: Болдырев Алексей Сергеевич

Нужные ссылки на ресурсы

Материалы на GitHub: [1]

Чат курса в Telegram: [2]

Краткое содержание курса

  • Машинное обучение, статистика, линейные методы регрессии История анализа данных. Постановки задач в машинном обучении: классификация, регрессия, ранжирование, кластеризация, латентные модели. Примеры задач. Виды данных. Признаки. Метод максимального правдоподобия и его свойства. Статистические гипотезы и статистические критерии. Лемма Неймана-Пирсона. Критерий отношения правдоподобия. Аналитическое и численное решение задачи МНК. Градиентный спуск, методы оценивания градиента. Функции потерь. Регуляризация. Методы оценивания обобщающей способности, кросс-валидация. Метрики каче- ства регрессии.
  • Линейные методы классификации, Особенности работы с реальными данными, Работа с признаками Аппроксимация эмпирического риска. Персептрон. Метод опорных векторов. Задача оценивания вероятностей, логистическая регрессия. Обобщённые линейные модели. Метрики качества в задачах классификации. Пропуски в данных. Предобработка признаков. Чистка данных. Категориальные признаки. Разреженные признаки. Методы отбора признаков. Метод главных компонент.
  • Решающие деревья, Композиции алгоритмов Общий алгоритм построения, критерии информативности. Конкретные критерии для классификации и регрессии. Тонкости решающих деревьев: обработка пропущенных значений, стрижка, регуляризация. Общая идея bias-variance decomposition. Бэггинг, бустинг. Градиентный бустинг над решающими деревьями. Нейронные сети, Обучение без учителя, Restricted Bolzmann Machine.
  • Структура нейронной сети. Обратное распространение ошибки. Полносвязные нейронные сети. Методы регуляризации. Примеры архитектур как наборов кубиков. Задача кластеризации. K-Means, spectral clustering. Автокодировщики. Постановка задачи статистического вывода. Подходы к решению. Применение для расчёта модели Изинга.
  • Анализ явлений и обоснование выбора модели. Общие принципы построения математических моделей. Явления распространения инфекций, добычи нефти и газа и т.п. и их описание с помощью модели протекания. Протекание на решетке. Методы анализа - Монте-Карло, кластерный метод Хошена- Копельмана. Ферромагнетизм и спиновые модели. Модель Изинга. Методы исследования - ана¬литические, численные и моделирование. Специализированные вычислительные системы.

Литература

Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical LearningWith Applications in R (2013, 2021) Hastie, T., Tibshirani, R., and Friedman, J. H. The Elements of Statistical Learning : Data Mining, Inference, and Prediction (2009) Christopher Bishop. Pattern Recognition and Machine Learning (2006) Ian Goodfellow, Yoshua Bengio and Aaron Courville. Deep Learning (2016) Hastie, T., Tibshirani, R., and Friedman, J. H. The Elements of Statistical Learning : Data Mining, Inference, and Prediction (2009)