Машинное обучение (фэн 2019)
Содержание
О курсе
Группа | Преподаватель | Учебный ассистент | Username | Расписание | |
---|---|---|---|---|---|
лекции | Борис Демешев | G508, пятница, 9:00-10:30 | |||
... | Павел Губко | Глеб Мезенцев | gleb_mezentsev | ||
... | Артем Филатов | ||||
... | Артур Петросян |
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Квизы (самостоятельные работы) на семинарах, проверяющие знание основных фактов с лекций и выполнение теоретических домашних заданий
- Практические домашние работы на Python
- Соревнование по анализу данных
- Устный коллоквиум в конце 1-го модуля
- Письменный экзамен
Итоговая оценка = 0.2 * Квизы + 0.3 * Домашние задания + 0.2 * Коллоквиум + 0.3 * Экзамен
Накопленная и итоговая оценки округляются арифметически. Никакие промежуточные оценки, в том числе оценки за домашние задания, самостоятельные работы или коллоквиум, не округляются.
Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности.
По курсу возможно получение оценки автоматом без сдачи экзамена. Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.
Полезные материалы
Задачник по машинному обучению
Неделя 1 (лекция 6 сентября). Матричный дифференциал и его свойства. Формула оценивания. Киноклуб Two minutes paper.
Неделя 2 (лекция 13 сентября). Второй дифференциал. Явный вывод оценок МНК в матричной форме. Проверка условий второго порядка с помощью второго дифференциала. Градиентный спуск. Методы оценки градиента: SG, SAG, momentum.
Приятная визуализация Why momentum really works?
Лекция 2 Евгения Соколова про линейную регрессию
Слайды про SG, SAG от Carnegie Mellon
Неделя 3 (лекция 20 сентября). Парадокс Штейна или зачем нужна регуляризация? Идея LASSO и гребневой регрессии.
Richard Samworth, Stein Paradox
Лекция 3 Евгения Соколова про линейные модели
Что общего между Ridge regression и Stein paradox?
Неделя 4 (лекция 27 сентября). Задача классификации. Персептрон, обучение персептрона. Логистическая регрессия: функция правдоподобия, интерпретация коэффициентов, интерпретация с помощью полезности. Кривая точность-полнота, ROC-кривая.
Лекция 4 Евгения Соколова про линейные классификаторы
Глава 5 про персептрон и глава 9 про логистическую регрессию
Неделя 5 (лекция 04 октября). Многоклассовая классификация. Идеи: обобщение алгоритма на примере логистической регрессии, один против остальных, каждый против каждого. Создание признаков: стандартизация, one-hot кодирование, one-hot кодирование с хэш-функцией, mean-target кодирование на примере долей для дискретной зависимой переменной.
Лекция 6 Евгения Соколова про многоклассовую классификацию
Неделя 6 (лекция 11 октября). Два взглядов на метод главных компонент: максимизация выборочной дисперсии, диагонализация ковариационной матрицы.
оч удачный листок, доказывающий эквивалентность трёх подходов
Неделя 7 (лекция 18 октября). Ещё три взгляда на метод главных компонент. Сингулярное разложение матрицы X. Минимизация суммы квадратов расстояний от X до аппроксимирующей матрицы меньшего ранга. Максимизиация средней величины R^2, где прогнозируемыми переменными выступают исходные переменные, а предикторами — главные компоненты. Вероятностная модель за pca.
pca как максимизация среднего значения коэффициента детерминации
про связь svd и pca с картинками
Про связь PCA и SVD на stats.stackexchange
пример подсчёта SVD руками. Компьютер считает принципиально по-другому :)
пример подсчёта собственных векторов
Коллоквиум (25 октября). Будет включать в себя теоретические вопросы и задачи. При подготовке к ответу пользоваться ничем нельзя.
Неделя 8 (лекция 1 ноября). Энтропия. Энтропия как количество среднее количество бит на передачу одного сообщения при оптимальном кодировании. Энтропия как среднее количество вопросов в данетках для отгадывания загаданного слова при оптимальной стратегии. Кросс-энтропия. Дивергенция Кульбака-Лейблера. Алгоритм umap.
Visual introduction to entropy umap-tsne DIY umap Tsne visualiazed
Неделя 9 (лекция 8 ноября). Разложение смещение-разброс. Зелёные друзья: дерево. Критерий Джини. Какие вопросы можно задавать в узле? Какая функция минимизируется при выборе вопроса? Как прокидываются пропущенные наблюдения? Когда останавливается рост дерева? Как обрезается дерево? Случайный лес.
Trees and bias-variance trade-off Лекция 8: разложение у Евгения Соколова с жуткими индексами :)
Неделя 10 (лекция 8 ноября). Случайный лес. Градиентный бустинг. Задачка на разложение шум-смещение-дисперсия.
Xgboost why does xgboost has a learning rate? Лекция 10 Евгения Соколова: xgboost
Экзамен (xx декабря). Письменный.
Книги
- Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.r, 2009.
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
- Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
- Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
- Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.
Курсы по машинному обучению и анализу данных
- Курс по машииному обучению Евгения Соколова на ПМИ ФКН
- Курс по машинному обучению К.В. Воронцова
- Видеозаписи лекций курса Школы Анализа Данных, К.В. Воронцов
- Coursera: Машинное обучение и анализ данных (специализация)
- Coursera: Введение в машинное обучение, К.В. Воронцов
- A Course in Machine Learning by Hal Daume