Машинное обучение (фэн 2019)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Официальная программа

Таблица с оценками


Группа Преподаватель Учебный ассистент Username Расписание
лекции Борис Демешев G508, пятница, 9:00-10:30
... Павел Губко Глеб Мезенцев gleb_mezentsev
... Артем Филатов
... Артур Петросян

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Квизы (самостоятельные работы) на семинарах, проверяющие знание основных фактов с лекций и выполнение теоретических домашних заданий
  • Практические домашние работы на Python
  • Соревнование по анализу данных
  • Устный коллоквиум в конце 1-го модуля
  • Письменный экзамен

Итоговая оценка = 0.2 * Квизы + 0.3 * Домашние задания + 0.2 * Коллоквиум + 0.3 * Экзамен

Накопленная и итоговая оценки округляются арифметически. Никакие промежуточные оценки, в том числе оценки за домашние задания, самостоятельные работы или коллоквиум, не округляются.

Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности.

По курсу возможно получение оценки автоматом без сдачи экзамена. Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.


Полезные материалы

Задачник по машинному обучению

Неделя 1 (лекция 6 сентября). Матричный дифференциал и его свойства. Формула оценивания. Киноклуб Two minutes paper.

Матричный дифференциал

Two minutes paper

Курс по питону с курсеры

Неделя 2 (лекция 13 сентября). Второй дифференциал. Явный вывод оценок МНК в матричной форме. Проверка условий второго порядка с помощью второго дифференциала. Градиентный спуск. Методы оценки градиента: SG, SAG, momentum.

Приятная визуализация Why momentum really works?

Лекция 2 Евгения Соколова про линейную регрессию

Слайды про SG, SAG от Carnegie Mellon

Неделя 3 (лекция 20 сентября). Парадокс Штейна или зачем нужна регуляризация? Идея LASSO и гребневой регрессии.

Wikipedia, Stein's example

Richard Samworth, Stein Paradox

Лекция 3 Евгения Соколова про линейные модели

Что общего между Ridge regression и Stein paradox?

Неделя 4 (лекция 27 сентября). Задача классификации. Персептрон, обучение персептрона. Логистическая регрессия: функция правдоподобия, интерпретация коэффициентов, интерпретация с помощью полезности. Кривая точность-полнота, ROC-кривая.

Лекция 4 Евгения Соколова про линейные классификаторы

Глава 5 про персептрон и глава 9 про логистическую регрессию

Неделя 5 (лекция 04 октября). Многоклассовая классификация. Идеи: обобщение алгоритма на примере логистической регрессии, один против остальных, каждый против каждого. Создание признаков: стандартизация, one-hot кодирование, one-hot кодирование с хэш-функцией, mean-target кодирование на примере долей для дискретной зависимой переменной.

Лекция 6 Евгения Соколова про многоклассовую классификацию

Неделя 6 (лекция 11 октября). Два взглядов на метод главных компонент: максимизация выборочной дисперсии, диагонализация ковариационной матрицы.

оч удачный листок, доказывающий эквивалентность трёх подходов

making sense of PCA

Неделя 7 (лекция 18 октября). Ещё три взгляда на метод главных компонент. Сингулярное разложение матрицы X. Минимизация суммы квадратов расстояний от X до аппроксимирующей матрицы меньшего ранга. Максимизиация средней величины R^2, где прогнозируемыми переменными выступают исходные переменные, а предикторами — главные компоненты. Вероятностная модель за pca.

pca как максимизация среднего значения коэффициента детерминации

вероятностная модель за pca

про связь svd и pca с картинками

Про связь PCA и SVD на stats.stackexchange

пример подсчёта SVD руками. Компьютер считает принципиально по-другому :)

пример подсчёта собственных векторов


Коллоквиум (25 октября). Будет включать в себя теоретические вопросы и задачи. При подготовке к ответу пользоваться ничем нельзя.

Неделя 8 (лекция 1 ноября). Энтропия. Энтропия как количество среднее количество бит на передачу одного сообщения при оптимальном кодировании. Энтропия как среднее количество вопросов в данетках для отгадывания загаданного слова при оптимальной стратегии. Кросс-энтропия. Дивергенция Кульбака-Лейблера. Алгоритм umap.

Visual introduction to entropy umap-tsne DIY umap Tsne visualiazed

Неделя 9 (лекция 8 ноября). Разложение смещение-разброс. Зелёные друзья: дерево. Критерий Джини. Какие вопросы можно задавать в узле? Какая функция минимизируется при выборе вопроса? Как прокидываются пропущенные наблюдения? Когда останавливается рост дерева? Как обрезается дерево? Случайный лес.

Trees and bias-variance trade-off Лекция 8: разложение у Евгения Соколова с жуткими индексами :)

Неделя 10 (лекция 8 ноября). Случайный лес. Градиентный бустинг. Задачка на разложение шум-смещение-дисперсия.

Xgboost why does xgboost has a learning rate? Лекция 10 Евгения Соколова: xgboost


Экзамен (xx декабря). Письменный.


Книги

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.r, 2009.
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  • Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

Курсы по машинному обучению и анализу данных