Машинное обучение (фэн 2019)

Содержание

1 О курсе
- 1.1 Правила выставления оценок
2 Полезные материалы
- 2.1 Книги
- 2.2 Курсы по машинному обучению и анализу данных

О курсе

Группа	Преподаватель	Учебный ассистент	Username	Расписание
лекции	Борис Демешев			G508, пятница, 9:00-10:30
...	Павел Губко	Глеб Мезенцев	gleb_mezentsev
...	Артем Филатов
...	Артур Петросян

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

Квизы (самостоятельные работы) на семинарах, проверяющие знание основных фактов с лекций и выполнение теоретических домашних заданий
Практические домашние работы на Python
Соревнование по анализу данных
Устный коллоквиум в конце 1-го модуля
Письменный экзамен

Итоговая оценка = 0.2 * Квизы + 0.3 * Домашние задания + 0.2 * Коллоквиум + 0.3 * Экзамен

Накопленная и итоговая оценки округляются арифметически. Никакие промежуточные оценки, в том числе оценки за домашние задания, самостоятельные работы или коллоквиум, не округляются.

Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности.

По курсу возможно получение оценки автоматом без сдачи экзамена. Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.

Полезные материалы

Задачник по машинному обучению

Неделя 1 (лекция 6 сентября). Матричный дифференциал и его свойства. Формула оценивания. Киноклуб Two minutes paper.

Матричный дифференциал

Two minutes paper

Курс по питону с курсеры

Неделя 2 (лекция 13 сентября). Второй дифференциал. Явный вывод оценок МНК в матричной форме. Проверка условий второго порядка с помощью второго дифференциала. Градиентный спуск. Методы оценки градиента: SG, SAG, momentum.

Приятная визуализация Why momentum really works?

Лекция 2 Евгения Соколова про линейную регрессию

Слайды про SG, SAG от Carnegie Mellon

Неделя 3 (лекция 20 сентября). Парадокс Штейна или зачем нужна регуляризация? Идея LASSO и гребневой регрессии.

Wikipedia, Stein's example

Richard Samworth, Stein Paradox

Лекция 3 Евгения Соколова про линейные модели

Что общего между Ridge regression и Stein paradox?

Неделя 4 (лекция 27 сентября). Задача классификации. Персептрон, обучение персептрона. Логистическая регрессия: функция правдоподобия, интерпретация коэффициентов, интерпретация с помощью полезности. Кривая точность-полнота, ROC-кривая.

Лекция 4 Евгения Соколова про линейные классификаторы

Глава 5 про персептрон и глава 9 про логистическую регрессию

Неделя 5 (лекция 04 октября). Многоклассовая классификация. Идеи: обобщение алгоритма на примере логистической регрессии, один против остальных, каждый против каждого. Создание признаков: стандартизация, one-hot кодирование, one-hot кодирование с хэш-функцией, mean-target кодирование на примере долей для дискретной зависимой переменной.

Лекция 6 Евгения Соколова про многоклассовую классификацию

Неделя 6 (лекция 11 октября). Два взглядов на метод главных компонент: максимизация выборочной дисперсии, диагонализация ковариационной матрицы.

оч удачный листок, доказывающий эквивалентность трёх подходов

making sense of PCA

Неделя 7 (лекция 18 октября). Ещё три взгляда на метод главных компонент. Сингулярное разложение матрицы X. Минимизация суммы квадратов расстояний от X до аппроксимирующей матрицы меньшего ранга. Максимизиация средней величины R^2, где прогнозируемыми переменными выступают исходные переменные, а предикторами — главные компоненты. Вероятностная модель за pca.

pca как максимизация среднего значения коэффициента детерминации

вероятностная модель за pca

про связь svd и pca с картинками

Про связь PCA и SVD на stats.stackexchange

пример подсчёта SVD руками. Компьютер считает принципиально по-другому :)

пример подсчёта собственных векторов

Коллоквиум (25 октября). Будет включать в себя теоретические вопросы и задачи. При подготовке к ответу пользоваться ничем нельзя.

Неделя 8 (лекция 1 ноября). Энтропия. Энтропия как количество среднее количество бит на передачу одного сообщения при оптимальном кодировании. Энтропия как среднее количество вопросов в данетках для отгадывания загаданного слова при оптимальной стратегии. Кросс-энтропия. Дивергенция Кульбака-Лейблера. Алгоритм umap.

Неделя 9 (лекция 8 ноября). Разложение смещение-разброс. Зелёные друзья: дерево. Критерий Джини. Какие вопросы можно задавать в узле? Какая функция минимизируется при выборе вопроса? Как прокидываются пропущенные наблюдения? Когда останавливается рост дерева? Как обрезается дерево? Случайный лес.

Неделя 10 (лекция 8 ноября). План. Градиентный бустинг.

Экзамен (xx декабря). Письменный.

Книги

Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.r, 2009.
Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

Машинное обучение (фэн 2019)

Содержание

О курсе

Правила выставления оценок

Полезные материалы

Книги

Курсы по машинному обучению и анализу данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты