Машинное обучение на матфаке 2018/2019 — различия между версиями
Kostawan (обсуждение | вклад) |
|||
(не показаны 92 промежуточные версии 4 участников) | |||
Строка 10: | Строка 10: | ||
* [https://github.com/ischurov/math-ml-hse-2018 Репозиторий с материалами на GitHub] | * [https://github.com/ischurov/math-ml-hse-2018 Репозиторий с материалами на GitHub] | ||
* [https://www.hse.ru/data/2018/08/28/1150124248/program-2227521178-znjnnTPmmc.pdf РПУД] | * [https://www.hse.ru/data/2018/08/28/1150124248/program-2227521178-znjnnTPmmc.pdf РПУД] | ||
− | * [https:// | + | * [https://docs.google.com/forms/d/e/1FAIpQLSdZDFmNf0eEMnTnuGoBoKc3v9pqioqGyCjblLXFWq-55Yc_OA/viewform Форма обратной связи] (можно анонимно) |
+ | * [https://docs.google.com/forms/d/e/1FAIpQLSd6ADbVAq6b9YK07lxBcz10eZVfUj9E-OejgHVRu4S2DoW2xA/viewform Запись на консультацию] (вторники, после лекции, консультирует Илья Щуров). | ||
+ | * [https://anytask.org/course/413 Курс на Anytask] | ||
+ | * [https://docs.google.com/spreadsheets/d/1H4LRkqdzHvWoo7yYrB-P2SABovnZwKd-pMlgvw-RcOk/edit?usp=sharing Таблица с оценками] | ||
+ | * Видео-записи лекций: [https://yadi.sk/d/MVpqXP6UxmDcjQ Яндекс.Диск], [https://www.youtube.com/channel/UC8wh_LB6mxOFYadH2l27P2Q YouTube]. | ||
+ | |||
=== Семинары === | === Семинары === | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! Группа !! Преподаватель !! Учебный ассистент !! Расписание | + | ! Группа !! Преподаватель !! Учебный ассистент !! Расписание !! Инвайт в Anytask |
|- | |- | ||
− | | 1 || Евгения Ческидова || Константин Ваниев || | + | | 1 || Евгения Ческидова || Константин Ваниев || вторник, 12:10-13:30, ауд. 318 || ZfhBpf1 |
|- | |- | ||
− | | 2 || [https://t-do.ru/blacKitten13 Евгений Ковалев] || [https://t-do.ru/svdcvt Соня Дымченко] || суббота, 12:00-13:20, ауд. 318 | + | | 2 || [https://t-do.ru/blacKitten13 Евгений Ковалев] || [https://t-do.ru/svdcvt Соня Дымченко] || суббота, 12:00-13:20, ауд. 318 || 5jOWWt9 |
|- | |- | ||
|} | |} | ||
− | |||
− | |||
− | |||
=== Система оценок === | === Система оценок === | ||
Строка 34: | Строка 36: | ||
Накопленная оценка рассчитывается по формуле: | Накопленная оценка рассчитывается по формуле: | ||
− | '''O<sub>накопл</sub> = 0. | + | '''O<sub>накопл</sub> = 0.58 * O<sub>дз</sub> + 0.42 * O<sub>КР</sub>''' |
{| role="presentation" class="wikitable mw-collapsible mw-collapsed" | {| role="presentation" class="wikitable mw-collapsible mw-collapsed" | ||
| <strong>Подробнее</strong> | | <strong>Подробнее</strong> | ||
|- | |- | ||
− | | | + | | |
+ | |||
==== Правила вычисления оценок ==== | ==== Правила вычисления оценок ==== | ||
Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности. Все промежуточные оценки (за домашние, самостоятельные и коллоквиум) могут быть не целыми. | Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности. Все промежуточные оценки (за домашние, самостоятельные и коллоквиум) могут быть не целыми. | ||
Строка 56: | Строка 59: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! № !! Дата !! Название !! | + | ! № !! Дата !! Название !! Конспект !! Видео |
|- | |- | ||
− | | 1 || 4 сентября || Введение в ml, постановки задач, виды данных || | + | | 1 || 4 сентября || Введение в ml, постановки задач, виды данных || || |
|- | |- | ||
− | | 2 || 11 сентября || | + | | 2 || 11 сентября || Напоминание: теория вероятностей и статистика. Случайные величины, выборки, оценки || [http://math-info.hse.ru/math-ml/chapter/label/chap:2:prob/ конспект] || |
|- | |- | ||
+ | | 3 || 18 сентября || Введение в статистическую теорию принятия решений. Функция потерь, ожидаемая ошибка, регрессионная функция || [http://math-info.hse.ru/math-ml/chapter/label/chap:3:els/ конспект] || | ||
+ | |- | ||
+ | | 4 || 25 сентября || Шум, смещение и разброс || [http://math-info.hse.ru/math-ml/chapter/label/chap:4:bias-variance/#label_chap_4_bias-variance конспект] || [https://youtu.be/7ONXfcfF5iA видео] | ||
+ | |- | ||
+ | | 5 || 2 октября || Линейная регрессия. MLE-оценки. Максимизация правдоподобия и минимизация эмпирического риска. Явный вид МНК-оценки || [http://math-info.hse.ru/math-ml/chapter/label/chap:5:linear-reg/ конспект] || [https://youtu.be/xDmPwWRtb3U видео] | ||
+ | |- | ||
+ | | 6 || 9 октября || Свойства МНК-оценки. Несмещённость. Ковариационная матрица оценки. Теорема Гаусса — Маркова. Отбор признаков || [http://math-info.hse.ru/math-ml/chapter/label/chap:6:linear-reg2/ конспект] || [https://youtu.be/3nizTmbT0Ws видео] | ||
+ | |- | ||
+ | | 7 || 16 октября || Различные функции потерь для регрессий: MAE, Huber loss; L1-регуляризация как метод отбора признаков; переобучение в линейной регрессии (пример с полиномиальными признаками). Логистическая регрессия с одним признаком, её функция правдоподобия. || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture03-linregr.pdf Ещё о линейных регрессиях], [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture05-linclass.pdf логистическая регрессия] || | ||
+ | |- | ||
+ | | 8 || 30 октября || Логистическая регрессия. Логарифмическая функция потерь. Выражение функции потерь через отступ. Многоклассовая классификация: комбинирование двухклассовых классификаторов (one vs rest, one vs one), многоклассовая (мультиномиальная) логистическая регрессия. || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture05-linclass.pdf логистическая регрессия], [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture06-linclass.pdf многоклассовая классификация] || | ||
+ | |- | ||
+ | | 9 || 6 ноября || Support vector machines (как задача уменьшения эмпирического риска для hinge loss). Решающие деревья. || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture05-linclass.pdf метод опорных векторов] (см. часть 2), [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture07-trees.pdf решающие деревья] || | ||
+ | |- | ||
+ | | 10 || 13 ноября || Решающие леса и градиентный бустинг над деревьями || Конспекты Е. Соколова [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture08-ensembles.pdf решающие леса], [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture09-ensembles.pdf градиентный бустинг] (мы не обсуждали AdaBoost) || | ||
+ | |- | ||
+ | | 11 || 20 ноября || Нейронные сети как способ обучения признаков. Многослойный персептрон. Теорема об универсальной аппроксимации для персептрона с двумя скрытыми слоями и ReLU-активацией (набросок доказательства). Backpropagation. Стохастический градиентный спуск || Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture11-dl.pdf Графы вычислений и элементы глубинного обучения]. Дополнительный материал: [http://neuralnetworksanddeeplearning.com/chap4.html теорема об универсальной аппроксимации] (англ.) || | ||
+ | |- | ||
+ | | 12 || 27 ноября || Свёрточные нейронные сети ||Конспекты Е. Соколова: [https://github.com/esokolov/ml-course-hse/blob/master/2017-fall/lecture-notes/lecture11-dl.pdf Графы вычислений и элементы глубинного обучения], Дополнительный материал: [http://cs231n.github.io/convolutional-networks/ convolutional networks] (англ.) || | ||
+ | |- | ||
+ | | 13 || 4 декабря || Рекуррентные нейронные сети. Задачи unsupervised learning: снижение размерности с помощью метода главных компонент (PCA) || [http://math-info.hse.ru/f/2015-16/ling-mag-quant/lecture-pca.html Метод главных компонент] (неформальное введение) || | ||
+ | |- | ||
+ | | 14 || 11 декабря || Задачи unsupervised learning: снижение размерности, кластеризация (K-means, иерархическая кластеризация), оценка плотности (разделение гауссовых смесей, EM-алгоритм). || [https://en.wikipedia.org/wiki/K-means_clustering K-means clustering] (википедия, англ.), [https://www.ics.uci.edu/~smyth/courses/cs274/notes/EMnotes.pdf The EM Algorithm for Gaussian Mixtures]] (англ.) || | ||
|} | |} | ||
Строка 71: | Строка 97: | ||
| 1 || 8/10 сентября || Введение в numpy, pandas, matplotlib || [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem01_intro Тетрадка и данные] [https://github.com/ischurov/math-ml-hse-2018/blob/master/sem01_intro/sem01_stats_basics.pdf Задачи] | | 1 || 8/10 сентября || Введение в numpy, pandas, matplotlib || [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem01_intro Тетрадка и данные] [https://github.com/ischurov/math-ml-hse-2018/blob/master/sem01_intro/sem01_stats_basics.pdf Задачи] | ||
|- | |- | ||
− | | 2 || 15/17 сентября || Статистические оценки, проверка гипотез || [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem02_stats | + | | 2 || 15/17 сентября || Статистические оценки, проверка гипотез || Все файлы: ([https://drive.google.com/open?id=19C3EbCb9EObKj8Dj26ctrkMJE3TA0wpr Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem02_stats Github]), [http://nbviewer.jupyter.org/github/ischurov/math-ml-hse-2018/blob/master/sem02_stats/sem02_stats.ipynb тетрадка] |
|- | |- | ||
+ | | 3 || 22/24 сентября || метод k ближайших соседей (k-NN), кросс-валидация || Все файлы: ([https://drive.google.com/open?id=1RciXNKPgFT1RUBWJih9HtSYbUtLTJC8r Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem03_knn Github]), [http://nbviewer.jupyter.org/github/ischurov/math-ml-hse-2018/blob/master/sem03_knn/sem03_knn.ipynb тетрадка] | ||
+ | |- | ||
+ | | 4 || 29/1 сент/окт || метод k ближайших соседей, часть 2 || Все файлы: ([https://drive.google.com/open?id=1uq9bt8GahFZOTQTHsGMx28xZqR8Rn9zK Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem04_knn2 Github]) | ||
+ | |- | ||
+ | | 5 || 6/8 октября || линейная регрессия, градиентный спуск || Все файлы: ([https://drive.google.com/open?id=1-Ke6D5sK4aWiOzuKFFal-SI3Nsxy4BYh Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem05_lin_reg Github]) | ||
+ | |- | ||
+ | | 6 ||13/15 октября || отбор признаков, регуляризация || Все файлы: ([https://drive.google.com/open?id=1lF7RG4F3BhUCOHmoHEOvQoFh-0PMRtOo Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem06_feature_selection_regularization Github]} | ||
+ | |- | ||
+ | | 7 ||20/30 октября || логистическая регрессия, метрики, полиномиальные признаки || Все файлы: ([https://drive.google.com/open?id=1wbDF60YrNv2zi6pSrMUd6_Aq3BE1UOCK Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem07_logreg Github]) | ||
+ | |- | ||
+ | | 8 ||3/6 ноября || методы автоматической обработки текстов, TF-IDF || Все файлы: ([https://drive.google.com/open?id=1fcUYJyFKSvXpGfxuEP2Sf_I7lxO04nmC Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem08_texts Github]) | ||
+ | |- | ||
+ | | 9 ||10/13 ноября || решающие деревья || Все файлы: ([https://drive.google.com/open?id=1UExjy2laVgNod4xsIyiUn8hPzIsB7K2u Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem09_trees Github]) | ||
+ | |- | ||
+ | | 10 ||20/24 ноября || ансамбли, градиентный бустинг || Все файлы: ([https://drive.google.com/open?id=1j30txRyFz2lJcaioOpG-ZqYTU5iF64bV Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem10_ensembles Github]) | ||
+ | |- | ||
+ | | 11 ||24/27 ноября || нейронные сети, PyTorch || Все файлы: ([https://drive.google.com/open?id=13h7wGtoswUafc0T5HH5ODEOp9ZGzV6EA Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem11_pytorch_intro Github], [https://colab.research.google.com/drive/1SYSqkoRchfQW8QDc3LW8wBaNzDG6dO99 Colab]) | ||
+ | |- | ||
+ | | 12 ||1/4 декабря || сверточные нейронные сети, регуляризация || Все файлы: ([https://drive.google.com/open?id=15QbCaNf_1fMH8vd0FExjd_5UjcJpU5yg Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem12_images Github]) | ||
+ | |- | ||
+ | | 13 ||8/11 декабря || рекуррентные нейронные сети || Все файлы: ([https://drive.google.com/open?id=1vUlQUqq1Kea2VdPTMC_1p35yte2HZmQM Google Drive], [https://github.com/ischurov/math-ml-hse-2018/tree/master/sem13_rnn Github]) | ||
|} | |} | ||
[https://stackoverflow.com/questions/45622602/how-to-jupyter-notebooks-from-github Как корректно скачать файл с расширением .ipynb с GitHub?] | [https://stackoverflow.com/questions/45622602/how-to-jupyter-notebooks-from-github Как корректно скачать файл с расширением .ipynb с GitHub?] | ||
+ | |||
+ | == Домашние задания == | ||
+ | * ДЗ№1: [http://nbviewer.jupyter.org/github/ischurov/math-ml-hse-2018/blob/master/hw1/hw1.ipynb nbviewer], [https://github.com/ischurov/math-ml-hse-2018/blob/master/hw1/hw1.ipynb github], срок сдачи — 3 октября, 23:00. | ||
+ | * ДЗ№2: [http://nbviewer.jupyter.org/github/ischurov/math-ml-hse-2018/blob/master/hw2/hw2.ipynb nbviewer], [https://github.com/ischurov/math-ml-hse-2018/tree/master/hw2 github], срок сдачи — 17 октября, 23:00. | ||
+ | * ДЗ№3: [http://nbviewer.jupyter.org/github/ischurov/math-ml-hse-2018/blob/master/hw3/hw3.ipynb nbviewer], [https://github.com/ischurov/math-ml-hse-2018/tree/master/hw3/hw3.ipynb github] , срок сдачи — 4 ноября, 23:00. | ||
+ | * Соревнование на [https://www.kaggle.com/t/9c050ce0ed5742088d5660c69360ccbf Kaggle], срок сдачи 15.12.2018 23:59UTC | ||
+ | * ДЗ№4: [http://nbviewer.jupyter.org/github/ischurov/math-ml-hse-2018/blob/master/hw4/hw4.ipynb nbviewer], [https://github.com/ischurov/math-ml-hse-2018/tree/master/hw4/hw4.ipynb github], срок сдачи — 23 декабря, 23:00. | ||
+ | |||
+ | ==Соревнования== | ||
+ | '''Правила участия и оценивания:''' | ||
+ | # Необходимо использовать следующий формат для имени команды (Team -> Team Name -> Save Team Name): «Имя Фамилия МФ». | ||
+ | # Максимальное количество посылок в сутки 3 (начинайте заранее). | ||
+ | # Ближе к концу соревнования необходимо выбрать 1 посылку, которую вы считаете лучшей. | ||
+ | # Оценивание: максимальный score, набранный кем бы то ни было (при условии преодоления бейзлайна на 8) — 10 баллов. Score, соответствующий бейзлайну на 8 — 8 баллов. В промежутке — линейно. И т.д. Основные бейзлайны скоро будут. Лидерборд рассматривается приватный. | ||
+ | # Оцениваются только решения, полученные как результат работы [https://www.kaggle.com/c/2018-hse-ml-competion-03/kernels private kernel] -- в системе уже загружены всевозможные библиотеки, которые могут вам понадобиться в работе, более того можно не выгружать данные соревнования и иметь бо́льшие (а может быть и меньшие, но у всех равные условия) вычислительные мощности, чем у вас на компьютере (14Gb RAM + GPU). | ||
+ | # У студента может быть только один аккаунт, соответсвенно и отправлять решения только с него. | ||
+ | # Как и в прошлых ДЗ -- списывание запрещено, при обнаружении плагиата работы обнуляются. | ||
+ | # Продление дедлайна невозможно. | ||
+ | |||
+ | В соревновании оцениваются только решения, полученные как результат работы private kernel (Kernels -> New Kernel -> пишете код там или загружаете свой код -> Commit). После того, как кернел был закоммичен, можно отправить результат его выполненения нажав кнопку "Submit to competition". | ||
+ | |||
+ | [[Файл:Submitting.png|600px|без рамки]] | ||
+ | |||
+ | Чтобы работа была оценена, необходимо дать доступ для просмотра ассистенту (svdcvt). Сдавать нужно тот кернел, с помощью которого был получен ваш | ||
+ | результат на лидерборде, иначе работа обнуляется. Так же надо указать версию в названии кернела. | ||
+ | |||
+ | [[Файл:Assistant.png|600px|без рамки]] | ||
== Новости курса == | == Новости курса == | ||
− | В | + | |
+ | 12.12. Экзамен по курсу состоится 25 декабря с 13:30 до 15:30, формат — письменная работа (типа как была в конце прошлого модуля), closed book (пользоваться ничем нельзя). [[Машинное обучение на матфаке 2018/2019/Программа экзамена|Программа экзамена]] | ||
+ | |||
+ | 29.11. Появилось соревнование на кэггле: https://www.kaggle.com/t/9c050ce0ed5742088d5660c69360ccbf | ||
+ | |||
+ | 23.11. Субботняя группа - завтра будет две пары не с 10:30 до 13:30, а с 12:00 до 15:00. | ||
+ | |||
+ | 13.11. Новости для группы, которая ходит на семинары по субботам. В эту субботу (17.11) семинар не состоится, да и вообще факультет математики, видимо, будет закрыт. Пара переносится на субботу на следующей неделе (24.11). Таким образом, 24.11 будет две пары с 10:30 до 13:30. | ||
+ | |||
+ | 18.10. Появилось ДЗ№3 (оно же — задачи для подготовки к КР). | ||
+ | |||
+ | 16.10. В понедельник, 22 октября в 10:30 состоится консультация в кабинете 318 (компокласс). | ||
+ | |||
+ | 15.10. Контрольная по курсу состоится 23.10 с 13:30 до 15:30 в аудитории 109. [[Машинное обучение на матфаке 2018/2019/Программа контрольной|Программа контрольной]] | ||
+ | |||
+ | 11.10. Семинары группы 1 (в понедельник) перенесены теперь на вторник с 12:00 до 13:20. | ||
+ | |||
+ | 10.10. Появилось ДЗ№2! | ||
+ | |||
+ | 24.09. Появилось ДЗ№1! | ||
== Полезные материалы == | == Полезные материалы == | ||
− | Базовые учебники | + | === Базовые учебники === |
# Hastie T., Tibshirani R, Friedman J. [http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html The Elements of Statistical Learning (2nd edition)]. Springer, 2009. | # Hastie T., Tibshirani R, Friedman J. [http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html The Elements of Statistical Learning (2nd edition)]. Springer, 2009. | ||
# Bishop C. M. [http://research.microsoft.com/en-us/um/people/cmbishop/prml/ Pattern Recognition and Machine Learning]. Springer, 2006. | # Bishop C. M. [http://research.microsoft.com/en-us/um/people/cmbishop/prml/ Pattern Recognition and Machine Learning]. Springer, 2006. | ||
− | Дополнительная литература | + | === Дополнительная литература === |
# Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning, MIT Press, 2016. | # Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning, MIT Press, 2016. | ||
# Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012. | # Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012. | ||
# Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012. | # Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012. | ||
# Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014. | # Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014. | ||
+ | |||
+ | === Разные хорошие ссылки === | ||
+ | |||
+ | # [https://betanalpha.github.io/assets/case_studies/conditional_probability_theory.html Об условных вероятностях]. | ||
+ | # [https://mml-book.github.io Mathematics for Machine Learning] — книга с математическим введением в машинное обучение. Вам могут быть особенно интересно главы про теорию вероятностей. |
Текущая версия на 12:47, 9 апреля 2020
Содержание
О курсе
Курс читается для студентов факультета математики ВШЭ в 1-2 модулях.
Лектор: Щуров Илья Валерьевич
Лекции проходят по вторникам с 14:00 до 15:20 в аудитории 109.
Полезные ссылки
- Регистрационная форма (заполните, чтобы получать уведомления о курсе)
- Репозиторий с материалами на GitHub
- РПУД
- Форма обратной связи (можно анонимно)
- Запись на консультацию (вторники, после лекции, консультирует Илья Щуров).
- Курс на Anytask
- Таблица с оценками
- Видео-записи лекций: Яндекс.Диск, YouTube.
Семинары
Группа | Преподаватель | Учебный ассистент | Расписание | Инвайт в Anytask |
---|---|---|---|---|
1 | Евгения Ческидова | Константин Ваниев | вторник, 12:10-13:30, ауд. 318 | ZfhBpf1 |
2 | Евгений Ковалев | Соня Дымченко | суббота, 12:00-13:20, ауд. 318 | 5jOWWt9 |
Система оценок
Формула оценки
Результирующая оценка по дисциплине рассчитывается по формуле:
Oитог = 0.7 * Oнакопл + 0.3 * Oэкз
Накопленная оценка рассчитывается по формуле:
Oнакопл = 0.58 * Oдз + 0.42 * OКР
Подробнее |
Правила вычисления оценокОценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности. Все промежуточные оценки (за домашние, самостоятельные и коллоквиум) могут быть не целыми. Накопленная и итоговая оценки округляются математически, оценки вида «целое + 1/2» округляются вверх. Правила сдачи заданийДедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются. При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). |
Лекции
№ | Дата | Название | Конспект | Видео |
---|---|---|---|---|
1 | 4 сентября | Введение в ml, постановки задач, виды данных | ||
2 | 11 сентября | Напоминание: теория вероятностей и статистика. Случайные величины, выборки, оценки | конспект | |
3 | 18 сентября | Введение в статистическую теорию принятия решений. Функция потерь, ожидаемая ошибка, регрессионная функция | конспект | |
4 | 25 сентября | Шум, смещение и разброс | конспект | видео |
5 | 2 октября | Линейная регрессия. MLE-оценки. Максимизация правдоподобия и минимизация эмпирического риска. Явный вид МНК-оценки | конспект | видео |
6 | 9 октября | Свойства МНК-оценки. Несмещённость. Ковариационная матрица оценки. Теорема Гаусса — Маркова. Отбор признаков | конспект | видео |
7 | 16 октября | Различные функции потерь для регрессий: MAE, Huber loss; L1-регуляризация как метод отбора признаков; переобучение в линейной регрессии (пример с полиномиальными признаками). Логистическая регрессия с одним признаком, её функция правдоподобия. | Конспекты Е. Соколова: Ещё о линейных регрессиях, логистическая регрессия | |
8 | 30 октября | Логистическая регрессия. Логарифмическая функция потерь. Выражение функции потерь через отступ. Многоклассовая классификация: комбинирование двухклассовых классификаторов (one vs rest, one vs one), многоклассовая (мультиномиальная) логистическая регрессия. | Конспекты Е. Соколова: логистическая регрессия, многоклассовая классификация | |
9 | 6 ноября | Support vector machines (как задача уменьшения эмпирического риска для hinge loss). Решающие деревья. | Конспекты Е. Соколова: метод опорных векторов (см. часть 2), решающие деревья | |
10 | 13 ноября | Решающие леса и градиентный бустинг над деревьями | Конспекты Е. Соколова решающие леса, градиентный бустинг (мы не обсуждали AdaBoost) | |
11 | 20 ноября | Нейронные сети как способ обучения признаков. Многослойный персептрон. Теорема об универсальной аппроксимации для персептрона с двумя скрытыми слоями и ReLU-активацией (набросок доказательства). Backpropagation. Стохастический градиентный спуск | Конспекты Е. Соколова: Графы вычислений и элементы глубинного обучения. Дополнительный материал: теорема об универсальной аппроксимации (англ.) | |
12 | 27 ноября | Свёрточные нейронные сети | Конспекты Е. Соколова: Графы вычислений и элементы глубинного обучения, Дополнительный материал: convolutional networks (англ.) | |
13 | 4 декабря | Рекуррентные нейронные сети. Задачи unsupervised learning: снижение размерности с помощью метода главных компонент (PCA) | Метод главных компонент (неформальное введение) | |
14 | 11 декабря | Задачи unsupervised learning: снижение размерности, кластеризация (K-means, иерархическая кластеризация), оценка плотности (разделение гауссовых смесей, EM-алгоритм). | K-means clustering (википедия, англ.), The EM Algorithm for Gaussian Mixtures] (англ.) |
Семинары
№ | Дата | Название | Материалы |
---|---|---|---|
1 | 8/10 сентября | Введение в numpy, pandas, matplotlib | Тетрадка и данные Задачи |
2 | 15/17 сентября | Статистические оценки, проверка гипотез | Все файлы: (Google Drive, Github), тетрадка |
3 | 22/24 сентября | метод k ближайших соседей (k-NN), кросс-валидация | Все файлы: (Google Drive, Github), тетрадка |
4 | 29/1 сент/окт | метод k ближайших соседей, часть 2 | Все файлы: (Google Drive, Github) |
5 | 6/8 октября | линейная регрессия, градиентный спуск | Все файлы: (Google Drive, Github) |
6 | 13/15 октября | отбор признаков, регуляризация | Все файлы: (Google Drive, Github} |
7 | 20/30 октября | логистическая регрессия, метрики, полиномиальные признаки | Все файлы: (Google Drive, Github) |
8 | 3/6 ноября | методы автоматической обработки текстов, TF-IDF | Все файлы: (Google Drive, Github) |
9 | 10/13 ноября | решающие деревья | Все файлы: (Google Drive, Github) |
10 | 20/24 ноября | ансамбли, градиентный бустинг | Все файлы: (Google Drive, Github) |
11 | 24/27 ноября | нейронные сети, PyTorch | Все файлы: (Google Drive, Github, Colab) |
12 | 1/4 декабря | сверточные нейронные сети, регуляризация | Все файлы: (Google Drive, Github) |
13 | 8/11 декабря | рекуррентные нейронные сети | Все файлы: (Google Drive, Github) |
Как корректно скачать файл с расширением .ipynb с GitHub?
Домашние задания
- ДЗ№1: nbviewer, github, срок сдачи — 3 октября, 23:00.
- ДЗ№2: nbviewer, github, срок сдачи — 17 октября, 23:00.
- ДЗ№3: nbviewer, github , срок сдачи — 4 ноября, 23:00.
- Соревнование на Kaggle, срок сдачи 15.12.2018 23:59UTC
- ДЗ№4: nbviewer, github, срок сдачи — 23 декабря, 23:00.
Соревнования
Правила участия и оценивания:
- Необходимо использовать следующий формат для имени команды (Team -> Team Name -> Save Team Name): «Имя Фамилия МФ».
- Максимальное количество посылок в сутки 3 (начинайте заранее).
- Ближе к концу соревнования необходимо выбрать 1 посылку, которую вы считаете лучшей.
- Оценивание: максимальный score, набранный кем бы то ни было (при условии преодоления бейзлайна на 8) — 10 баллов. Score, соответствующий бейзлайну на 8 — 8 баллов. В промежутке — линейно. И т.д. Основные бейзлайны скоро будут. Лидерборд рассматривается приватный.
- Оцениваются только решения, полученные как результат работы private kernel -- в системе уже загружены всевозможные библиотеки, которые могут вам понадобиться в работе, более того можно не выгружать данные соревнования и иметь бо́льшие (а может быть и меньшие, но у всех равные условия) вычислительные мощности, чем у вас на компьютере (14Gb RAM + GPU).
- У студента может быть только один аккаунт, соответсвенно и отправлять решения только с него.
- Как и в прошлых ДЗ -- списывание запрещено, при обнаружении плагиата работы обнуляются.
- Продление дедлайна невозможно.
В соревновании оцениваются только решения, полученные как результат работы private kernel (Kernels -> New Kernel -> пишете код там или загружаете свой код -> Commit). После того, как кернел был закоммичен, можно отправить результат его выполненения нажав кнопку "Submit to competition".
Чтобы работа была оценена, необходимо дать доступ для просмотра ассистенту (svdcvt). Сдавать нужно тот кернел, с помощью которого был получен ваш результат на лидерборде, иначе работа обнуляется. Так же надо указать версию в названии кернела.
Новости курса
12.12. Экзамен по курсу состоится 25 декабря с 13:30 до 15:30, формат — письменная работа (типа как была в конце прошлого модуля), closed book (пользоваться ничем нельзя). Программа экзамена
29.11. Появилось соревнование на кэггле: https://www.kaggle.com/t/9c050ce0ed5742088d5660c69360ccbf
23.11. Субботняя группа - завтра будет две пары не с 10:30 до 13:30, а с 12:00 до 15:00.
13.11. Новости для группы, которая ходит на семинары по субботам. В эту субботу (17.11) семинар не состоится, да и вообще факультет математики, видимо, будет закрыт. Пара переносится на субботу на следующей неделе (24.11). Таким образом, 24.11 будет две пары с 10:30 до 13:30.
18.10. Появилось ДЗ№3 (оно же — задачи для подготовки к КР).
16.10. В понедельник, 22 октября в 10:30 состоится консультация в кабинете 318 (компокласс).
15.10. Контрольная по курсу состоится 23.10 с 13:30 до 15:30 в аудитории 109. Программа контрольной
11.10. Семинары группы 1 (в понедельник) перенесены теперь на вторник с 12:00 до 13:20.
10.10. Появилось ДЗ№2!
24.09. Появилось ДЗ№1!
Полезные материалы
Базовые учебники
- Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
Дополнительная литература
- Ian Goodfellow and Yoshua Bengio and Aaron Courville, Deep Learning, MIT Press, 2016.
- Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
- Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
- Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
Разные хорошие ссылки
- Об условных вероятностях.
- Mathematics for Machine Learning — книга с математическим введением в машинное обучение. Вам могут быть особенно интересно главы про теорию вероятностей.