Машинное обучение 1 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Экзамен)
Строка 9: Строка 9:
 
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич]
 
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич]
  
Лекции проходят по пятницам, 12:10 - 13:30, ауд. 317.
+
Лекции проходят по пятницам, 12:10 - 13:30, ауд. R404.
  
  
Строка 18: Строка 18:
 
=== Полезные ссылки ===
 
=== Полезные ссылки ===
  
[https://www.hse.ru/ba/ami/courses/219888994.html Карточка курса и программа]
+
[https://www.hse.ru/ba/ami/courses/292689583.html Карточка курса и программа]
  
 
[https://github.com/esokolov/ml-course-hse Репозиторий с материалами на GitHub]
 
[https://github.com/esokolov/ml-course-hse Репозиторий с материалами на GitHub]
  
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.cs.ml+<номер группы>@gmail.com (например, hse.cs.ml+161@gmail.com)
+
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.cs.ml+<номер группы>@gmail.com (например, hse.cs.ml+171@gmail.com)
  
Канал в telegram для объявлений: https://t.me/joinchat/AAAAAEprV-8gsyFBkYbvkg
+
Канал в telegram для объявлений: https://t.me/joinchat/AAAAAEtiwm9A8i-78LNcKQ
  
Чат в telegram для обсуждений: https://t.me/joinchat/A5rlQE2eFY0LN0AWcGH3qA
+
Чат в telegram для обсуждений (предназначение чата до конца не ясно, вопросы может быть правильнее задавать в чатах групп): https://t.me/joinchat/A5rlQBUrWTeXl7eBbnyBcQ
  
Ссылка на курс в Anytask: https://anytask.org/course/390
+
Ссылка на курс в Anytask: ???
  
[https://docs.google.com/spreadsheets/d/1u832G7b9aRyayoncaKXr7XPD6WisDr85AYRBKSVCMq0/edit?usp=sharing Таблица с оценками]
+
[https://docs.google.com/spreadsheets/d/1QIUMUkjzHfRqNIkYHVb4jsi3Pkq7URAQWSW8c9UwE-g/edit?usp=sharing Таблица с оценками]
  
 
Оставить отзыв на курс: [https://goo.gl/forms/5CddG0gc75VZvqi52 форма]
 
Оставить отзыв на курс: [https://goo.gl/forms/5CddG0gc75VZvqi52 форма]
Строка 43: Строка 43:
 
! Группа !! Преподаватель !! Учебный ассистент !! Страница !! Расписание
 
! Группа !! Преподаватель !! Учебный ассистент !! Страница !! Расписание
 
|-
 
|-
| 161 (МОП) || [https://www.hse.ru/org/persons/165212870 Зиннурова Эльвира Альбертовна] || [https://t.me/mryab Рябинин Максим] || || пятница, 10:30 - 11:50, ауд. 503
+
| 171 (МОП) || [https://www.hse.ru/org/persons/165212870 Зиннурова Эльвира Альбертовна] || || || пятница, 10:30 - 11:50
 
|-
 
|-
| 162 (МОП) || [https://www.hse.ru/org/persons/191263008 Неклюдов Кирилл Олегович] || [http://t.me/bazpasha Хрушков Павел] || ||  
+
| 172 (МОП) || [https://www.hse.ru/org/persons/209813459 Каюмов Эмиль Марселевич] || || || пятница, 10:30 - 11:50
 
|-
 
|-
| 163 (АДИС) || [https://t.me/despairazure Кохтев Вадим Михайлович] || [http://t.me/marka_17 Маркович Александр] || || пятница, 10:30 - 11:50, ауд. 400
+
| 173 (ТИ) || [https://www.hse.ru/org/persons/? Хрушков Павел Вадимович] ||  || || пятница, 10:30 - 11:50
 
|-
 
|-
| 164 (АДИС) || [https://www.hse.ru/org/persons/137283751 Атанов Андрей Игоревич] || [http://t.me/liza_s Свитанько Лиза] || ||  
+
| 174 (АДИС) || [https://www.hse.ru/org/persons/? Кохтев Вадим Михайлович] || || || пятница, 10:30 - 11:50
 
|-
 
|-
| 165 (РС) || [https://www.hse.ru/org/persons/209813459 Каюмов Эмиль Марселевич] || [http://t.me/akiiino Попов Никита] ||  || вторник, 9:00 – 10:20, ауд. 311
+
| 175 (РС) || [https://www.hse.ru/org/persons/228364473 Волохова Александра Константиновна] || ||  || пятница, 10:30 - 11:50
 
|-
 
|-
| 166 (РС) || [https://www.hse.ru/org/persons/192085968 Яшков Даниил Дмитриевич] || [http://t.me/Saigetsu Хайдуров Руслан] || ||  
+
| 176 (РС) || [https://www.hse.ru/org/persons/192085968 Яшков Даниил Дмитриевич] || || || пятница, 10:30 - 11:50
 
|-
 
|-
| Магистратура ФТиАД || [https://www.hse.ru/org/persons/191576735 Чиркова Надежда Александровна] || [https://t.me/nbagiyan Багиян Нерсес] ||  ||  
+
| Магистратура ФТиАД || [https://www.hse.ru/org/persons/? Рысьмятова Анастасия Александровна] || ||  ||  
 
|-
 
|-
 
|}
 
|}
Строка 66: Строка 66:
 
* Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций
 
* Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций
 
* Практические домашние работы на Python
 
* Практические домашние работы на Python
* Контрольная работа
+
* Письменная контрольная работа
 
* Письменный экзамен
 
* Письменный экзамен
  
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
  
O<sub>итоговая</sub> = 0.7 * O<sub>накопленная</sub> + 0.3 * О<sub>экз</sub>
+
Итог = Округление(0.15 * ПР + 0.4 * ДЗ + 0.15 * КР + 0.3 * Э)
  
Оценка за работу в семестре вычисляется по формуле
+
ПР — средняя оценка за самостоятельные работы на семинарах
  
O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>практические дз</sub> + 0.2 * О<sub>контрольная</sub>
+
ДЗ — средняя оценка за практические домашние работы на Python
  
Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям и соревнованиям.
+
КР — оценка за контрольную работу
  
Накопленная, экзаменационная и итоговая оценки округляются арифметически.
+
Э — оценка за экзамен
 +
 
 +
Округление арифметическое.
  
 
=== Правила сдачи заданий ===
 
=== Правила сдачи заданий ===
  
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются.
+
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.
  
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
  
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
+
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
  
 
== Лекции ==
 
== Лекции ==
  
'''Лекция 1''' (3 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture01-intro.pdf Конспект]]
+
'''Лекция 1''' (5 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения.
 
+
'''Лекция 2''' (14 сентября). Линейная регрессия. Метрики качества регрессии. Градиентный спуск и способы оценивания градиента. Продвинутые градиентные методы. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture02-linregr.pdf Конспект]]
+
 
+
'''Лекция 3''' (21 сентября). Переобучение и регуляризация. Разреженные линейные модели. Квантильная регрессия. Подготовка признаков. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture03-linregr.pdf Конспект]]
+
 
+
'''Лекция 4''' (28 сентября). Линейная классификация. Отступ и верхние оценки на пороговую функцию потерь. Метрики качества классификации. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture04-linclass.pdf Конспект]]
+
 
+
'''Лекция 5''' (1 октября). Линейная классификация. Логистическая регрессия и оценки вероятности классов. Метод опорных векторов. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture05-linclass.pdf Конспект]]
+
 
+
'''Лекция 6''' (12 октября). Многоклассовая классификация, сведение к бинарным задачам. Многоклассовая логистическая регрессия. Классификация с пересекающимися классами. Метрики качества многоклассовой классификации. Категориальные признаки: хэширование и счётчики. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture06-linclass.pdf Конспект]]
+
 
+
'''Лекция 7''' (19 октября). Решающие деревья. Жадный алгоритм построения. Выбор лучшего разбиения с помощью критерия информативности. Критерии информативности для регрессии и классификации. Учёт пропусков в деревьях. Решающие деревья и категориальные признаки. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture07-trees.pdf Конспект]]
+
 
+
'''Лекция 8''' (2 ноября). Бутстрап и бэггинг. Разложение ошибки на смещение и разброс (bias-variance decomposition). Случайный лес. Вычисление расстояний с помощью лесов. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture08-ensembles.pdf Конспект]]
+
 
+
'''Лекция 9''' (16 ноября). Градиентный бустинг. Регуляризация. Особенности бустинга над деревьями. Взвешивание объектов в градиентном бустинге. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture09-ensembles.pdf Конспект]]
+
 
+
'''Лекция 10''' (23 ноября). Оптимизация второго порядка в градиентном бустинге. Регуляризация деревьев. XGBoost. Стекинг. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture10-ensembles.pdf Конспект]]
+
 
+
'''Лекция 11''' (30 ноября). Обучение без учителя. Кластеризация: метрики качества, K-Means, иерархический и графовый подходы. Визуализация, t-SNE. Обучение представлений. word2vec. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture11-unsupervised.pdf Конспект]]
+
 
+
'''Лекция 12''' (14 декабря). Метод главных компонент, его связь с матричными разложениями. Рекомендательные системы: постановка задачи, коллаборативные методы, матричные разложения, контентные методы. [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/lecture-notes/lecture12-factorizations.pdf Конспект]]
+
  
 
== Семинары ==
 
== Семинары ==
 
'''Семинар 1.''' [https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/seminars/sem01-intro.ipynb Ноутбук].
 
 
'''Семинар 2.''' [https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/seminars/sem02-sklearn.ipynb Ноутбук].
 
 
'''Семинар 3.''' [https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/seminars/sem03-linregr.pdf Конспект], [https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/seminars/sem03-linregr.ipynb ноутбук].
 
 
'''Семинар 4.''' [https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/seminars/sem04-linregr.pdf Конспект].
 
 
'''Семинар 5.''' [https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/seminars/sem05-linclass-metrics.pdf Конспект].
 
 
'''Семинар 6.''' [https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/seminars/sem06.pdf Конспект], [https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/seminars/sem06.ipynb ноутбук].
 
 
'''Семинар 7.''' [https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/seminars/sem07-trees.ipynb Ноутбук].
 
 
'''Семинар 8.''' [https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/seminars/sem08-bvd.pdf Конспект].
 
  
 
== Практические задания ==
 
== Практические задания ==
  
 
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна.  
 
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна.  
 
'''Задание 1.''' Работа с Pandas и Matplotlib.
 
 
Мягкий дедлайн: 07:59 15.09.2018.
 
 
Жесткий дедлайн: 23:59 16.09.2018.
 
 
[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-practice/homework-practice-01.ipynb Github].
 
 
'''Задание 2.''' Numpy. Линейная регрессия.
 
 
Дата выдачи: 17.09.2018
 
 
Мягкий дедлайн:  2:59MSK 24.09.2018
 
 
Жесткий дедлайн: 23:59MSK 26.09.2018.
 
 
[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-practice/homework-practice-02.ipynb Условие],
 
[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-practice/homework-practice-02-templates.zip архив с шаблонами],
 
[https://contest.yandex.ru/contest/9148/enter/ соревнование в Яндекс.Контесте],
 
[https://official.contest.yandex.ru/contest/9148/enter/ альтернативная ссылка на соревнование в Яндекс.Контесте].
 
 
'''Задание 3.''' Регуляризация. Градиентный спуск.
 
 
Дата выдачи: 22.09.2018
 
 
Мягкий дедлайн:  7:59MSK 02.10.2018
 
 
Жесткий дедлайн: 23:59MSK 03.10.2018.
 
 
[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-practice/homework-practice-03.ipynb Условие],
 
[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-practice/data/homework-practice-03-data.csv данные],
 
[https://contest.yandex.ru/contest/9247 соревнование в Яндекс.Контесте],
 
[https://official.contest.yandex.ru/contest/9247 альтернативная ссылка на соревнование в Яндекс.Контесте].
 
 
'''Задание 4.''' Калибровка вероятностей, обработка категориальных признаков.
 
 
Дата выдачи: 12.10.2018
 
 
Мягкий дедлайн:  7:59MSK 20.10.2018
 
 
Жесткий дедлайн: 23:59MSK 21.10.2018.
 
 
[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-practice/homework-practice-04.ipynb Условие]
 
 
'''Задание 5.''' Решающие деревья.
 
 
Дата выдачи: 08.11.2018
 
 
Мягкий дедлайн:  7:59MSK 18.11.2018
 
 
Жесткий дедлайн: 23:59MSK 19.11.2018.
 
 
[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-practice/homework-practice-05/homework-practice-05.ipynb Условие]
 
 
'''Задание 6.''' Разложение ошибки на смещение и разброс.
 
 
Дата выдачи: 20.11.2018
 
 
Мягкий дедлайн: 6:00MSK 27.11.2018
 
 
Жесткий дедлайн: 23:59MSK 29.11.2018
 
 
[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-practice/homework-practice-06.ipynb Условие]
 
 
'''Задание 7.''' Градиентный бустинг.
 
 
Дата выдачи: 07.12.2018
 
 
Мягкий дедлайн: 05:59MSK 18.12.2018
 
 
Жесткий дедлайн: 05:59MSK 19.12.2018
 
 
[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-practice/homework-practice-07.ipynb Условие]
 
 
== Соревнования ==
 
 
===Правила участия и оценивания===
 
В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.
 
 
В лидербордах каждого из соревнований присутствуют несколько базовых решений (бейзлайнов), каждое из которых соответствует определённой оценке. Например, для получения оценки не ниже 8 баллов необходимо, чтобы ваше решение на '''приватном''' лидерборде оказалось лучше соответствующего бейзлайна. Далее для студента, преодолевшего бейзлайн на N_1 баллов, но не преодолевшего бейзлайн на N_2 балла, итоговая оценка за соревнование рассчитывается по равномерной сетке среди всех таких студентов в зависимости от места в приватном лидерборде среди них; если быть точными, то по следующей формуле:
 
 
N_2 - (N_2 - N_1) * i  / M,
 
 
где M — количество студентов (из всех студентов, изучающих курс), преодолевших бейзлайн на N_1 баллов, но не преодолевших бейзлайн на N_2 балла;
 
 
i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.
 
 
Единственное исключение из формулы — студенты, преодолевшие самый сильный бейзлайн, получают прибавку 1/M к своей оценке.
 
 
Чтобы вас не пропустили при проверке решений соревнования, '''необходимо''' использовать следующий формат для имени команды (вкладка Team):
 
 
«Имя Фамилия номер_группы»
 
 
В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. При оформлении кода предполагайте, что данные лежат рядом с ним в папке data, а в результате выполнения кода ответы должны быть записаны в файл solution-N-Username.csv, где N — номер соревнования, Username — ваша фамилия. У нас должна быть возможность запустить код и получить те же ответы, что и в вашей посылке, — в частности, это означает, что:
 
 
1. Если вы отправляете файл *.py, мы будем запускать его при помощи команды python *.py в вышеуказанном предположении о местонахождении данных.
 
 
2. Если вы отправляете ноутбук *.ipynb, мы последовательно запустим все ячейки ноутбука и будем ожидать в результате его работы формирование файла с ответами.
 
 
3. Если вы отправляете код с использованием другого языка программирования, в том же письме направьте нам инструкцию по его запуску с тем, чтобы получить тот же файл с ответами.
 
 
В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Студенты, попавшие в топ-5 согласно приватному лидерборду, смогут получить бонусные баллы, если в течение недели после окончания соревнования пришлют на почту курса отчет о получении решения, фигурирующего в приватном лидерборде. Если не оговорено иное, использовать любые внешние данные в соревнованиях '''запрещено'''.
 
 
=== Соревнование 1: House pricing ===
 
 
Дата выдачи: 15.09.2018
 
 
Срок окончания соревнования: 30.09.2018 23:59MSK
 
 
Срок отправки кода: 03.10.2018 23:59MSK
 
 
Бейзлайны: на 4 и на 8 баллов
 
 
[https://www.kaggle.com/t/5a486fc7863548a58cfc1f702690b5c3 Ссылка на участие в соревновании]
 
 
=== Соревнование 2: Sentiment analysis ===
 
 
Дата выдачи: 15.10.2018
 
 
Срок окончания соревнования: 04.11.2018 23:59UTC
 
 
Бейзлайны: TBA
 
 
[https://www.kaggle.com/t/1e4f5623f3fc4f898cec6b1e21acf6b5 Ссылка на участие в соревновании]
 
 
В данном соревновании оцениваются только решения, полученные как результат работы [https://www.kaggle.com/kernels private kernel], к которому дан доступ для просмотра ассистенту вашей группы.
 
 
=== Соревнование 3: The new order ===
 
 
Дата выдачи: 28.11.2018
 
 
Срок окончания соревнования: 15.12.2018 23:59UTC
 
 
Бейзлайны: TBA
 
 
[https://www.kaggle.com/t/9c050ce0ed5742088d5660c69360ccbf Ссылка на участие в соревновании]
 
 
В данном соревновании оцениваются только решения, полученные как результат работы [https://www.kaggle.com/kernels private kernel], к которому дан доступ для просмотра ассистенту вашей группы.
 
  
 
==Теоретические домашние задания==
 
==Теоретические домашние задания==
  
'''Теоретическое домашнее задание 1''': линейная регрессия [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-theory/homework-theory-01-linregr.pdf ссылка]]
+
Теоретические ДЗ не проверяются, но задачи из них могут войти в проверочные работы на семинарах.
 
+
'''Теоретическое домашнее задание 2''': линейная классификация [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-theory/homework-theory-02-linclass.pdf ссылка]]
+
 
+
'''Теоретическое домашнее задание 3''': решающие деревья [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-theory/homework-theory-03-trees.pdf ссылка]]
+
 
+
'''Теоретическое домашнее задание 4''': разложение ошибки на смещение и разброс [[https://github.com/esokolov/ml-course-hse/blob/master/2018-fall/homeworks-theory/homework-theory-04-bvd.pdf ссылка]]
+
  
 
== Бонусы за соревнования ==
 
== Бонусы за соревнования ==
Строка 291: Строка 110:
  
 
== Контрольная работа ==
 
== Контрольная работа ==
Контрольная работа состоится на лекции 7 декабря. В варианте будут два теоретических вопроса и две задачи (возможно, будут также дополнительные задачи на бонусные баллы, для получения максимальной оценки за контрольную их решать не потребуется). Теоретические вопросы будут затрагивать материалы всех лекций и семинаров по темам до градиентного бустинга включительно. Основные задачи будут затрагивать все темы, которые затрагивались в теоретических домашних заданиях (линейные модели, деревья, разложение ошибки на смещение и разброс).
 
  
 
== Экзамен ==
 
== Экзамен ==
 
[[https://docs.google.com/document/d/1Mi5PCadbSRX_kQZe7FGutw-zvtCJMMF9PgMzsONTLhU/edit?usp=sharing Вопросы для подготовки]]
 
 
Экзамен состоится 21 декабря. В варианте будут два теоретических вопроса и две задачи, у всех будут равные веса.
 
  
 
== Полезные материалы ==
 
== Полезные материалы ==
Строка 315: Строка 129:
  
 
== Страницы предыдущих лет ==
 
== Страницы предыдущих лет ==
 +
 +
[[Машинное_обучение_1/2018_2019 | 2018/2019 учебный год]]
  
 
[[Машинное_обучение_1/2017_2018 | 2017/2018 учебный год]]
 
[[Машинное_обучение_1/2017_2018 | 2017/2018 учебный год]]
  
 
[[Машинное_обучение_1/2016_2017 | 2016/2017 учебный год]]
 
[[Машинное_обучение_1/2016_2017 | 2016/2017 учебный год]]

Версия 20:02, 5 сентября 2019

О курсе

borderless

Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 1-2 модулях.

Проводится с 2016 года.

Лектор: Соколов Евгений Андреевич

Лекции проходят по пятницам, 12:10 - 13:30, ауд. R404.




Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub

Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.cs.ml+<номер группы>@gmail.com (например, hse.cs.ml+171@gmail.com)

Канал в telegram для объявлений: https://t.me/joinchat/AAAAAEtiwm9A8i-78LNcKQ

Чат в telegram для обсуждений (предназначение чата до конца не ясно, вопросы может быть правильнее задавать в чатах групп): https://t.me/joinchat/A5rlQBUrWTeXl7eBbnyBcQ

Ссылка на курс в Anytask: ???

Таблица с оценками

Оставить отзыв на курс: форма

Вопросы по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде Issue в github-репозитории курса.

Семинары

Группа Преподаватель Учебный ассистент Страница Расписание
171 (МОП) Зиннурова Эльвира Альбертовна пятница, 10:30 - 11:50
172 (МОП) Каюмов Эмиль Марселевич пятница, 10:30 - 11:50
173 (ТИ) Хрушков Павел Вадимович пятница, 10:30 - 11:50
174 (АДИС) Кохтев Вадим Михайлович пятница, 10:30 - 11:50
175 (РС) Волохова Александра Константиновна пятница, 10:30 - 11:50
176 (РС) Яшков Даниил Дмитриевич пятница, 10:30 - 11:50
Магистратура ФТиАД Рысьмятова Анастасия Александровна

Консультации

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций
  • Практические домашние работы на Python
  • Письменная контрольная работа
  • Письменный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Итог = Округление(0.15 * ПР + 0.4 * ДЗ + 0.15 * КР + 0.3 * Э)

ПР — средняя оценка за самостоятельные работы на семинарах

ДЗ — средняя оценка за практические домашние работы на Python

КР — оценка за контрольную работу

Э — оценка за экзамен

Округление арифметическое.

Правила сдачи заданий

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Лекции

Лекция 1 (5 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения.

Семинары

Практические задания

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна.

Теоретические домашние задания

Теоретические ДЗ не проверяются, но задачи из них могут войти в проверочные работы на семинарах.

Бонусы за соревнования

За успешное участие в соревнованиях по анализу данных могут быть выставлены бонусные баллы, которые можно прибавить к оценке за любое практическое или теоретическое домашнее задание, а также за самостоятельную работу. Под успешным участием понимается попадание в топ-10% мест; если соревнование особо сложное и крупное, может рассматриваться и попадание в топ-20% мест. Конкретное число баллов определяется преподавателями и зависит от сложности соревнования и занятого места. За одно соревнование можно получить не более 5 баллов. Для получения оценки необходимо предоставить краткий отчёт о решении задачи.

Контрольная работа

Экзамен

Полезные материалы

Книги

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  • Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

Курсы по машинному обучению и анализу данных

Страницы предыдущих лет

2018/2019 учебный год

2017/2018 учебный год

2016/2017 учебный год