Машинное обучение 1 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Семинары)
(Лекции)
(не показано 229 промежуточных версии 24 участников)
Строка 3: Строка 3:
 
[[Файл:ML_surfaces.png|280px|borderless|left]]
 
[[Файл:ML_surfaces.png|280px|borderless|left]]
  
Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ] в 1-2 модулях.
+
Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 1-2 модулях.
  
 
Проводится с 2016 года.
 
Проводится с 2016 года.
Строка 9: Строка 9:
 
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич]
 
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич]
  
Лекции проходят по вторникам, 10:30 - 11:50, ауд. 317.
+
Лекции проходят по пятницам, 12:10 - 13:30, ауд. R404 (Покровский бульвар, 11).
  
  
Строка 18: Строка 18:
 
=== Полезные ссылки ===
 
=== Полезные ссылки ===
  
[https://www.hse.ru/ba/ami/courses/184763700.html Карточка курса и программа]
+
[https://www.hse.ru/ba/ami/courses/292689583.html Карточка курса и программа]
  
 
[https://github.com/esokolov/ml-course-hse Репозиторий с материалами на GitHub]
 
[https://github.com/esokolov/ml-course-hse Репозиторий с материалами на GitHub]
  
Почта для сдачи домашних заданий: hse.cs.ml+<номер группы>@gmail.com (например, hse.cs.ml+141@gmail.com)
+
[https://www.youtube.com/watch?v=OBG6EUSRC9g&list=PLEqoHzpnmTfDwuwrFHWVHdr1-qJsfqCUX Видеозаписи лекций 18/19 года]
  
Канал в telegram для объявлений: https://telegram.me/hse_cs_ml_course
+
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.cs.ml+<номер группы>@gmail.com (например, hse.cs.ml+171@gmail.com)
  
[https://docs.google.com/spreadsheets/d/1BhzeronD6_DUcH1l0W2ohN4wU97DobLj0tp9-nELNSY/edit?usp=sharing Таблица с оценками]
+
Канал в telegram для объявлений: https://t.me/joinchat/AAAAAEtiwm9A8i-78LNcKQ
 +
 
 +
Чат в telegram для обсуждений (предназначение чата до конца не ясно, вопросы может быть правильнее задавать в чатах групп): https://t.me/joinchat/A5rlQBUrWTeXl7eBbnyBcQ
 +
 
 +
Ссылка на курс в Anytask: https://anytask.org/course/537
 +
 
 +
[https://docs.google.com/spreadsheets/d/1QIUMUkjzHfRqNIkYHVb4jsi3Pkq7URAQWSW8c9UwE-g/edit?usp=sharing Таблица с оценками]
  
 
Оставить отзыв на курс: [https://goo.gl/forms/5CddG0gc75VZvqi52 форма]
 
Оставить отзыв на курс: [https://goo.gl/forms/5CddG0gc75VZvqi52 форма]
 +
 +
'''Вопросы''' по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу.
 +
Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде [https://github.com/esokolov/ml-course-hse/issues Issue] в [https://github.com/esokolov/ml-course-hse github-репозитории курса].
  
 
=== Семинары ===
 
=== Семинары ===
Строка 34: Строка 43:
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! Группа !! Преподаватель !! Учебный ассистент !! Страница !! Расписание
+
! Группа !! Преподаватель !! Учебный ассистент  
 
|-
 
|-
| 141 (МОП) || [https://www.hse.ru/org/persons/165212870 Зиннурова Эльвира Альбертовна] || Козловская Наталия || || вторник, 12:10 - 13:30, ауд. 513
+
| 171 (МОП) || [https://www.hse.ru/org/persons/165212870 Зиннурова Эльвира Альбертовна] || [https://t.me/granilace Виктор Куканов]
 
|-
 
|-
| 142 (МОП) || [https://www.hse.ru/org/persons/191263008 Неклюдов Кирилл Олегович] || Егоров Евгений || || вторник, 12:10 - 13:30, ауд. 503
+
| 172 (МОП) || [https://www.hse.ru/org/persons/209813459 Каюмов Эмиль Марселевич] || [https://t.me/svdcvt Соня Дымченко]
 
|-
 
|-
| 143 (АПР) || [http://??.?? Яшков Даниил Дмитриевич] || Потапенко Анна || || вторник, 12:10 - 13:30, ауд. 505
+
| 173 (ТИ) || [https://www.hse.ru/org/persons/? Хрушков Павел Вадимович] || [https://t.me/resokolov Роман Соколов]
 
|-
 
|-
| 144 (АДИС) || [http://??.?? Чиркова Надежда Александровна] || Сафин Александр || [https://github.com/nadiinchi/HSE_FCS_seminars семинары]|| вторник, 13:40 - 15:00, ауд. 503
+
| 174 (АДИС) || [https://www.hse.ru/org/persons/? Кохтев Вадим Михайлович] || [https://t.me/widepeepoBlanket Евгений Алаев]
 
|-
 
|-
| 145 (РС) || [https://www.hse.ru/org/persons/141880775 Умнов Алексей Витальевич] || Грачев Артем || [http://wiki.cs.hse.ru/Машинное_обучение_1/Группа_145_РС семинары] || пятница, 12:10 - 13:30, ауд. 501
+
| 175 (РС) || [https://www.hse.ru/org/persons/228364473 Волохова Александра Константиновна] || [https://t.me/President153 Ярослав Пудяков]
 
|-
 
|-
|}
+
| 176 (РС) || [https://www.hse.ru/org/persons/192085968 Яшков Даниил Дмитриевич] || [https://t.me/arcstranger  Николай Пальчиков]
 
+
=== Консультации ===
+
 
+
 
+
{| class="wikitable"
+
 
|-
 
|-
! Группа !! Преподаватель !! Расписание
+
| Магистратура ФТиАД || [https://www.hse.ru/org/persons/? Рысьмятова Анастасия Александровна] || [https://t.me/oleg_top Олег Дешеулин]
|-
+
| 141 (МОП) || [https://www.hse.ru/org/persons/165212870 Зиннурова Эльвира Альбертовна] || вторник, 13:30-14:00, ауд. 623
+
|-
+
| 141 (МОП) || Козловская Наталия || пятница, 15:00-16:00, ауд. 503
+
 
|-
 
|-
 
|}
 
|}
 +
 +
=== Консультации ===
  
 
=== Правила выставления оценок ===
 
=== Правила выставления оценок ===
  
 
В курсе предусмотрено несколько форм контроля знания:
 
В курсе предусмотрено несколько форм контроля знания:
* Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и выполнение теоретических домашних заданий
+
* Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций
 
* Практические домашние работы на Python
 
* Практические домашние работы на Python
* Соревнования по анализу данных
+
* Письменная контрольная работа
* Устный коллоквиум в конце 1-го модуля
+
* Письменный экзамен
* Устный экзамен
+
  
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
  
O<sub>итоговая</sub> = 0.7 * O<sub>накопленная</sub> + 0.3 * О<sub>экз</sub>
+
Итог = Округление(0.15 * ПР + 0.4 * ДЗ + 0.15 * КР + 0.3 * Э)
  
Оценка за работу в семестре вычисляется по формуле
+
ПР — средняя оценка за самостоятельные работы на семинарах
  
O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>дз</sub> + 0.2 * О<sub>коллоквиум</sub>
+
ДЗ — средняя оценка за практические домашние работы на Python
  
Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям и соревнованиям.
+
КР — оценка за контрольную работу
  
Также за каждое практическое задание и соревнование можно получить дополнительные баллы, которые влияют на выставление оценки за курс автоматом. Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.
+
Э — оценка за экзамен
 +
 
 +
Округление арифметическое.
  
 
=== Правила сдачи заданий ===
 
=== Правила сдачи заданий ===
  
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работа не принимаются.
+
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.
  
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
  
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
+
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
  
 
== Лекции ==
 
== Лекции ==
  
'''Лекция 1''' (6 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. [[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture01-intro.pdf Конспект]]
+
Ко всем конспектам на GitHub есть исходники. Исправления и дополнения всячески приветствуются!
  
'''Лекция 2''' (13 сентября). Линейная регрессия. Метрики качества регрессии. Градиентный спуск и способы оценивания градиента. Переобучение и регуляризация. [[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture02-linregr.pdf Конспект]]
+
'''Лекция 1''' (6 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/lecture-notes/lecture01-intro.pdf Конспект]]
  
'''Лекция 3''' (20 сентября). Переобучение и регуляризация. Разреженные линейные модели. Квантильная регрессия. Подготовка признаков. [[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture03-linregr.pdf Конспект]]
+
'''Лекция 2''' (13 сентября). Линейная регрессия. Метрики качества регрессии. Градиентный спуск и способы оценивания градиента. Продвинутые градиентные методы. [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/lecture-notes/lecture02-linregr.pdf Конспект]]
 +
 
 +
'''Лекция 3''' (20 сентября). Переобучение и регуляризация. Разреженные линейные модели. Квантильная регрессия. Подготовка признаков. [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/lecture-notes/lecture03-linregr.pdf Конспект]]
 +
 
 +
'''Лекция 4''' (27 сентября). Линейная классификация. Отступ и верхние оценки на пороговую функцию потерь. Метрики качества классификации. [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/lecture-notes/lecture04-linclass.pdf Конспект]]
 +
 
 +
'''Лекция 5''' (4 октября). Линейная классификация. Логистическая регрессия и оценки вероятности классов. Метод опорных векторов. [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/lecture-notes/lecture05-linclass.pdf Конспект]]
 +
 
 +
'''Лекция 6''' (11 октября). Многоклассовая классификация, сведение к бинарным задачам. Многоклассовая логистическая регрессия. Классификация с пересекающимися классами. Метрики качества многоклассовой классификации.
 +
 
 +
'''Лекция 7''' (18 октября). Решающие деревья. Жадный алгоритм построения. Выбор лучшего разбиения с помощью критерия информативности. Критерии информативности для регрессии и классификации. Учёт пропусков в деревьях. Решающие деревья и категориальные признаки. [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/lecture-notes/lecture07-trees.pdf Конспект]]
  
 
== Семинары ==
 
== Семинары ==
  
'''Семинар 1'''. Библиотеки для анализа данных: numpy, pandas, matplotlib. [[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/seminars/sem01-tools.ipynb Notebook]]
+
'''Семинар 1.''' Области применения машинного обучения. Инструменты data scientist'а. Pandas и разведочный анализ данных. [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/seminars/sem01-intro.ipynb Ноутбук]]
 +
 
 +
'''Семинар 2.''' Линейная регрессия. Библиотека scikit-learn. Валидация моделей. Работа с категориальными признаками. [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/seminars/sem02-sklearn-linreg.ipynb Ноутбук]]
  
'''Семинар 2'''. Векторное дифференцирование. Линейная регрессия, аналитическое и численное решение. Scikit-learn. [[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/seminars/sem02-linregr.ipynb Notebook]] [[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/homeworks-theory/homework-theory-01-linregr.pdf Домашнее задание]]
+
'''Семинар 3.''' Градиент и его свойства. Векторное дифференцирование. Градиентый спуск, его модификации, практические аспекты. [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/seminars/sem03-linregr-part1.pdf Конспект]] [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/seminars/sem03-linregr-part2.ipynb Ноутбук]]
  
'''Семинар 3'''. Подготовка признаков (масштабирование, категориальные признаки, нелинейные признаки, заполнение пропусков). Выбросы и устойчивые к ним модели. Квантильная регрессия. Vowpal Wabbit. [[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/seminars/sem03-linregr.ipynb Notebook]] [[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/homeworks-theory/homework-theory-02-linregr.pdf Домашнее задание]]
+
'''Семинар 4.''' Предобработка данных. [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/seminars/sem04-features.pdf Конспект]] [[https://nbviewer.jupyter.org/github/esokolov/ml-course-hse/blob/master/2019-fall/seminars/sem04-features.ipynb Ноутбук]]
  
 
== Практические задания ==
 
== Практические задания ==
  
'''Задание 1.''' Numpy, pandas, scikit-learn и градиентный спуск.
+
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна.
  
Дата выдачи: 16.09.2016
+
'''Задание 1.''' Работа с Pandas и Matplotlib.
 +
 +
Мягкий дедлайн: 15.09.2019 23:59.
  
Дедлайн: 30.09.2016 23:59MSK
+
Жесткий дедлайн: 17.09.2019 23:59.
  
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/homeworks-practice/homework-practice-01-linregr.ipynb Условие]
+
[[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/homeworks-practice/homework-practice-01.ipynb Ноутбук с заданием]]
  
== Соревнования ==
+
'''Задание 2.''' Exploratory Data Analysis и линейная регрессия.
 +
 +
Мягкий дедлайн: 01.10.2019 23:59.
 +
 
 +
Жесткий дедлайн: 04.10.2019 23:59 (за каждый день просрочки снимается 2 балла).
 +
 
 +
[[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/homeworks-practice/homework-practice-02.ipynb Ноутбук с заданием]]
 +
 
 +
'''Задание 3.''' Градиентный спуск своими руками.
 +
 +
Мягкий дедлайн: 15.10.2019 07:59.
 +
 
 +
Жесткий дедлайн: 17.10.2019 23:59.
 +
 
 +
[[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/homeworks-practice/homework-practice-03.ipynb Ноутбук с заданием]]
 +
 
 +
==Теоретические домашние задания==
 +
 
 +
Теоретические ДЗ не проверяются, но задачи из них могут войти в проверочные работы на семинарах.
 +
 
 +
'''Теоретическое домашнее задание 1''': линейная регрессия и векторное дифференцирование [[https://github.com/esokolov/ml-course-hse/blob/master/2019-fall/homeworks-theory/homework-theory-01-linregr.pdf ссылка]]
 +
 
 +
== Бонусы за соревнования ==
 +
 
 +
За успешное участие в соревнованиях по анализу данных могут быть выставлены бонусные баллы, которые можно прибавить к оценке за любое практическое или теоретическое домашнее задание, а также за самостоятельную работу. Под успешным участием понимается попадание в топ-10% мест; если соревнование особо сложное и крупное, может рассматриваться и попадание в топ-20% мест. Конкретное число баллов определяется преподавателями и зависит от сложности соревнования и занятого места. За одно соревнование можно получить не более 5 баллов. Для получения оценки необходимо предоставить краткий отчёт о решении задачи.
 +
 
 +
== Контрольная работа ==
 +
 
 +
== Экзамен ==
  
 
== Полезные материалы ==
 
== Полезные материалы ==
Строка 125: Строка 170:
 
* Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
 
* Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
 
* Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
 
* Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
 +
* Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.
  
 
===Курсы по машинному обучению и анализу данных===
 
===Курсы по машинному обучению и анализу данных===
Строка 131: Строка 177:
 
* [https://www.coursera.org/specializations/machine-learning-data-analysis Coursera: Машинное обучение и анализ данных (специализация)]
 
* [https://www.coursera.org/specializations/machine-learning-data-analysis Coursera: Машинное обучение и анализ данных (специализация)]
 
* [https://www.coursera.org/learn/introduction-machine-learning Coursera: Введение в машинное обучение, К.В. Воронцов]
 
* [https://www.coursera.org/learn/introduction-machine-learning Coursera: Введение в машинное обучение, К.В. Воронцов]
 +
 +
== Страницы предыдущих лет ==
 +
 +
[[Машинное_обучение_1/2018_2019 | 2018/2019 учебный год]]
 +
 +
[[Машинное_обучение_1/2017_2018 | 2017/2018 учебный год]]
 +
 +
[[Машинное_обучение_1/2016_2017 | 2016/2017 учебный год]]

Версия 11:09, 18 октября 2019

О курсе

borderless

Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 1-2 модулях.

Проводится с 2016 года.

Лектор: Соколов Евгений Андреевич

Лекции проходят по пятницам, 12:10 - 13:30, ауд. R404 (Покровский бульвар, 11).




Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub

Видеозаписи лекций 18/19 года

Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.cs.ml+<номер группы>@gmail.com (например, hse.cs.ml+171@gmail.com)

Канал в telegram для объявлений: https://t.me/joinchat/AAAAAEtiwm9A8i-78LNcKQ

Чат в telegram для обсуждений (предназначение чата до конца не ясно, вопросы может быть правильнее задавать в чатах групп): https://t.me/joinchat/A5rlQBUrWTeXl7eBbnyBcQ

Ссылка на курс в Anytask: https://anytask.org/course/537

Таблица с оценками

Оставить отзыв на курс: форма

Вопросы по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде Issue в github-репозитории курса.

Семинары

Группа Преподаватель Учебный ассистент
171 (МОП) Зиннурова Эльвира Альбертовна Виктор Куканов
172 (МОП) Каюмов Эмиль Марселевич Соня Дымченко
173 (ТИ) Хрушков Павел Вадимович Роман Соколов
174 (АДИС) Кохтев Вадим Михайлович Евгений Алаев
175 (РС) Волохова Александра Константиновна Ярослав Пудяков
176 (РС) Яшков Даниил Дмитриевич Николай Пальчиков
Магистратура ФТиАД Рысьмятова Анастасия Александровна Олег Дешеулин

Консультации

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций
  • Практические домашние работы на Python
  • Письменная контрольная работа
  • Письменный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Итог = Округление(0.15 * ПР + 0.4 * ДЗ + 0.15 * КР + 0.3 * Э)

ПР — средняя оценка за самостоятельные работы на семинарах

ДЗ — средняя оценка за практические домашние работы на Python

КР — оценка за контрольную работу

Э — оценка за экзамен

Округление арифметическое.

Правила сдачи заданий

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Лекции

Ко всем конспектам на GitHub есть исходники. Исправления и дополнения всячески приветствуются!

Лекция 1 (6 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. [Конспект]

Лекция 2 (13 сентября). Линейная регрессия. Метрики качества регрессии. Градиентный спуск и способы оценивания градиента. Продвинутые градиентные методы. [Конспект]

Лекция 3 (20 сентября). Переобучение и регуляризация. Разреженные линейные модели. Квантильная регрессия. Подготовка признаков. [Конспект]

Лекция 4 (27 сентября). Линейная классификация. Отступ и верхние оценки на пороговую функцию потерь. Метрики качества классификации. [Конспект]

Лекция 5 (4 октября). Линейная классификация. Логистическая регрессия и оценки вероятности классов. Метод опорных векторов. [Конспект]

Лекция 6 (11 октября). Многоклассовая классификация, сведение к бинарным задачам. Многоклассовая логистическая регрессия. Классификация с пересекающимися классами. Метрики качества многоклассовой классификации.

Лекция 7 (18 октября). Решающие деревья. Жадный алгоритм построения. Выбор лучшего разбиения с помощью критерия информативности. Критерии информативности для регрессии и классификации. Учёт пропусков в деревьях. Решающие деревья и категориальные признаки. [Конспект]

Семинары

Семинар 1. Области применения машинного обучения. Инструменты data scientist'а. Pandas и разведочный анализ данных. [Ноутбук]

Семинар 2. Линейная регрессия. Библиотека scikit-learn. Валидация моделей. Работа с категориальными признаками. [Ноутбук]

Семинар 3. Градиент и его свойства. Векторное дифференцирование. Градиентый спуск, его модификации, практические аспекты. [Конспект] [Ноутбук]

Семинар 4. Предобработка данных. [Конспект] [Ноутбук]

Практические задания

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна.

Задание 1. Работа с Pandas и Matplotlib.

Мягкий дедлайн: 15.09.2019 23:59.

Жесткий дедлайн: 17.09.2019 23:59.

[Ноутбук с заданием]

Задание 2. Exploratory Data Analysis и линейная регрессия.

Мягкий дедлайн: 01.10.2019 23:59.

Жесткий дедлайн: 04.10.2019 23:59 (за каждый день просрочки снимается 2 балла).

[Ноутбук с заданием]

Задание 3. Градиентный спуск своими руками.

Мягкий дедлайн: 15.10.2019 07:59.

Жесткий дедлайн: 17.10.2019 23:59.

[Ноутбук с заданием]

Теоретические домашние задания

Теоретические ДЗ не проверяются, но задачи из них могут войти в проверочные работы на семинарах.

Теоретическое домашнее задание 1: линейная регрессия и векторное дифференцирование [ссылка]

Бонусы за соревнования

За успешное участие в соревнованиях по анализу данных могут быть выставлены бонусные баллы, которые можно прибавить к оценке за любое практическое или теоретическое домашнее задание, а также за самостоятельную работу. Под успешным участием понимается попадание в топ-10% мест; если соревнование особо сложное и крупное, может рассматриваться и попадание в топ-20% мест. Конкретное число баллов определяется преподавателями и зависит от сложности соревнования и занятого места. За одно соревнование можно получить не более 5 баллов. Для получения оценки необходимо предоставить краткий отчёт о решении задачи.

Контрольная работа

Экзамен

Полезные материалы

Книги

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  • Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

Курсы по машинному обучению и анализу данных

Страницы предыдущих лет

2018/2019 учебный год

2017/2018 учебный год

2016/2017 учебный год