Машинное обучение на больших данных 2021

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс читается для студентов 4-го курса ПМИ ФКН ВШЭ в 3 модуле. Проводится с 2017 года.

Лектор: Зимовнов Андрей Вадимович

Лекции ПМИ проходят по понедельникам в 11:10 по ссылке.

Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.

Полезные ссылки

Таблица с оценками: https://docs.google.com/spreadsheets/d/1cdzBaW_k4uzyMDtBijeyjji0o21VhJ3g-mO185vmKso/edit#gid=0

Репозиторий с лекциями на GitHub

Репозиторий с семинарами на GitHub

YouTube канал с записями всех занятий

Самостоятельные задачи cдаются в Dropbox. Дедлайны жесткие. Для каждого семинара своя отдельная ссылка на прием заданий:

Задание Ссылка для сдачи Ссылка на домашнее задание Дата выдачи Дедлайн
Мини домашнее задание 1. Azure & Bash https://www.dropbox.com/request/wLLX3aHRKwahk0ukMYxe https://bit.ly/2NbF2QX 20 января 3 февраля 23:59
Мини домашнее задание 2. Hadoop & Spark https://www.dropbox.com/request/jctWv4RclpbNUr7G4WCX https://bit.ly/3aSQbyd 10 февраля 7 марта 23:59
Мини домашнее задание 3. Classic models https://www.dropbox.com/request/AS0pVq4PVvn8IEk8aHQI https://bit.ly/2ZKYvev 24 февраля 14 марта 23:59
Мини домашнее задание 4. Neural netowrks https://www.dropbox.com/request/lgnAY7cd2gNVTCMFqZY0 14 марта 28 марта 23:59
Мини домашнее задание 5 (бонусное). KNN & Streaming https://www.dropbox.com/request/8xvTfpzu14UVkN6oTf49 17 марта 28 марта 23:59
Основное домашнее задание https://www.dropbox.com/request/ntCyZLdoaRzUA4GohBEH https://bit.ly/3bAmmmx 24 февраля 24 марта 23:59

Канал в telegram для объявлений: https://t.me/joinchat/RNZgXfAHNbG_biu3

Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.

Семинары

Группа Преподаватель Время Аудитория
МОП 171 Космачев Алексей Дмитриевич Среда 14:40 - 16:00 Zoom конференция
МОП 172 Орлов Никита Андреевич Вторник 11:10 - 12:30 Zoom конференция


Консультации

Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.

При необходимости, можно писать на почту или в Telegram:

Алексей – @adkosm

Никита – @naorlov

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Мини домашние задания (4 обязательных и 1 бонусное)
  • Основное домашнее задание

Итоговая оценка вычисляется:

Oитоговая = 0.125*(OМДЗ1 + OМДЗ2 + OМДЗ3 + OМДЗ4) + 0.5*OДЗ

Округление арифметическое.

Правила сдачи заданий

На все домашние задания каждому студенту отводится ~500$ для работы в облаке Azure. Важно останавливать\удалять ресурсы, создаваемые в облаке, так как в противном случае финансов может не хватить для выполнения всех заданий. Полезно при этом овладеть навыком сохранения промежуточных данных в облачном хранилище - это позволит максимально быстро выполнять задания с минимальными финансовыми затратами.

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

Полезные материалы

Книги

  1. Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
  2. Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
  3. Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
  4. Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.

Странички прошлых лет

http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных

http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных_2020