Машинное обучение на больших данных 2021

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс читается для студентов 4-го курса ПМИ ФКН ВШЭ в 3 модуле. Проводится с 2017 года.

Лектор: Зимовнов Андрей Вадимович

Лекции ПМИ проходят по

Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.

Полезные ссылки

Таблица с оценками: https://docs.google.com/spreadsheets/d/1cdzBaW_k4uzyMDtBijeyjji0o21VhJ3g-mO185vmKso/edit#gid=0

Репозиторий с лекциями на GitHub

Репозиторий с семинарами на GitHub

Самостоятельные задачи cдаются в Dropbox. Для каждого семинара своя отдельная ссылка на прием заданий:

Задание Ссылка для сдачи Дата выдачи Дедлайн
Мини домашнее задание 1. Azure & Bash https://www.dropbox.com/request/wLLX3aHRKwahk0ukMYxe 20 января 3 февраля 23:59
Мини домашнее задание 2. Hadoop & Spark https://www.dropbox.com/request/jctWv4RclpbNUr7G4WCX 10 февраля 24 февраля 23:59
Мини домашнее задание 3. Classic models https://www.dropbox.com/request/AS0pVq4PVvn8IEk8aHQI 24 февраля 10 марта 23:59
Мини домашнее задание 4. Neural netowrks https://www.dropbox.com/request/lgnAY7cd2gNVTCMFqZY0 10 марта 24 марта 23:59
Мини домашнее задание 5 (бонусное). KNN & Streaming https://www.dropbox.com/request/8xvTfpzu14UVkN6oTf49 17 марта 28 марта 23:59
Основное домашнее задание https://www.dropbox.com/request/ntCyZLdoaRzUA4GohBEH 24 февраля 24 марта 23:59

Канал в telegram для объявлений: https://t.me/joinchat/RNZgXfAHNbG_biu3

Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.

Семинары

Группа Преподаватель Время Аудитория
МОП 171 Космачев Алексей Дмитриевич Среда 14:40 - 16:00 Zoom конференция
МОП 172 Орлов Никита


Консультации

Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.

При необходимости, можно писать на почту или в Telegram:

Алексей - @adkosm

Никита – @naorlov


Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Мини домашние задания (4 обязательных и 1 бонусное)
  • Основное домашнее задание

Итоговая оценка вычисляется:

Oитоговая = 0.125*(OМДЗ1 + OМДЗ2 + OМДЗ3 + OМДЗ4) + 0.5*OДЗ

Округление арифметическое.

Автомат возможен при высоких оценках за практическое домашнее задание и решенные самостоятельные задания.

Правила сдачи заданий

На все домашние задания каждому студенту отводится ~500$ для работы в облаке Azure. Важно останавливать\удалять ресурсы, создаваемые в облаке, так как в противном случае финансов может не хватить для выполнения всех заданий. Полезно при этом овладеть навыком сохранения промежуточных данных в облачном хранилище - это позволит максимально быстро выполнять задания с минимальными финансовыми затратами.

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

Лекции

Слайды тут: https://github.com/ZEMUSHKA/lsml_hse_lectures

Домашка

Выдана: 21 февраля 2020 23:59

Дедлайн: 14 марта 2020 23:59

https://docs.google.com/document/d/1JZ2ODuCO18tLrVPFx9k9Df_b7IbRZtgZ1MGHcLqHxFs/edit?usp=sharing

Экзамен

Дата: 24.03.2020

Место: онлайн,

Сдаем экзамен в гугл формах (три поля в форме) на 1,5 часа

Вопросы к экзамену:

• Граф вычислений, RDD, примеры трансформаций в Apache Spark, accumulator и broadcast переменные

• MapReduce. AllReduce в Vowpal Wabbit

• Варианты распараллеливания линейных моделей (на одной машине и на кластере). Хэширование признаков

• Варианты распараллеливания ALS

• Инвертированный индекс для подсчета попарных похожестей на MapReduce

• Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE)

• Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE). Варианты распараллеливания градиентного бустинга с feature binning

• Варианты распараллеливания градиентного бустинга с feature binning (вывести формулу для регрессии)

• MinHash и его связь с мерой Жаккара

• Как устроен Bloom Filter с оценкой ошибки

• Как работает Count-Min Sketch с выводом ошибки для точечной оценки

• LSH для поиска похожих документов по мере Жаккара (с использованием MinHash, описать как работают) с выводом вероятности попасть в кандидаты в зависимости от s

• Parameter Server и пример использования для Delayed Block Proximal Gradient.

• Как можно параллелить нейронные сети

В билеты 2 вопроса и 1 задача (на MapReduce)

Полезные материалы

Книги

  1. Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
  2. Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
  3. Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
  4. Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.

Странички прошлых лет

http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных_2020