Машинное обучение на больших данных 2021
Содержание
[убрать]О курсе
Курс читается для студентов 4-го курса ПМИ ФКН ВШЭ в 3 модуле. Проводится с 2017 года.
Лектор: Зимовнов Андрей Вадимович
Лекции ПМИ проходят по
Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.
Полезные ссылки
Таблица с оценками: https://docs.google.com/spreadsheets/d/1cdzBaW_k4uzyMDtBijeyjji0o21VhJ3g-mO185vmKso/edit#gid=0
Репозиторий с лекциями на GitHub
Репозиторий с семинарами на GitHub
Самостоятельные задачи cдаются в Dropbox. Для каждого семинара своя отдельная ссылка на прием заданий:
Задание | Ссылка для сдачи | Дата выдачи | Дедлайн |
---|---|---|---|
Мини домашнее задание 1. Azure & Bash | https://www.dropbox.com/request/wLLX3aHRKwahk0ukMYxe | 20 января | 3 февраля 23:59 |
Мини домашнее задание 2. Hadoop & Spark | https://www.dropbox.com/request/jctWv4RclpbNUr7G4WCX | 10 февраля | 24 февраля 23:59 |
Мини домашнее задание 3. Classic models | https://www.dropbox.com/request/AS0pVq4PVvn8IEk8aHQI | 24 февраля | 10 марта 23:59 |
Мини домашнее задание 4. Neural netowrks | https://www.dropbox.com/request/lgnAY7cd2gNVTCMFqZY0 | 10 марта | 24 марта 23:59 |
Мини домашнее задание 5 (бонусное). KNN & Streaming | https://www.dropbox.com/request/8xvTfpzu14UVkN6oTf49 | 17 марта | 28 марта 23:59 |
Основное домашнее задание | https://www.dropbox.com/request/ntCyZLdoaRzUA4GohBEH | 24 февраля | 24 марта 23:59 |
Канал в telegram для объявлений: https://t.me/joinchat/RNZgXfAHNbG_biu3
Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.
Семинары
Группа | Преподаватель | Время | Аудитория |
---|---|---|---|
МОП 171 | Космачев Алексей Дмитриевич | Среда 14:40 - 16:00 | Zoom конференция |
МОП 172 | Орлов Никита |
Консультации
Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.
При необходимости, можно писать на почту или в Telegram:
Алексей - @adkosm
Никита – @naorlov
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Мини домашние задания (4 обязательных и 1 бонусное)
- Основное домашнее задание
Итоговая оценка вычисляется:
Oитоговая = 0.125*(OМДЗ1 + OМДЗ2 + OМДЗ3 + OМДЗ4) + 0.5*OДЗ
Округление арифметическое.
Автомат возможен при высоких оценках за практическое домашнее задание и решенные самостоятельные задания.
Правила сдачи заданий
На все домашние задания каждому студенту отводится ~500$ для работы в облаке Azure. Важно останавливать\удалять ресурсы, создаваемые в облаке, так как в противном случае финансов может не хватить для выполнения всех заданий. Полезно при этом овладеть навыком сохранения промежуточных данных в облачном хранилище - это позволит максимально быстро выполнять задания с минимальными финансовыми затратами.
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
Лекции
Слайды тут: https://github.com/ZEMUSHKA/lsml_hse_lectures
Домашка
Выдана: 21 февраля 2020 23:59
Дедлайн: 14 марта 2020 23:59
https://docs.google.com/document/d/1JZ2ODuCO18tLrVPFx9k9Df_b7IbRZtgZ1MGHcLqHxFs/edit?usp=sharing
Экзамен
Дата: 24.03.2020
Место: онлайн,
Сдаем экзамен в гугл формах (три поля в форме) на 1,5 часа
Вопросы к экзамену:
• Граф вычислений, RDD, примеры трансформаций в Apache Spark, accumulator и broadcast переменные
• MapReduce. AllReduce в Vowpal Wabbit
• Варианты распараллеливания линейных моделей (на одной машине и на кластере). Хэширование признаков
• Варианты распараллеливания ALS
• Инвертированный индекс для подсчета попарных похожестей на MapReduce
• Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE)
• Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE). Варианты распараллеливания градиентного бустинга с feature binning
• Варианты распараллеливания градиентного бустинга с feature binning (вывести формулу для регрессии)
• MinHash и его связь с мерой Жаккара
• Как устроен Bloom Filter с оценкой ошибки
• Как работает Count-Min Sketch с выводом ошибки для точечной оценки
• LSH для поиска похожих документов по мере Жаккара (с использованием MinHash, описать как работают) с выводом вероятности попасть в кандидаты в зависимости от s
• Parameter Server и пример использования для Delayed Block Proximal Gradient.
• Как можно параллелить нейронные сети
В билеты 2 вопроса и 1 задача (на MapReduce)
Полезные материалы
Книги
- Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
- Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
- Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
- Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.
Странички прошлых лет
http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных_2020