Машинное обучение на больших данных
Содержание
О курсе
Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 4 модуле. Проводится с 2017 года.
Лектор: Зимовнов Андрей Вадимович
Лекции ПМИ проходят по пятницам, 16:40 - 18:00, ауд. 205.
Лекции ФТиАД (Современные методы принятия решений: Алгоритмы обработки больших данных) проходят по пятницам, 18:10 - 19:30, ауд. 311.
Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.
Полезные ссылки
Репозиторий с материалами на GitHub
Домашние задания сдаются в Dropbox.
Канал в telegram для объявлений: https://t.me/lsml18announces
Чат с преподавателями, где можно задавать вопросы (не флудить): https://t.me/lsml18
Таблица с оценками: ?
Оставить отзыв на курс: ?
Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.
Семинары
Группа | Преподаватель | Учебный ассистент | Страница | Расписание |
---|---|---|---|---|
МОП 151 | Умнов Алексей Витальевич | ? | ? | ? |
МОП 152 | Кузнецов Максим Дмитриевич | ? | ? | ? |
РС 155 | Шумкин Георгий Николаевич | ? | ? | ? |
Ассистенты: Анвардинов Шариф Ринатович Головнин Виктор Игоревич
Консультации
Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Практические домашние работы на Python
- Письменный экзамен
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз
Оценка за работу в семестре вычисляется по формуле
Oнакопленная = 0.35 * Oдз1 + 0.35 * Одз2 + 0.3 * Оработа_на_семинаре
Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.
Правила сдачи заданий
На каждое домашнее задание каждому студенту отводится ~2 недели беспрерывной работы ресурсов в облаке Azure. Лучше останавливать машины, как написано в инструкции, когда вы их не используете, так всем точно хватит ресурсов.
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Из 2017:
Лекция 1 (3 апреля). Онлайн-обучение и линейные модели [Слайды]
Лекция 2 (10 апреля). Введение в Apache Spark [Слайды]
Лекция 3 (17 апреля). Рекомендательные системы [Слайды]
Лекция 4 (24 апреля). Градиентный бустинг [Слайды]
Лекция 5 (15 мая). Введение в TensorFlow [Слайды]
Лекция 6 (22 мая). Сверточные сети [Слайды]
Лекция 7 (29 мая). Рекуррентные сети [Слайды]
Лекция 8 (5 июня). MinHash, LSH и понижение размерности [Материалы 8 лекции]
Практические задания
Из 2017:
Задание 1. Рекомендательная система на Apache Spark
Дата выдачи: 17.04.2017 23:59MSK
Дедлайн: 10.05.2016 23:59MSK
Условие: https://docs.google.com/document/d/1LMs8QBpD60qLPvrxPcav5I3tb9PJZkx4t8JuFoH_YOA/edit?usp=sharing В условие будут добавляться комментарии, следите за обновлениями.
Задание 2 и 3. Сверточные сети в TensorFlow
Дата выдачи: 23.05.2017 23:59MSK
Дедлайн 2 задания: 04.06.2017 23:59MSK
Дедлайн 3 задания: 14.06.2017 23:59MSK (жесткий)
Условие: https://docs.google.com/document/d/1EN-0jAjC5ZAaE-7dR5oWDAOPZYh7lsBE0n_C3yP0q5U/edit?usp=sharing
Экзамен
Дата: суббота, 17 июня 2017 в 10:30
Место: ауд. 317
Вопросы к экзамену: https://docs.google.com/document/d/1xtQv7vIfo2b7ZOvnw5U7SB2gatAFHUs5Xf65a8ps7k4/edit?usp=sharing
Полезные материалы
Книги
- Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
- Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
- Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
- Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.