Машинное обучение на больших данных 2020 — различия между версиями

Текущая версия на 20:12, 21 марта 2020

Содержание

1 О курсе
- 1.1 Полезные ссылки
2 Семинары
3 Лекции
4 Домашка
5 Экзамен
6 Полезные материалы
- 6.1 Книги
- 6.2 Странички прошлых лет

О курсе

Курс читается для студентов 4-го курса ПМИ ФКН ВШЭ в 3 модуле. Проводится с 2017 года.

Лектор: Зимовнов Андрей Вадимович

Лекции ПМИ проходят по четвергам, 10:30 - 11:50, ауд. R407.

Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.

Полезные ссылки

Таблица с оценками: https://docs.google.com/spreadsheets/d/1foAM3wlzzKkPZwdOeQLAT8TUQ7gg_aAGdXXY0XASeuU/edit?usp=sharing

Репозиторий с материалами на GitHub

Самостоятельные задачи здаются в Dropbox. Для каждого семинара своя отдельная ссылка на прием заданий:

Семинар 1. MapReduce. - https://www.dropbox.com/request/DxQZg2jEwvTQxmUnmIdh (deadline: 04.02.2020 23:59)
Семинар 2. Hadoop MapReduce. - https://www.dropbox.com/request/4zMflMWC7YogYvbXeOP4 (deadline: 11.02.2020 23:59)
Семинар 3. Spark. - https://www.dropbox.com/request/cMf6OxepfwGxNnbR1hWM (deadline: 18.02.2020 23:59)
Семинар 4. VW + Spark SQL. - https://www.dropbox.com/request/iLXrNjSL5nFnCW3Mh4Rc (deadline: 04.03.2020 23:59)
Cеминар 5. Streaming algorithms. - https://www.dropbox.com/request/oG8mpP7Jcz7BKjtg58Qd (deadline: 03.03.2020 23:59)
Семинар 6. KNN. - https://www.dropbox.com/request/Xkf4EH9dJUO7nIAcwvIk (нестрогий deadline: 162 - 10.03.2020 23:59, 161 - 11.03.2020 23:59, после дедлайна формула: #(sum) * (0.85)^#(days after deadline), строгий дедлайн 18.03.2020 00:00)
Семинар 7. Azure ML. - https://www.dropbox.com/request/PR2xVnId9OQPMhgFlNDq (deadline: 17.03.2020 23:59)
Cеминар 8. Distributed neural networks. - https://www.dropbox.com/request/qPTZuOB3t1ftxFf2i9E9 (deadline: 22.03.2020 23:59)
Семинар 9. Mastering bash. - https://www.dropbox.com/request/mfLaSxjEJ9hBlgx2neBF (deadline: 22.03.2020 23:59)

Канал в telegram для объявлений: https://t.me/joinchat/AAAAAFj8HdBYgd79RDeQpg

Заметки с семинаров (там же указываются задачи для самостоятельного решения) - https://github.com/ADKosm/lsml-seminars-2020-public

Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.

Семинары

Группа	Преподаватель	Время	Аудитория
МОП 161	Бардуков Анатолий Андреевич	Четверг 12:10-13:30	M302
МОП 162	Космачев Алексей Дмитриевич	Среда 10:30-11:50	D208

Ассистенты: Анвардинов Шариф Ринатович

Консультации

Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.

При необходимости, можно писать на почту или в Telegram:

Анатолий - @sindb

Алексей - @adkosm

Шариф - @shedx

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

Самостоятельные задания, выдаваемые на каждом семинаре. Дедлайн на сдачу заданий - 2 недели с момента проведения семинара. Не включая день семинара через две недели.
Практическое домашнее задание (будет выдано ориентировочно на 3 семинаре).
Письменный экзамен.

Итоговая оценка вычисляется:

O_{итоговая} = 0.5* O_{домашка} + 0.2 * O_{сам. раб.} + 0.3 * О_{экзамен}

Автомат возможен при высоких оценках за практическое домашнее задание и решенные самостоятельные задания.

Правила сдачи заданий

На все домашние задания каждому студенту отводится ~500$ для работы в облаке Azure. Важно останавливать\удалять ресурсы, создаваемые в облаке, так как в противном случае финансов может не хватить для выполнения всех заданий. Полезно при этом овладеть навыком сохранения промежуточных данных в облачном хранилище - это позволит максимально быстро выполнять задания с минимальными финансовыми затратами.

Дедлайн на самостоятельные задачи, которые выдаются на семинаре - 2 недели со дня семинара. Не включая день семинара через две недели.

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

Лекции

Слайды тут: https://github.com/ZEMUSHKA/lsml_hse_lectures

Домашка

Выдана: 21 февраля 2020 23:59

Дедлайн: 14 марта 2020 23:59

https://docs.google.com/document/d/1JZ2ODuCO18tLrVPFx9k9Df_b7IbRZtgZ1MGHcLqHxFs/edit?usp=sharing

Экзамен

Дата: 24.03.2020

Место: онлайн,

Сдаем экзамен в гугл формах (три поля в форме) на 1,5 часа

Вопросы к экзамену:

• Граф вычислений, RDD, примеры трансформаций в Apache Spark, accumulator и broadcast переменные

• MapReduce. AllReduce в Vowpal Wabbit

• Варианты распараллеливания линейных моделей (на одной машине и на кластере). Хэширование признаков

• Варианты распараллеливания ALS

• Инвертированный индекс для подсчета попарных похожестей на MapReduce

• Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE)

• Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE). Варианты распараллеливания градиентного бустинга с feature binning

• Варианты распараллеливания градиентного бустинга с feature binning (вывести формулу для регрессии)

• MinHash и его связь с мерой Жаккара

• Как устроен Bloom Filter с оценкой ошибки

• Как работает Count-Min Sketch с выводом ошибки для точечной оценки

• LSH для поиска похожих документов по мере Жаккара (с использованием MinHash, описать как работают) с выводом вероятности попасть в кандидаты в зависимости от s

• Parameter Server и пример использования для Delayed Block Proximal Gradient.

• Как можно параллелить нейронные сети

В билеты 2 вопроса и 1 задача (на MapReduce)

Полезные материалы

Книги

Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.

Странички прошлых лет

http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных

Машинное обучение на больших данных 2020 — различия между версиями

Текущая версия на 20:12, 21 марта 2020

Содержание

О курсе

Полезные ссылки

Семинары

Консультации

Правила выставления оценок

Правила сдачи заданий

Лекции

Домашка

Экзамен

Полезные материалы

Книги

Странички прошлых лет

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты

@@ Строка 10: / Строка 10: @@
 === Полезные ссылки ===
+Таблица с оценками: https://docs.google.com/spreadsheets/d/1foAM3wlzzKkPZwdOeQLAT8TUQ7gg_aAGdXXY0XASeuU/edit?usp=sharing
 [https://github.com/ZEMUSHKA/lsml_hse_lectures Репозиторий с материалами на GitHub]
@@ Строка 22: / Строка 24: @@
 * Семинар 6. KNN. - https://www.dropbox.com/request/Xkf4EH9dJUO7nIAcwvIk (нестрогий deadline: 162 - 10.03.2020 23:59, 161 - 11.03.2020 23:59, после дедлайна формула: #(sum) * (0.85)^#(days after deadline), строгий дедлайн 18.03.2020 00:00)
 * Семинар 7. Azure ML. - https://www.dropbox.com/request/PR2xVnId9OQPMhgFlNDq (deadline: 17.03.2020 23:59)
-* Cеминар 8. Distributed neural networks. - https://www.dropbox.com/request/qPTZuOB3t1ftxFf2i9E9 (deadline: 24.03.2020 23:59)
+* Cеминар 8. Distributed neural networks. - https://www.dropbox.com/request/qPTZuOB3t1ftxFf2i9E9 (deadline: 22.03.2020 23:59)
-* Семинар 9. Mastering bash. - https://www.dropbox.com/request/mfLaSxjEJ9hBlgx2neBF (deadline: 31.01.2020 23:59)
+* Семинар 9. Mastering bash. - https://www.dropbox.com/request/mfLaSxjEJ9hBlgx2neBF (deadline: 22.03.2020 23:59)
-* To be continued...
 Канал в telegram для объявлений: https://t.me/joinchat/AAAAAFj8HdBYgd79RDeQpg
@@ Строка 94: / Строка 95: @@
 == Экзамен ==
-Дата: ?
+Дата: 24.03.2020
+Место: онлайн,
+Сдаем экзамен в гугл формах (три поля в форме) на 1,5 часа
+Вопросы к экзамену:
+•  Граф вычислений, RDD, примеры трансформаций в Apache Spark, accumulator и broadcast переменные
+•  MapReduce. AllReduce в Vowpal Wabbit
+•  Варианты распараллеливания линейных моделей (на одной машине и на кластере). Хэширование признаков
+•  Варианты распараллеливания ALS
+•  Инвертированный индекс для подсчета попарных похожестей на MapReduce
+•  Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE)
+•  Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE). Варианты распараллеливания градиентного бустинга с feature binning
+•  Варианты распараллеливания градиентного бустинга с feature binning (вывести формулу для регрессии)
+•  MinHash и его связь с мерой Жаккара
+•  Как устроен Bloom Filter с оценкой ошибки
+•  Как работает Count-Min Sketch с выводом ошибки для точечной оценки
+•  LSH для поиска похожих документов по мере Жаккара (с использованием MinHash, описать как работают) с выводом вероятности попасть в кандидаты в зависимости от s
+•  Parameter Server и пример использования для Delayed Block Proximal Gradient.
-Место: ?
+•  Как можно параллелить нейронные сети
-Вопросы к экзамену: ?
+В билеты 2 вопроса и 1 задача (на MapReduce)
 == Полезные материалы ==