Машинное обучение на больших данных 2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница: «== О курсе == Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 4 модуле. Про…»)
 
(Полезные ссылки)
 
(не показано 26 промежуточных версии 4 участников)
Строка 1: Строка 1:
 
== О курсе ==
 
== О курсе ==
  
Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 4 модуле. Проводится с 2017 года.
+
Курс читается для студентов 4-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 3 модуле. Проводится с 2017 года.
  
 
'''Лектор:''' [https://www.hse.ru/org/persons/175396509 Зимовнов Андрей Вадимович]
 
'''Лектор:''' [https://www.hse.ru/org/persons/175396509 Зимовнов Андрей Вадимович]
  
Лекции ПМИ проходят по пятницам, 16:40 - 18:00, ауд. 205.
+
Лекции ПМИ проходят по четвергам, 10:30 - 11:50, ауд. R407.
 
+
Лекции ФТиАД (Современные методы принятия решений: Алгоритмы обработки больших данных) проходят по пятницам, 18:10 - 19:30, ауд. 311.
+
  
 
Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.
 
Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.
Строка 13: Строка 11:
 
=== Полезные ссылки ===
 
=== Полезные ссылки ===
  
[https://github.com/ZEMUSHKA/lsml_hse Репозиторий с материалами на GitHub]
+
Таблица с оценками: https://docs.google.com/spreadsheets/d/1foAM3wlzzKkPZwdOeQLAT8TUQ7gg_aAGdXXY0XASeuU/edit?usp=sharing
  
Домашние задания сдаются в Dropbox.
+
[https://github.com/ZEMUSHKA/lsml_hse_lectures Репозиторий с материалами на GitHub]
  
Канал в telegram для объявлений: https://t.me/lsml18announces
+
Самостоятельные задачи здаются в Dropbox. Для каждого семинара своя отдельная ссылка на прием заданий:
  
Чат для ПМИ с преподавателями, где можно задавать вопросы (не флудить): https://t.me/lsml18
+
* Семинар 1. MapReduce. - https://www.dropbox.com/request/DxQZg2jEwvTQxmUnmIdh (deadline: 04.02.2020 23:59)
 +
* Семинар 2. Hadoop MapReduce. - https://www.dropbox.com/request/4zMflMWC7YogYvbXeOP4 (deadline: 11.02.2020 23:59)
 +
* Семинар 3. Spark. - https://www.dropbox.com/request/cMf6OxepfwGxNnbR1hWM (deadline: 18.02.2020 23:59)
 +
* Семинар 4. VW + Spark SQL. - https://www.dropbox.com/request/iLXrNjSL5nFnCW3Mh4Rc (deadline: 04.03.2020 23:59)
 +
* Cеминар 5. Streaming algorithms. - https://www.dropbox.com/request/oG8mpP7Jcz7BKjtg58Qd (deadline: 03.03.2020 23:59)
 +
* Семинар 6. KNN. - https://www.dropbox.com/request/Xkf4EH9dJUO7nIAcwvIk (нестрогий deadline: 162 - 10.03.2020 23:59, 161 - 11.03.2020 23:59, после дедлайна формула: #(sum) * (0.85)^#(days after deadline), строгий дедлайн 18.03.2020 00:00)
 +
* Семинар 7. Azure ML. - https://www.dropbox.com/request/PR2xVnId9OQPMhgFlNDq (deadline: 17.03.2020 23:59)
 +
* Cеминар 8. Distributed neural networks. - https://www.dropbox.com/request/qPTZuOB3t1ftxFf2i9E9 (deadline: 22.03.2020 23:59)
 +
* Семинар 9. Mastering bash. - https://www.dropbox.com/request/mfLaSxjEJ9hBlgx2neBF (deadline: 22.03.2020 23:59)
  
Чат для ФТиАД: https://t.me/joinchat/BiAzMw174T7yFKPp1UcwOA
+
Канал в telegram для объявлений: https://t.me/joinchat/AAAAAFj8HdBYgd79RDeQpg
  
Таблица с оценками: https://docs.google.com/spreadsheets/d/1hPlx0ad1NvpOxuJEjcsWanUjtsWgD07h0ogALucwswk/edit?usp=sharing
+
Заметки с семинаров (там же указываются задачи для самостоятельного решения) - https://github.com/ADKosm/lsml-seminars-2020-public
 
+
Оставить отзыв на курс: ?
+
  
 
Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.
 
Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.
Строка 33: Строка 37:
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! Группа !! Преподаватель !! Учебный ассистент !! Страница !! Расписание
+
! Группа !! Преподаватель !! Время !! Аудитория
 
|-
 
|-
| МОП 151 || [https://www.hse.ru/org/persons/141880775 Умнов Алексей Витальевич] || ? || ? || ?
+
| МОП 161 || Бардуков Анатолий Андреевич || Четверг 12:10-13:30 || M302
 
|-
 
|-
| МОП 152 || Кузнецов Максим Дмитриевич || ? || ? || ?
+
| МОП 162 || Космачев Алексей Дмитриевич || Среда 10:30-11:50 || D208
 
|-
 
|-
| РС 155 || Кузнецов & Умнов || ? || ? || ?
 
|-
 
 
|}
 
|}
  
Ассистенты: Анвардинов Шариф Ринатович, Головнин Виктор Игоревич
+
Ассистенты: Анвардинов Шариф Ринатович
  
 
=== Консультации ===
 
=== Консультации ===
Строка 49: Строка 51:
 
Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.
 
Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.
  
=== Правила выставления оценок ===
+
При необходимости, можно писать на почту или в Telegram:
  
В курсе предусмотрено несколько форм контроля знания:
+
Анатолий - @sindb
* Практические домашние работы на Python
+
* Письменный экзамен
+
  
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
+
Алексей - @adkosm
  
O<sub>итоговая</sub> = 0.7 * O<sub>накопленная</sub> + 0.3 * О<sub>экз</sub>
+
Шариф - @shedx
 +
 
 +
=== Правила выставления оценок ===
 +
 
 +
В курсе предусмотрено несколько форм контроля знания:
 +
* Самостоятельные задания, выдаваемые на каждом семинаре. Дедлайн на сдачу заданий - 2 недели с момента проведения семинара. Не включая день семинара через две недели.
 +
* Практическое домашнее задание (будет выдано ориентировочно на 3 семинаре).
 +
* Письменный экзамен.
  
Оценка за работу в семестре вычисляется по формуле
+
Итоговая оценка вычисляется:
  
O<sub>накопленная</sub> = 0.35 * O<sub>дз1</sub> + 0.35 * О<sub>дз2</sub> + 0.3 * О<sub>работа_на_семинаре</sub>
+
O<sub>итоговая</sub> = 0.5* O<sub>домашка</sub> + 0.2 * O<sub>сам. раб.</sub> + 0.3 * О<sub>экзамен</sub>
  
Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.
+
Автомат возможен при высоких оценках за практическое домашнее задание и решенные самостоятельные задания.
  
 
=== Правила сдачи заданий ===
 
=== Правила сдачи заданий ===
  
На каждое домашнее задание каждому студенту отводится ~2 недели беспрерывной работы ресурсов в облаке Azure.  
+
На все домашние задания каждому студенту отводится ~500$ для работы в облаке Azure.  
Лучше останавливать машины, как написано в инструкции, когда вы их не используете, так всем точно хватит ресурсов.
+
Важно останавливать\удалять ресурсы, создаваемые в облаке, так как в противном случае финансов может не хватить для выполнения всех заданий. Полезно при этом овладеть навыком сохранения промежуточных данных в облачном хранилище - это позволит максимально быстро выполнять задания с минимальными финансовыми затратами.
 +
 
 +
Дедлайн на самостоятельные задачи, которые выдаются на семинаре - 2 недели со дня семинара.  Не включая день семинара через две недели.
  
 
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.
 
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.
  
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 
При наличии уважительной причины дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
 
  
 
== Лекции ==
 
== Лекции ==
 +
Слайды тут: https://github.com/ZEMUSHKA/lsml_hse_lectures
  
'''Лекция 1''' (6 апреля). Онлайн-обучение и линейные модели [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture1.pdf Слайды]]
+
== Домашка ==
 +
Выдана: 21 февраля 2020 23:59
  
'''Лекция 2''' (13 апреля). Введение в Apache Spark [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture2.pdf Слайды]]
+
Дедлайн: 14 марта 2020 23:59
  
'''Лекция 3''' (27 апреля). Рекомендательные системы [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture3.pdf Слайды]]
+
https://docs.google.com/document/d/1JZ2ODuCO18tLrVPFx9k9Df_b7IbRZtgZ1MGHcLqHxFs/edit?usp=sharing
  
'''Лекция 4''' (11 мая). Градиентный бустинг [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture4.pdf Слайды]]
+
== Экзамен ==
  
'''Лекция 5''' (18 мая). Введение в TensorFlow [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture5.pdf Слайды]]
+
Дата: 24.03.2020
  
'''Лекция 6''' (1 июня). Сверточные сети [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture6.pdf Слайды]]
+
Место: онлайн,
  
'''Лекция 7''' (12 июня). Распараллеливание нейросетей и примеры применения [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture7.pdf Слайды]] [[https://www.twitch.tv/videos/272410727 Видео]] [[https://www.dropbox.com/s/jrmytfucrbw2tpt/twitch_lecture7.mp4?dl=0 Видео Dropbox]]
+
Сдаем экзамен в гугл формах (три поля в форме) на 1,5 часа
  
'''Лекция 8''' (18 июня). Bloom Filter, Count-Min Sketch, MinHash, LSH [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture8.pdf Слайды]] [[https://www.twitch.tv/videos/274758513 Видео]] [[https://www.dropbox.com/s/2lsgr4wnbgtl7rp/twitch_lecture8.mp4?dl=0 Видео Dropbox]]
+
Вопросы к экзамену:  
  
== Практические задания ==
+
•  Граф вычислений, RDD, примеры трансформаций в Apache Spark, accumulator и broadcast переменные
  
'''Задание 1.''' Рекомендательная система на Apache Spark
+
•  MapReduce. AllReduce в Vowpal Wabbit
  
Дата выдачи: 08.05.2018 23:59MSK
+
•  Варианты распараллеливания линейных моделей (на одной машине и на кластере). Хэширование признаков
  
Дедлайн: 24.05.2018 23:59MSK
+
•  Варианты распараллеливания ALS
  
Условие: https://docs.google.com/document/d/1JZ2ODuCO18tLrVPFx9k9Df_b7IbRZtgZ1MGHcLqHxFs/edit?usp=sharing
+
•  Инвертированный индекс для подсчета попарных похожестей на MapReduce
  
'''Задание 2.''' Сверточные сети в TensorFlow
+
•  Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE)
  
Дата выдачи: 03.06.2018 23:59MSK
+
•  Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE). Варианты распараллеливания градиентного бустинга с feature binning
  
Дедлайн: 19.06.2018 23:59MSK
+
•  Варианты распараллеливания градиентного бустинга с feature binning (вывести формулу для регрессии)
  
Условие: https://docs.google.com/document/d/1W49mchgR46gdC9UBMWurqD_eIH0LatgmXcZliaw32_0/edit
+
•  MinHash и его связь с мерой Жаккара
  
== Экзамен ==
+
•  Как устроен Bloom Filter с оценкой ошибки
  
Дата: 23 июня 2018
+
•  Как работает Count-Min Sketch с выводом ошибки для точечной оценки
  
Место: ?
+
•  LSH для поиска похожих документов по мере Жаккара (с использованием MinHash, описать как работают) с выводом вероятности попасть в кандидаты в зависимости от s
  
Вопросы к экзамену: https://docs.google.com/document/d/1xtQv7vIfo2b7ZOvnw5U7SB2gatAFHUs5Xf65a8ps7k4/edit?usp=sharing
+
•  Parameter Server и пример использования для Delayed Block Proximal Gradient.
 +
 
 +
•  Как можно параллелить нейронные сети
 +
 
 +
В билеты 2 вопроса и 1 задача (на MapReduce)
  
 
== Полезные материалы ==
 
== Полезные материалы ==
Строка 126: Строка 139:
 
# Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
 
# Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
 
# Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.
 
# Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.
 +
 +
===Странички прошлых лет===
 +
http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных

Текущая версия на 20:12, 21 марта 2020

О курсе

Курс читается для студентов 4-го курса ПМИ ФКН ВШЭ в 3 модуле. Проводится с 2017 года.

Лектор: Зимовнов Андрей Вадимович

Лекции ПМИ проходят по четвергам, 10:30 - 11:50, ауд. R407.

Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.

Полезные ссылки

Таблица с оценками: https://docs.google.com/spreadsheets/d/1foAM3wlzzKkPZwdOeQLAT8TUQ7gg_aAGdXXY0XASeuU/edit?usp=sharing

Репозиторий с материалами на GitHub

Самостоятельные задачи здаются в Dropbox. Для каждого семинара своя отдельная ссылка на прием заданий:

Канал в telegram для объявлений: https://t.me/joinchat/AAAAAFj8HdBYgd79RDeQpg

Заметки с семинаров (там же указываются задачи для самостоятельного решения) - https://github.com/ADKosm/lsml-seminars-2020-public

Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.

Семинары

Группа Преподаватель Время Аудитория
МОП 161 Бардуков Анатолий Андреевич Четверг 12:10-13:30 M302
МОП 162 Космачев Алексей Дмитриевич Среда 10:30-11:50 D208

Ассистенты: Анвардинов Шариф Ринатович

Консультации

Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.

При необходимости, можно писать на почту или в Telegram:

Анатолий - @sindb

Алексей - @adkosm

Шариф - @shedx

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные задания, выдаваемые на каждом семинаре. Дедлайн на сдачу заданий - 2 недели с момента проведения семинара. Не включая день семинара через две недели.
  • Практическое домашнее задание (будет выдано ориентировочно на 3 семинаре).
  • Письменный экзамен.

Итоговая оценка вычисляется:

Oитоговая = 0.5* Oдомашка + 0.2 * Oсам. раб. + 0.3 * Оэкзамен

Автомат возможен при высоких оценках за практическое домашнее задание и решенные самостоятельные задания.

Правила сдачи заданий

На все домашние задания каждому студенту отводится ~500$ для работы в облаке Azure. Важно останавливать\удалять ресурсы, создаваемые в облаке, так как в противном случае финансов может не хватить для выполнения всех заданий. Полезно при этом овладеть навыком сохранения промежуточных данных в облачном хранилище - это позволит максимально быстро выполнять задания с минимальными финансовыми затратами.

Дедлайн на самостоятельные задачи, которые выдаются на семинаре - 2 недели со дня семинара. Не включая день семинара через две недели.

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

Лекции

Слайды тут: https://github.com/ZEMUSHKA/lsml_hse_lectures

Домашка

Выдана: 21 февраля 2020 23:59

Дедлайн: 14 марта 2020 23:59

https://docs.google.com/document/d/1JZ2ODuCO18tLrVPFx9k9Df_b7IbRZtgZ1MGHcLqHxFs/edit?usp=sharing

Экзамен

Дата: 24.03.2020

Место: онлайн,

Сдаем экзамен в гугл формах (три поля в форме) на 1,5 часа

Вопросы к экзамену:

• Граф вычислений, RDD, примеры трансформаций в Apache Spark, accumulator и broadcast переменные

• MapReduce. AllReduce в Vowpal Wabbit

• Варианты распараллеливания линейных моделей (на одной машине и на кластере). Хэширование признаков

• Варианты распараллеливания ALS

• Инвертированный индекс для подсчета попарных похожестей на MapReduce

• Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE)

• Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE). Варианты распараллеливания градиентного бустинга с feature binning

• Варианты распараллеливания градиентного бустинга с feature binning (вывести формулу для регрессии)

• MinHash и его связь с мерой Жаккара

• Как устроен Bloom Filter с оценкой ошибки

• Как работает Count-Min Sketch с выводом ошибки для точечной оценки

• LSH для поиска похожих документов по мере Жаккара (с использованием MinHash, описать как работают) с выводом вероятности попасть в кандидаты в зависимости от s

• Parameter Server и пример использования для Delayed Block Proximal Gradient.

• Как можно параллелить нейронные сети

В билеты 2 вопроса и 1 задача (на MapReduce)

Полезные материалы

Книги

  1. Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
  2. Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
  3. Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
  4. Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.

Странички прошлых лет

http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных