Машинное обучение на больших данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Книги)
(Практические задания)
 
(не показаны 42 промежуточные версии этого же участника)
Строка 1: Строка 1:
 
== О курсе ==
 
== О курсе ==
  
Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 4 модуле.
+
Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 4 модуле. Проводится с 2017 года.
  
Проводится с 2017 года.
+
'''Лектор:''' [https://www.hse.ru/org/persons/175396509 Зимовнов Андрей Вадимович]
  
'''Лектор:''' [http://www.hse.ru/staff/azimovnov Зимовнов Андрей Вадимович]
+
Лекции ПМИ проходят по пятницам, 16:40 - 18:00, ауд. 205.
  
Лекции проходят по понедельникам, 10:30 - 11:50, ауд. 402.
+
Лекции ФТиАД (Современные методы принятия решений: Алгоритмы обработки больших данных) проходят по пятницам, 18:10 - 19:30, ауд. 311.
  
 
Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.
 
Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.
Строка 15: Строка 15:
 
[https://github.com/ZEMUSHKA/lsml_hse Репозиторий с материалами на GitHub]
 
[https://github.com/ZEMUSHKA/lsml_hse Репозиторий с материалами на GitHub]
  
Почта для сдачи домашних заданий: ?
+
Домашние задания сдаются в Dropbox.
  
Канал в telegram для объявлений: https://t.me/lsml17announces
+
Канал в telegram для объявлений: https://t.me/lsml18announces
  
Чат с преподавателями (не флудить): https://t.me/joinchat/AAAAAEJNxlU5Ci3KaRR2QQ
+
Чат для ПМИ с преподавателями, где можно задавать вопросы (не флудить): https://t.me/lsml18
  
Таблица с оценками: ?
+
Чат для ФТиАД: https://t.me/joinchat/BiAzMw174T7yFKPp1UcwOA
 +
 
 +
Таблица с оценками: https://docs.google.com/spreadsheets/d/1hPlx0ad1NvpOxuJEjcsWanUjtsWgD07h0ogALucwswk/edit?usp=sharing
  
 
Оставить отзыв на курс: ?
 
Оставить отзыв на курс: ?
  
'''Вопросы''' по курсу можно задавать на почту курса, а также в телеграм лектору (@ZEMUSHKA) или семинаристу.
+
Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.
Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде issue на github.
+
  
 
== Семинары ==
 
== Семинары ==
Строка 34: Строка 35:
 
! Группа !! Преподаватель !! Учебный ассистент !! Страница !! Расписание
 
! Группа !! Преподаватель !! Учебный ассистент !! Страница !! Расписание
 
|-
 
|-
| 145 (РС) || [https://www.hse.ru/org/persons/141880775 Умнов Алексей Витальевич] || ? || [[Машинное_обучение_на_больших_данных_145 | Семинары группы 145]] || ?
+
| МОП 151 || [https://www.hse.ru/org/persons/141880775 Умнов Алексей Витальевич] || ? || ? || ?
|-
+
| || Папулин Сергей Юрьевич || || [https://github.com/bigdataprocsystems github] ||
+
 
|-
 
|-
 +
| МОП 152 || Кузнецов Максим Дмитриевич || ? || ? || ?
 +
|-
 +
| РС 155 || Кузнецов & Умнов || ? || ? || ?
 +
|-
 
|}
 
|}
 +
 +
Ассистенты: Анвардинов Шариф Ринатович, Головнин Виктор Игоревич
  
 
=== Консультации ===
 
=== Консультации ===
Строка 48: Строка 53:
 
В курсе предусмотрено несколько форм контроля знания:
 
В курсе предусмотрено несколько форм контроля знания:
 
* Практические домашние работы на Python
 
* Практические домашние работы на Python
* Устный экзамен
+
* Письменный экзамен
  
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Строка 56: Строка 61:
 
Оценка за работу в семестре вычисляется по формуле
 
Оценка за работу в семестре вычисляется по формуле
  
O<sub>накопленная</sub> = 0.3 * O<sub>дз1</sub> + 0.3 * О<sub>дз2</sub> + 0.4 * О<sub>дз3</sub>
+
O<sub>накопленная</sub> = 0.35 * O<sub>дз1</sub> + 0.35 * О<sub>дз2</sub> + 0.3 * О<sub>работа_на_семинаре</sub>
  
 
Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.
 
Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.
Строка 62: Строка 67:
 
=== Правила сдачи заданий ===
 
=== Правила сдачи заданий ===
  
На каждое задание каждому студенту отводится 2 недели беспрерывной работы ресурсов в облаке Azure.
+
На каждое домашнее задание каждому студенту отводится ~2 недели беспрерывной работы ресурсов в облаке Azure.
 +
Лучше останавливать машины, как написано в инструкции, когда вы их не используете, так всем точно хватит ресурсов.
  
 
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.
 
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.
Строка 72: Строка 78:
 
== Лекции ==
 
== Лекции ==
  
'''Лекция 1''' (3 апреля). Онлайн-обучение и линейные модели [[https://github.com/ZEMUSHKA/lsml_hse/blob/master/lecture1.pdf Слайды]]
+
'''Лекция 1''' (6 апреля). Онлайн-обучение и линейные модели [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture1.pdf Слайды]]
  
'''Лекция 2''' (10 апреля). Введение в Apache Spark [[https://github.com/ZEMUSHKA/lsml_hse/blob/master/lecture2.pdf Слайды]]
+
'''Лекция 2''' (13 апреля). Введение в Apache Spark [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture2.pdf Слайды]]
  
'''Лекция 3''' (17 апреля). Рекомендательные системы [[https://github.com/ZEMUSHKA/lsml_hse/blob/master/lecture3.pdf Слайды]]
+
'''Лекция 3''' (27 апреля). Рекомендательные системы [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture3.pdf Слайды]]
  
'''Лекция 4''' (24 апреля). Градиентный бустинг [[https://github.com/ZEMUSHKA/lsml_hse/blob/master/lecture4.pdf Слайды]]
+
'''Лекция 4''' (11 мая). Градиентный бустинг [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture4.pdf Слайды]]
  
'''Лекция 5''' (15 мая). Введение в TensorFlow [[https://github.com/ZEMUSHKA/lsml_hse/blob/master/lecture5.pdf Слайды]]
+
'''Лекция 5''' (18 мая). Введение в TensorFlow [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture5.pdf Слайды]]
  
'''Лекция 6''' (22 мая). Сверточные сети [[https://github.com/ZEMUSHKA/lsml_hse/blob/master/lecture6.pdf Слайды]]
+
'''Лекция 6''' (1 июня). Сверточные сети [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture6.pdf Слайды]]
  
'''Лекция 7''' (29 мая). Рекуррентные сети [[https://github.com/ZEMUSHKA/lsml_hse/blob/master/lecture7.pdf Слайды]]
+
'''Лекция 7''' (12 июня). Распараллеливание нейросетей и примеры применения [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture7.pdf Слайды]] [[https://www.twitch.tv/videos/272410727 Видео]] [[https://www.dropbox.com/s/jrmytfucrbw2tpt/twitch_lecture7.mp4?dl=0 Видео Dropbox]]
  
'''Лекция 8''' (5 июня). MinHash, LSH и понижение размерности [[https://github.com/ZEMUSHKA/lsml_hse/ Материалы 8 лекции]]
+
'''Лекция 8''' (18 июня). Bloom Filter, Count-Min Sketch, MinHash, LSH [[https://github.com/ZEMUSHKA/lsml_hse_lectures/blob/master/lecture8.pdf Слайды]] [[https://www.twitch.tv/videos/274758513 Видео]] [[https://www.dropbox.com/s/2lsgr4wnbgtl7rp/twitch_lecture8.mp4?dl=0 Видео Dropbox]]
  
 
== Практические задания ==
 
== Практические задания ==
Строка 92: Строка 98:
 
'''Задание 1.''' Рекомендательная система на Apache Spark
 
'''Задание 1.''' Рекомендательная система на Apache Spark
  
Дата выдачи: 17.04.2017 23:59MSK
+
Дата выдачи: 08.05.2018 23:59MSK
 
+
Дедлайн: 10.05.2016 23:59MSK
+
  
Условие: https://docs.google.com/document/d/1LMs8QBpD60qLPvrxPcav5I3tb9PJZkx4t8JuFoH_YOA/edit?usp=sharing
+
Дедлайн: 24.05.2018 23:59MSK
В условие будут добавляться комментарии, следите за обновлениями.
+
  
'''Задание 2 и 3.''' Сверточные сети в TensorFlow
+
Условие: https://docs.google.com/document/d/1JZ2ODuCO18tLrVPFx9k9Df_b7IbRZtgZ1MGHcLqHxFs/edit?usp=sharing
  
Дата выдачи: 23.05.2017 23:59MSK
+
'''Задание 2.''' Сверточные сети в TensorFlow
  
Дедлайн 2 задания: 04.06.2017 23:59MSK
+
Дата выдачи: 03.06.2018 23:59MSK
  
Дедлайн 3 задания: 14.06.2017 23:59MSK (жесткий)
+
Дедлайн: 19.06.2018 23:59MSK
  
Условие: https://docs.google.com/document/d/1EN-0jAjC5ZAaE-7dR5oWDAOPZYh7lsBE0n_C3yP0q5U/edit?usp=sharing
+
Условие: https://docs.google.com/document/d/1W49mchgR46gdC9UBMWurqD_eIH0LatgmXcZliaw32_0/edit
  
 
== Экзамен ==
 
== Экзамен ==
  
Дата: суббота, 17 июня 2017 в 10:30
+
Дата: 23 июня 2018
  
Место: ауд. 317
+
Место: ?
  
 
Вопросы к экзамену: https://docs.google.com/document/d/1xtQv7vIfo2b7ZOvnw5U7SB2gatAFHUs5Xf65a8ps7k4/edit?usp=sharing
 
Вопросы к экзамену: https://docs.google.com/document/d/1xtQv7vIfo2b7ZOvnw5U7SB2gatAFHUs5Xf65a8ps7k4/edit?usp=sharing
Строка 119: Строка 122:
 
== Полезные материалы ==
 
== Полезные материалы ==
 
===Книги===
 
===Книги===
- Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
+
# Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
- Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
+
# Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
- Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
+
# Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
- Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.
+
# Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.

Текущая версия на 00:17, 19 июня 2018

О курсе

Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 4 модуле. Проводится с 2017 года.

Лектор: Зимовнов Андрей Вадимович

Лекции ПМИ проходят по пятницам, 16:40 - 18:00, ауд. 205.

Лекции ФТиАД (Современные методы принятия решений: Алгоритмы обработки больших данных) проходят по пятницам, 18:10 - 19:30, ауд. 311.

Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.

Полезные ссылки

Репозиторий с материалами на GitHub

Домашние задания сдаются в Dropbox.

Канал в telegram для объявлений: https://t.me/lsml18announces

Чат для ПМИ с преподавателями, где можно задавать вопросы (не флудить): https://t.me/lsml18

Чат для ФТиАД: https://t.me/joinchat/BiAzMw174T7yFKPp1UcwOA

Таблица с оценками: https://docs.google.com/spreadsheets/d/1hPlx0ad1NvpOxuJEjcsWanUjtsWgD07h0ogALucwswk/edit?usp=sharing

Оставить отзыв на курс: ?

Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.

Семинары

Группа Преподаватель Учебный ассистент Страница Расписание
МОП 151 Умнов Алексей Витальевич  ?  ?  ?
МОП 152 Кузнецов Максим Дмитриевич  ?  ?  ?
РС 155 Кузнецов & Умнов  ?  ?  ?

Ассистенты: Анвардинов Шариф Ринатович, Головнин Виктор Игоревич

Консультации

Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Практические домашние работы на Python
  • Письменный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз

Оценка за работу в семестре вычисляется по формуле

Oнакопленная = 0.35 * Oдз1 + 0.35 * Одз2 + 0.3 * Оработа_на_семинаре

Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.

Правила сдачи заданий

На каждое домашнее задание каждому студенту отводится ~2 недели беспрерывной работы ресурсов в облаке Azure. Лучше останавливать машины, как написано в инструкции, когда вы их не используете, так всем точно хватит ресурсов.

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Лекции

Лекция 1 (6 апреля). Онлайн-обучение и линейные модели [Слайды]

Лекция 2 (13 апреля). Введение в Apache Spark [Слайды]

Лекция 3 (27 апреля). Рекомендательные системы [Слайды]

Лекция 4 (11 мая). Градиентный бустинг [Слайды]

Лекция 5 (18 мая). Введение в TensorFlow [Слайды]

Лекция 6 (1 июня). Сверточные сети [Слайды]

Лекция 7 (12 июня). Распараллеливание нейросетей и примеры применения [Слайды] [Видео] [Видео Dropbox]

Лекция 8 (18 июня). Bloom Filter, Count-Min Sketch, MinHash, LSH [Слайды] [Видео] [Видео Dropbox]

Практические задания

Задание 1. Рекомендательная система на Apache Spark

Дата выдачи: 08.05.2018 23:59MSK

Дедлайн: 24.05.2018 23:59MSK

Условие: https://docs.google.com/document/d/1JZ2ODuCO18tLrVPFx9k9Df_b7IbRZtgZ1MGHcLqHxFs/edit?usp=sharing

Задание 2. Сверточные сети в TensorFlow

Дата выдачи: 03.06.2018 23:59MSK

Дедлайн: 19.06.2018 23:59MSK

Условие: https://docs.google.com/document/d/1W49mchgR46gdC9UBMWurqD_eIH0LatgmXcZliaw32_0/edit

Экзамен

Дата: 23 июня 2018

Место: ?

Вопросы к экзамену: https://docs.google.com/document/d/1xtQv7vIfo2b7ZOvnw5U7SB2gatAFHUs5Xf65a8ps7k4/edit?usp=sharing

Полезные материалы

Книги

  1. Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
  2. Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
  3. Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
  4. Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.