Машинное обучение на больших данных 2021 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Полезные материалы)
(Отмена правки 70588, сделанной участником Healthline (обс.))
 
(не показаны 22 промежуточные версии 4 участников)
Строка 5: Строка 5:
 
'''Лектор:''' [https://www.hse.ru/org/persons/175396509 Зимовнов Андрей Вадимович]
 
'''Лектор:''' [https://www.hse.ru/org/persons/175396509 Зимовнов Андрей Вадимович]
  
Лекции ПМИ проходят по  
+
Лекции ПМИ проходят по понедельникам в 11:10 по [https://zoom.us/j/92432496193 ссылке].
  
 
Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.
 
Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.
Строка 17: Строка 17:
 
[https://github.com/ADKosm/lsml-2021-public Репозиторий с семинарами на GitHub]
 
[https://github.com/ADKosm/lsml-2021-public Репозиторий с семинарами на GitHub]
  
Самостоятельные задачи cдаются в Dropbox. Для каждого семинара своя отдельная ссылка на прием заданий:
+
[https://youtube.com/playlist?list=PLEwK9wdS5g0o1M8LL429mY-jUGlYvTMsx YouTube канал с записями всех занятий]
 +
 
 +
Самостоятельные задачи cдаются в Dropbox. Дедлайны жесткие. Для каждого семинара своя отдельная ссылка на прием заданий:
  
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! Задание !! Ссылка для сдачи !! Дата выдачи !! Дедлайн
+
! Задание !! Ссылка для сдачи !! Ссылка на домашнее задание !! Дата выдачи !! Дедлайн
 
|-
 
|-
| Мини домашнее задание 1. Azure & Bash || https://www.dropbox.com/request/wLLX3aHRKwahk0ukMYxe || 20 января || 3 февраля 23:59
+
| Мини домашнее задание 1. Azure & Bash || https://www.dropbox.com/request/wLLX3aHRKwahk0ukMYxe || https://bit.ly/2NbF2QX || 20 января || 3 февраля 23:59
 
|-
 
|-
| Мини домашнее задание 2. Hadoop & Spark || https://www.dropbox.com/request/jctWv4RclpbNUr7G4WCX || 10 февраля || 24 февраля 23:59
+
| Мини домашнее задание 2. Hadoop & Spark || https://www.dropbox.com/request/jctWv4RclpbNUr7G4WCX || https://bit.ly/3aSQbyd || 10 февраля || 7 марта 23:59
 
|-
 
|-
| Мини домашнее задание 3. Classic models || https://www.dropbox.com/request/AS0pVq4PVvn8IEk8aHQI || 24 февраля || 10 марта 23:59
+
| Мини домашнее задание 3. Classic models || https://www.dropbox.com/request/AS0pVq4PVvn8IEk8aHQI || https://bit.ly/2ZKYvev || 24 февраля || 17 марта 23:59
 
|-
 
|-
| Мини домашнее задание 4. Neural netowrks || https://www.dropbox.com/request/lgnAY7cd2gNVTCMFqZY0 || 10 марта || 24 марта 23:59
+
| Мини домашнее задание 4. Neural netowrks || https://www.dropbox.com/request/lgnAY7cd2gNVTCMFqZY0 || https://bit.ly/3lyUns8 || 18 марта || 28 марта 23:59
 
|-
 
|-
| Мини домашнее задание 5 (бонусное). KNN & Streaming || https://www.dropbox.com/request/8xvTfpzu14UVkN6oTf49 || 17 марта || 28 марта 23:59
+
| Мини домашнее задание 5 (бонусное). KNN & Streaming || https://www.dropbox.com/request/8xvTfpzu14UVkN6oTf49 || Ищите в ноутбуках с последних семинаров || 17 марта || 28 марта 23:59
 
|-
 
|-
| Основное домашнее задание || https://www.dropbox.com/request/ntCyZLdoaRzUA4GohBEH || 24 февраля || 24 марта 23:59
+
| Основное домашнее задание || https://www.dropbox.com/request/ntCyZLdoaRzUA4GohBEH || https://bit.ly/3bAmmmx || 24 февраля || 28 марта 23:59
 
|-
 
|-
 
|}
 
|}
Строка 49: Строка 51:
 
| МОП 171 || Космачев Алексей Дмитриевич || Среда 14:40 - 16:00 || [https://zoom.us/j/97190579222 Zoom конференция]
 
| МОП 171 || Космачев Алексей Дмитриевич || Среда 14:40 - 16:00 || [https://zoom.us/j/97190579222 Zoom конференция]
 
|-
 
|-
| МОП 172 || Орлов Никита ||  ||
+
| МОП 172 || Орлов Никита Андреевич|| Вторник 11:10 - 12:30 || [https://zoom.us/j/98424368404?pwd=RHRCWkdJN3NhZmxFazB6b3RBcEpPUT09 Zoom конференция]
 
|-
 
|-
 
|}
 
|}
Строка 61: Строка 63:
 
При необходимости, можно писать на почту или в Telegram:
 
При необходимости, можно писать на почту или в Telegram:
  
Алексей - [https://t.me/adkosm @adkosm]
+
Алексей [https://t.me/adkosm @adkosm]
  
 
Никита – [https://t.me/naorlov @naorlov]
 
Никита – [https://t.me/naorlov @naorlov]
 
  
 
=== Правила выставления оценок ===
 
=== Правила выставления оценок ===
Строка 77: Строка 78:
  
 
Округление арифметическое.
 
Округление арифметическое.
 
Автомат возможен при высоких оценках за практическое домашнее задание и решенные самостоятельные задания.
 
  
 
=== Правила сдачи заданий ===
 
=== Правила сдачи заданий ===
Строка 88: Строка 87:
  
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 
== Лекции ==
 
Слайды тут: https://github.com/ZEMUSHKA/lsml_hse_lectures
 
 
== Домашка ==
 
Выдана: 21 февраля 2020 23:59
 
 
Дедлайн: 14 марта 2020 23:59
 
 
https://docs.google.com/document/d/1JZ2ODuCO18tLrVPFx9k9Df_b7IbRZtgZ1MGHcLqHxFs/edit?usp=sharing
 
 
== Экзамен ==
 
 
Дата: 24.03.2020
 
 
Место: онлайн,
 
 
Сдаем экзамен в гугл формах (три поля в форме) на 1,5 часа
 
 
Вопросы к экзамену:
 
 
•  Граф вычислений, RDD, примеры трансформаций в Apache Spark, accumulator и broadcast переменные
 
 
•  MapReduce. AllReduce в Vowpal Wabbit
 
 
•  Варианты распараллеливания линейных моделей (на одной машине и на кластере). Хэширование признаков
 
 
•  Варианты распараллеливания ALS
 
 
•  Инвертированный индекс для подсчета попарных похожестей на MapReduce
 
 
•  Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE)
 
 
•  Feature binning в градиентном бустинге, процедура выбора лучшего сплита для задачи регрессии (показать, что такой сплит ведет к уменьшению MSE). Варианты распараллеливания градиентного бустинга с feature binning
 
 
•  Варианты распараллеливания градиентного бустинга с feature binning (вывести формулу для регрессии)
 
 
•  MinHash и его связь с мерой Жаккара
 
 
•  Как устроен Bloom Filter с оценкой ошибки
 
 
•  Как работает Count-Min Sketch с выводом ошибки для точечной оценки
 
 
•  LSH для поиска похожих документов по мере Жаккара (с использованием MinHash, описать как работают) с выводом вероятности попасть в кандидаты в зависимости от s
 
 
•  Parameter Server и пример использования для Delayed Block Proximal Gradient.
 
 
•  Как можно параллелить нейронные сети
 
 
В билеты 2 вопроса и 1 задача (на MapReduce)
 
  
 
== Полезные материалы ==
 
== Полезные материалы ==
Строка 148: Строка 97:
 
===Странички прошлых лет===
 
===Странички прошлых лет===
 
http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных
 
http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных
 +
 
http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных_2020
 
http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных_2020

Текущая версия на 19:03, 15 января 2023

О курсе

Курс читается для студентов 4-го курса ПМИ ФКН ВШЭ в 3 модуле. Проводится с 2017 года.

Лектор: Зимовнов Андрей Вадимович

Лекции ПМИ проходят по понедельникам в 11:10 по ссылке.

Вычислительные мощности в облаке Azure для курса предоставила компания Microsoft.

Полезные ссылки

Таблица с оценками: https://docs.google.com/spreadsheets/d/1cdzBaW_k4uzyMDtBijeyjji0o21VhJ3g-mO185vmKso/edit#gid=0

Репозиторий с лекциями на GitHub

Репозиторий с семинарами на GitHub

YouTube канал с записями всех занятий

Самостоятельные задачи cдаются в Dropbox. Дедлайны жесткие. Для каждого семинара своя отдельная ссылка на прием заданий:

Задание Ссылка для сдачи Ссылка на домашнее задание Дата выдачи Дедлайн
Мини домашнее задание 1. Azure & Bash https://www.dropbox.com/request/wLLX3aHRKwahk0ukMYxe https://bit.ly/2NbF2QX 20 января 3 февраля 23:59
Мини домашнее задание 2. Hadoop & Spark https://www.dropbox.com/request/jctWv4RclpbNUr7G4WCX https://bit.ly/3aSQbyd 10 февраля 7 марта 23:59
Мини домашнее задание 3. Classic models https://www.dropbox.com/request/AS0pVq4PVvn8IEk8aHQI https://bit.ly/2ZKYvev 24 февраля 17 марта 23:59
Мини домашнее задание 4. Neural netowrks https://www.dropbox.com/request/lgnAY7cd2gNVTCMFqZY0 https://bit.ly/3lyUns8 18 марта 28 марта 23:59
Мини домашнее задание 5 (бонусное). KNN & Streaming https://www.dropbox.com/request/8xvTfpzu14UVkN6oTf49 Ищите в ноутбуках с последних семинаров 17 марта 28 марта 23:59
Основное домашнее задание https://www.dropbox.com/request/ntCyZLdoaRzUA4GohBEH https://bit.ly/3bAmmmx 24 февраля 28 марта 23:59

Канал в telegram для объявлений: https://t.me/joinchat/RNZgXfAHNbG_biu3

Ошибки в материалах лекций/семинаров/заданий лучше всего оформлять в виде issue на github.

Семинары

Группа Преподаватель Время Аудитория
МОП 171 Космачев Алексей Дмитриевич Среда 14:40 - 16:00 Zoom конференция
МОП 172 Орлов Никита Андреевич Вторник 11:10 - 12:30 Zoom конференция


Консультации

Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.

При необходимости, можно писать на почту или в Telegram:

Алексей – @adkosm

Никита – @naorlov

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Мини домашние задания (4 обязательных и 1 бонусное)
  • Основное домашнее задание

Итоговая оценка вычисляется:

Oитоговая = 0.125*(OМДЗ1 + OМДЗ2 + OМДЗ3 + OМДЗ4) + 0.5*OДЗ

Округление арифметическое.

Правила сдачи заданий

На все домашние задания каждому студенту отводится ~500$ для работы в облаке Azure. Важно останавливать\удалять ресурсы, создаваемые в облаке, так как в противном случае финансов может не хватить для выполнения всех заданий. Полезно при этом овладеть навыком сохранения промежуточных данных в облачном хранилище - это позволит максимально быстро выполнять задания с минимальными финансовыми затратами.

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

Полезные материалы

Книги

  1. Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
  2. Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
  3. Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
  4. Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.

Странички прошлых лет

http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных

http://wiki.cs.hse.ru/Машинное_обучение_на_больших_данных_2020