Прикладные задачи анализа данных (майнор ИАД)
Содержание
О курсе
Курс читается для студентов 3-го курса майнора ИАД в 3-4 модулях.
Проводится с 2016 года.
Лекции проходят по четвергам в 10:30 (Покровский бульвар, 11).
Полезные ссылки
Репозиторий с материалами на GitHub
Репозиторий с материалами на GitHub 2020
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
Канал в telegram для объявлений: https://telegram.me/hse_minor_intro_dm_2019
Чат в telegram (осторожно, риск флуда и отсутствия ответов на содержательные вопросы): https://t.me/joinchat/A5rlQBSn7ROATFOWGlzRwg
Ссылка на курс в Anytask: https://anytask.org/course/609
Таблица с оценками: https://docs.google.com/spreadsheets/d/1xKah6P9GMiXU2vxjDZKs8gIE0NiA5VXf8Y8F3543VQA/edit?usp=sharing
Семинары
Группа | Преподаватель | Учебный ассистент | Материалы семинаров | Чат | Инвайт в anytask |
---|---|---|---|---|---|
ИАД-1 | Багиян Нерсес | Головина Мария | https://github.com/hse-ds/iad-applied-ds/tree/master/2020/seminars/ | https://t.me/joinchat/Atx7LkjahH5xBDp6TDnAyQ | 5kijbTe |
ИАД-2 | Ковалёв Алексей Константинович | Бурданова Софья Павловны | https://github.com/alexeykkovalev/hse-minor | cDOI8EG | |
ИАД-3 | Скрынник Алексей Александрович | Балабан Ирина Алексеевна | https://github.com/hse-ds/iad-applied-ds/tree/master/2020/seminars/ | https://t.me/joinchat/A98O_Rb0zyaVIw0pJivlTw | h3Zrxuw |
ИАД-4 | Валиуллин Адель Марсович | Тарасевич Владислав Сергеевич | https://github.com/hse-ds/iad-applied-ds/tree/master/2020 | Q5Z8kwR | |
ИАД-5 | Сафронов Василий Вячеславович | Дешеулин Олег Андреевич | https://github.com/hse-ds/iad-applied-ds/tree/master/2020 | https://t.me/pzad_iad_2020 | 9Y9b0sp |
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
- Практические домашние работы на Python
- Контрольная где-то в середине курса
- Письменный экзамен
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э)
ДЗ — средняя оценка за практические домашние задания
ПР — средняя оценка за проверочные работы на семинарах
КР — оценка за контрольную работу
Э — оценка за экзамен
Округление арифметическое.
Правила сдачи заданий
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Лекция 1 (23.01.2020). Рекомендательные системы. Матричные разложения. Обучение разложений: SGD, ALS, HALS. [Конспект]
Лекция 2 (30.01.2020). Неявный фидбек и iALS. Factorization machines. [Конспект]
Лекция 3 (06.02.2020). Метрики качества в рекомендательных системах. [Конспект]
Лекция 4 (13.02.2020). Статистика: напоминание теорвера, генерация случайных чисел, проверка гипотез и зачем она нужна, примеры использования, основные виды гипотез, основные статистические тесты. [Конспект]
Лекция 5 (20.02.2020). Гипотезы, параметрические и немпараметрические критерии [Слайды]
Лекция 6 (27.02.2020). Статистика: A/B-тесты, их дизайн, примеры ошибок [Слайды]
Лекция 7 (05.03.2020). Временные ряды 1 [Запись лекции]
Лекция 8 (12.03.2020). Временные ряды 2 [Запись лекции]
Лекция 9 (19.03.2020). Поиск аномалий [Конспект] [Запись вебинара]
Лекция 10 (26.03.2020). Быстрый поиск ближайших соседей [Конспект] [Запись вебинара] [Конспект с вебинара]
Лекция 11 (02.04.2020). Named entity recognition [Запись вебинара] [Слайды]
Лекция 12 (09.04.2020). Языковые модели [Запись вебинара]
Лекция 13 (16.04.2020). NLP: диалоговые системы [Запись вебинара]
Лекция 14 (07.05.2020). Байесовские методы [Запись вебинара] [Слайды]
Лекция 15 (28.05.2020). RL 1 [Запись вебинара]
Лекция 16 (04.06.2020). RL 2 [Запись вебинара]
Семинары
Практические задания
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
Задание 1. Контест на рекомендации
Вам предстоит поработать с логами рекомендательной системы, где для пользователей даны их сессии — документы, которые им были показаны, и реакция на них (клик или его отсутствие). Также для каждого документа известны его заголовок, содержание и уже подготовленный эмбеддинг для картинки из него. Для каждого пользователя дан тестовый набор документов — нужно для каждого из них предсказать, будет ли сделан клик или нет.
Соревнование google collab-only. Оцениваются только решения, полученные как результат работы ноутбука в коллабе, который загружен в anytask.
Дедлайн: 29 февраля 2020 года 03:00
Ссылка с инвайтом: https://www.kaggle.com/t/e37901b9cb7c45d89e884bdcc9795b0e
Задание 2. A/B тесты
Вам предстоит попрактиковаться в А/Б тестах и применить статистический аппарат, который вы изучали на лекциях и семинарах.
Дедлайн: 08 апреля 2020 года 23:59
Ссылка: https://github.com/hse-ds/iad-applied-ds/blob/master/2020/hw/HW2_final.ipynb
Задание 3. Временные ряды
Вам предстоит поработать с актуальными данными по COVID-19 и предсказать развитие событий c распространением.
Дедлайн: 04 мая 2020 года 23:59
Ссылка: https://github.com/hse-ds/iad-applied-ds/blob/master/2020/hw/HW3.ipynb
Задание 4. NLP
Вам предстоит принять участие в соревновании Jigsaw Multilingual Toxic Comment Classification.
Дедлайн: 09 июня 2020 года 07:00
Ссылка: https://docs.google.com/document/d/1QANEgavWuG843DRYlDvcRTH123dW4dJ7RHIi-slx5M0/edit?usp=sharing
Задание 5. RL
Вам предстоит реализовать алгоритм DQN и решить с помощью него несколько игр Atari.
Дедлайн: 14 июня 2020 года 23:59
Ссылка: https://github.com/hse-ds/iad-applied-ds/blob/master/2020/hw/HW5.ipynb