Прикладные задачи анализа данных (майнор ИАД) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Полезные ссылки)
(Экзамен)
 
(не показано 46 промежуточных версии 7 участников)
Строка 21: Строка 21:
 
Чат в telegram (осторожно, риск флуда и отсутствия ответов на содержательные вопросы): https://t.me/joinchat/A5rlQBSn7ROATFOWGlzRwg
 
Чат в telegram (осторожно, риск флуда и отсутствия ответов на содержательные вопросы): https://t.me/joinchat/A5rlQBSn7ROATFOWGlzRwg
  
Ссылка на курс в Anytask:  
+
Ссылка на курс в Anytask: https://anytask.org/course/609
  
Таблица с оценками:
+
Таблица с оценками: https://docs.google.com/spreadsheets/d/1xKah6P9GMiXU2vxjDZKs8gIE0NiA5VXf8Y8F3543VQA/edit?usp=sharing
  
 
=== Семинары ===
 
=== Семинары ===
Строка 29: Строка 29:
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! Группа !! Преподаватель !! Учебный ассистент !! Материалы семинаров
+
! Группа !! Преподаватель !! Учебный ассистент !! Материалы семинаров !! Чат !! Инвайт в anytask
 
|-
 
|-
| ИАД-1 ||   ||  ||  
+
| ИАД-1 || Багиян Нерсес  ||  Головина Мария || https://github.com/hse-ds/iad-applied-ds/tree/master/2020/seminars/ || https://t.me/joinchat/Atx7LkjahH5xBDp6TDnAyQ || 5kijbTe
 +
|-
 +
| ИАД-2 || Ковалёв Алексей Константинович || Бурданова Софья Павловны || https://github.com/alexeykkovalev/hse-minor || || cDOI8EG
 
|-
 
|-
| ИАД-2 ||  || ||  
+
| ИАД-3 || Скрынник Алексей Александрович || Балабан Ирина Алексеевна || https://github.com/hse-ds/iad-applied-ds/tree/master/2020/seminars/ || https://t.me/joinchat/A98O_Rb0zyaVIw0pJivlTw || h3Zrxuw
 
|-
 
|-
| ИАД-3 || || ||  
+
| ИАД-4 || Валиуллин Адель Марсович || Тарасевич Владислав Сергеевич || https://github.com/hse-ds/iad-applied-ds/tree/master/2020 || || Q5Z8kwR
 
|-
 
|-
| ИАД-4 || ||  ||  
+
| ИАД-5 || Сафронов Василий Вячеславович || Дешеулин Олег Андреевич || https://github.com/hse-ds/iad-applied-ds/tree/master/2020 || https://t.me/pzad_iad_2020 || 9Y9b0sp
|-
+
| ИАД-5 ||  ||   ||  
+
 
|-
 
|-
 
|}
 
|}
Строка 75: Строка 75:
 
== Лекции ==
 
== Лекции ==
  
Лекция 1 (23.01.2020). Рекомендательные системы. Матричные разложения. Обучение разложений: SGD, ALS, HALS. Неявный фидбек и iALS. [[https://github.com/hse-ds/iad-applied-ds/tree/master/2020/lectures Конспект]]
+
'''Лекция 1''' (23.01.2020). Рекомендательные системы. Матричные разложения. Обучение разложений: SGD, ALS, HALS. [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture01-recommender.pdf Конспект]]
 +
 
 +
'''Лекция 2''' (30.01.2020). Неявный фидбек и iALS. Factorization machines. [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture02-recommender.pdf Конспект]]
 +
 
 +
'''Лекция 3''' (06.02.2020). Метрики качества в рекомендательных системах. [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture03-recommender.pdf Конспект]]
 +
 
 +
'''Лекция 4''' (13.02.2020). Статистика: напоминание теорвера, генерация случайных чисел, проверка гипотез и зачем она нужна, примеры использования, основные виды гипотез, основные статистические тесты. [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture04-estimation.pdf Конспект]]
 +
 
 +
'''Лекция 5''' (20.02.2020). Гипотезы, параметрические и немпараметрические критерии [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture05.pdf Слайды]]
 +
 
 +
'''Лекция 6''' (27.02.2020). Статистика: A/B-тесты, их дизайн, примеры ошибок [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture06.pdf Слайды]]
 +
 
 +
'''Лекция 7''' (05.03.2020). Временные ряды 1 [[https://www.youtube.com/watch?v=n3dbymVWlAo&feature=youtu.be Запись лекции]]
 +
 
 +
'''Лекция 8''' (12.03.2020). Временные ряды 2 [[https://www.youtube.com/watch?v=J6dXQVZMiww Запись лекции]]
 +
 
 +
'''Лекция 9''' (19.03.2020). Поиск аномалий [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture09-anomaly.pdf Конспект]] [[https://www.youtube.com/watch?v=DLqFG3dgH-E Запись вебинара]]
 +
 
 +
'''Лекция 10''' (26.03.2020). Быстрый поиск ближайших соседей [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture10-knn.pdf Конспект]] [[https://www.youtube.com/watch?v=MeEZOHSPNuo Запись вебинара]] [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture10-knn-notes.pdf Конспект с вебинара]]
 +
 
 +
'''Лекция 11''' (02.04.2020). Named entity recognition [[https://www.youtube.com/watch?v=4Z0C6tz-4UE Запись вебинара]] [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture11-NER.pdf Слайды]]
 +
 
 +
'''Лекция 12''' (09.04.2020). Языковые модели [[https://www.youtube.com/watch?v=BH2JPtmcW0k Запись вебинара]]
 +
 
 +
'''Лекция 13''' (16.04.2020). NLP: диалоговые системы [[https://youtu.be/8u5_LmgBCKA Запись вебинара]]
 +
 
 +
'''Лекция 14''' (07.05.2020). Байесовские методы [[https://www.youtube.com/watch?v=jjrjDWNTWp0 Запись вебинара]] [[https://github.com/hse-ds/iad-applied-ds/blob/master/2020/lectures/lecture14-bayes.pdf Слайды]]
 +
 
 +
'''Лекция 15''' (28.05.2020). RL 1 [[https://www.youtube.com/watch?v=cOistABAOVY Запись вебинара]]
 +
 
 +
'''Лекция 16''' (04.06.2020). RL 2 [[https://www.youtube.com/watch?v=EbZdxZ-iNZY Запись вебинара]]
  
 
== Семинары ==
 
== Семинары ==
Строка 82: Строка 112:
  
 
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
 
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
 +
 +
===Задание 1. Контест на рекомендации ===
 +
 +
Вам предстоит поработать с логами рекомендательной системы, где для пользователей даны их сессии — документы, которые им были показаны, и реакция на них (клик или его отсутствие). Также для каждого документа известны его заголовок, содержание и уже подготовленный эмбеддинг для картинки из него. Для каждого пользователя дан тестовый набор документов — нужно для каждого из них предсказать, будет ли сделан клик или нет.
 +
 +
Соревнование google collab-only. Оцениваются только решения, полученные как результат работы ноутбука в коллабе, который загружен в anytask.
 +
 +
'''Дедлайн''':  29 февраля 2020 года 03:00
 +
 +
'''Ссылка с инвайтом''': https://www.kaggle.com/t/e37901b9cb7c45d89e884bdcc9795b0e
 +
 +
===Задание 2. A/B тесты===
 +
Вам предстоит попрактиковаться в А/Б тестах и применить статистический аппарат, который вы изучали на лекциях и семинарах.
 +
 +
'''Дедлайн''':  08 апреля 2020 года 23:59
 +
 +
'''Ссылка''': https://github.com/hse-ds/iad-applied-ds/blob/master/2020/hw/HW2_final.ipynb
 +
 +
===Задание 3. Временные ряды===
 +
Вам предстоит поработать с актуальными данными по COVID-19 и предсказать развитие событий c распространением.
 +
 +
'''Дедлайн''':  04 мая 2020 года 23:59
 +
 +
'''Ссылка''': https://github.com/hse-ds/iad-applied-ds/blob/master/2020/hw/HW3.ipynb
 +
 +
===Задание 4. NLP===
 +
Вам предстоит принять участие в соревновании Jigsaw Multilingual Toxic Comment Classification.
 +
 +
'''Дедлайн''':  09 июня 2020 года 07:00
 +
 +
'''Ссылка''': https://docs.google.com/document/d/1QANEgavWuG843DRYlDvcRTH123dW4dJ7RHIi-slx5M0/edit?usp=sharing
 +
 +
===Задание 5. RL===
 +
Вам предстоит реализовать алгоритм DQN и решить с помощью него несколько игр Atari.
 +
 +
'''Дедлайн''':  14 июня 2020 года 23:59
 +
 +
'''Ссылка''': https://github.com/hse-ds/iad-applied-ds/blob/master/2020/hw/HW5.ipynb
  
 
== Контрольная работа ==
 
== Контрольная работа ==
 +
 +
[https://docs.google.com/document/d/1ATYeY9OmbfVVG4izvWcLFhvRA3HkKfU49cJSKPIzmpg/edit?usp=sharing Вопросы для подготовки]
  
 
== Экзамен ==
 
== Экзамен ==
 +
 +
[https://docs.google.com/document/d/1EPSj6D6RQtVJWtkY_t1B7BoDdh6Z7LHBgTH261B25s8/edit?usp=sharing Вопросы для подготовки]
  
 
== Страницы прошлых лет ==
 
== Страницы прошлых лет ==

Текущая версия на 12:51, 15 июня 2020

О курсе

Курс читается для студентов 3-го курса майнора ИАД в 3-4 модулях.

Проводится с 2016 года.

Лекции проходят по четвергам в 10:30 (Покровский бульвар, 11).

Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub

Репозиторий с материалами на GitHub 2020

Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)

Канал в telegram для объявлений: https://telegram.me/hse_minor_intro_dm_2019

Чат в telegram (осторожно, риск флуда и отсутствия ответов на содержательные вопросы): https://t.me/joinchat/A5rlQBSn7ROATFOWGlzRwg

Ссылка на курс в Anytask: https://anytask.org/course/609

Таблица с оценками: https://docs.google.com/spreadsheets/d/1xKah6P9GMiXU2vxjDZKs8gIE0NiA5VXf8Y8F3543VQA/edit?usp=sharing

Семинары

Группа Преподаватель Учебный ассистент Материалы семинаров Чат Инвайт в anytask
ИАД-1 Багиян Нерсес Головина Мария https://github.com/hse-ds/iad-applied-ds/tree/master/2020/seminars/ https://t.me/joinchat/Atx7LkjahH5xBDp6TDnAyQ 5kijbTe
ИАД-2 Ковалёв Алексей Константинович Бурданова Софья Павловны https://github.com/alexeykkovalev/hse-minor cDOI8EG
ИАД-3 Скрынник Алексей Александрович Балабан Ирина Алексеевна https://github.com/hse-ds/iad-applied-ds/tree/master/2020/seminars/ https://t.me/joinchat/A98O_Rb0zyaVIw0pJivlTw h3Zrxuw
ИАД-4 Валиуллин Адель Марсович Тарасевич Владислав Сергеевич https://github.com/hse-ds/iad-applied-ds/tree/master/2020 Q5Z8kwR
ИАД-5 Сафронов Василий Вячеславович Дешеулин Олег Андреевич https://github.com/hse-ds/iad-applied-ds/tree/master/2020 https://t.me/pzad_iad_2020 9Y9b0sp

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
  • Практические домашние работы на Python
  • Контрольная где-то в середине курса
  • Письменный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э)

ДЗ — средняя оценка за практические домашние задания

ПР — средняя оценка за проверочные работы на семинарах

КР — оценка за контрольную работу

Э — оценка за экзамен

Округление арифметическое.

Правила сдачи заданий

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Лекции

Лекция 1 (23.01.2020). Рекомендательные системы. Матричные разложения. Обучение разложений: SGD, ALS, HALS. [Конспект]

Лекция 2 (30.01.2020). Неявный фидбек и iALS. Factorization machines. [Конспект]

Лекция 3 (06.02.2020). Метрики качества в рекомендательных системах. [Конспект]

Лекция 4 (13.02.2020). Статистика: напоминание теорвера, генерация случайных чисел, проверка гипотез и зачем она нужна, примеры использования, основные виды гипотез, основные статистические тесты. [Конспект]

Лекция 5 (20.02.2020). Гипотезы, параметрические и немпараметрические критерии [Слайды]

Лекция 6 (27.02.2020). Статистика: A/B-тесты, их дизайн, примеры ошибок [Слайды]

Лекция 7 (05.03.2020). Временные ряды 1 [Запись лекции]

Лекция 8 (12.03.2020). Временные ряды 2 [Запись лекции]

Лекция 9 (19.03.2020). Поиск аномалий [Конспект] [Запись вебинара]

Лекция 10 (26.03.2020). Быстрый поиск ближайших соседей [Конспект] [Запись вебинара] [Конспект с вебинара]

Лекция 11 (02.04.2020). Named entity recognition [Запись вебинара] [Слайды]

Лекция 12 (09.04.2020). Языковые модели [Запись вебинара]

Лекция 13 (16.04.2020). NLP: диалоговые системы [Запись вебинара]

Лекция 14 (07.05.2020). Байесовские методы [Запись вебинара] [Слайды]

Лекция 15 (28.05.2020). RL 1 [Запись вебинара]

Лекция 16 (04.06.2020). RL 2 [Запись вебинара]

Семинары

Практические задания

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).

Задание 1. Контест на рекомендации

Вам предстоит поработать с логами рекомендательной системы, где для пользователей даны их сессии — документы, которые им были показаны, и реакция на них (клик или его отсутствие). Также для каждого документа известны его заголовок, содержание и уже подготовленный эмбеддинг для картинки из него. Для каждого пользователя дан тестовый набор документов — нужно для каждого из них предсказать, будет ли сделан клик или нет.

Соревнование google collab-only. Оцениваются только решения, полученные как результат работы ноутбука в коллабе, который загружен в anytask.

Дедлайн: 29 февраля 2020 года 03:00

Ссылка с инвайтом: https://www.kaggle.com/t/e37901b9cb7c45d89e884bdcc9795b0e

Задание 2. A/B тесты

Вам предстоит попрактиковаться в А/Б тестах и применить статистический аппарат, который вы изучали на лекциях и семинарах.

Дедлайн: 08 апреля 2020 года 23:59

Ссылка: https://github.com/hse-ds/iad-applied-ds/blob/master/2020/hw/HW2_final.ipynb

Задание 3. Временные ряды

Вам предстоит поработать с актуальными данными по COVID-19 и предсказать развитие событий c распространением.

Дедлайн: 04 мая 2020 года 23:59

Ссылка: https://github.com/hse-ds/iad-applied-ds/blob/master/2020/hw/HW3.ipynb

Задание 4. NLP

Вам предстоит принять участие в соревновании Jigsaw Multilingual Toxic Comment Classification.

Дедлайн: 09 июня 2020 года 07:00

Ссылка: https://docs.google.com/document/d/1QANEgavWuG843DRYlDvcRTH123dW4dJ7RHIi-slx5M0/edit?usp=sharing

Задание 5. RL

Вам предстоит реализовать алгоритм DQN и решить с помощью него несколько игр Atari.

Дедлайн: 14 июня 2020 года 23:59

Ссылка: https://github.com/hse-ds/iad-applied-ds/blob/master/2020/hw/HW5.ipynb

Контрольная работа

Вопросы для подготовки

Экзамен

Вопросы для подготовки

Страницы прошлых лет

2018/19 учебный год

2017/18 учебный год

2016/17 учебный год