Прикладные задачи анализа данных (майнор - весна 2019) — различия между версиями
Panov.ai (обсуждение | вклад) |
Machine (обсуждение | вклад) (→RecSys: Неделя 8. 23.05.2019) |
||
(не показана одна промежуточная версия 4 участников) | |||
Строка 7: | Строка 7: | ||
'''Лекторы:''' | '''Лекторы:''' | ||
− | В 3 модуле: Александр Панов (обучение с подкреплением) | + | В 3 модуле: Александр Панов (обучение с подкреплением) - apanov[at]hse.ru |
В 4 модуле: Дмитрий Игнатов (майнинг данных), Иван Смуров (автоматическая обработка текстов) | В 4 модуле: Дмитрий Игнатов (майнинг данных), Иван Смуров (автоматическая обработка текстов) | ||
[https://t.me/joinchat/AAAAAEj7vNXCzgevidEIEg Канал для оповещений в Telegram] | [https://t.me/joinchat/AAAAAEj7vNXCzgevidEIEg Канал для оповещений в Telegram] | ||
+ | |||
+ | [https://goo.gl/forms/vtohl1tZsxvao13f1 Оставить] анонимный отзыв или предложение для курса. | ||
=== Семинары === | === Семинары === | ||
Строка 19: | Строка 21: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! Группа !! Преподаватель !! Расписание !! | + | ! Группа !! Преподаватель !! Расписание !! Telegram |
|- | |- | ||
− | | ИАД1 || Александр Панов || 09:00 – 10:20, ауд. 4336 || | + | | ИАД1 || Александр Панов || 09:00 – 10:20, ауд. 4336 || [https://t.me/sonyabur Вопросы по семинарам и ДЗ] |
|- | |- | ||
− | | ИАД2 || Алексей Скрынник || 12:10 – 13:30, ауд. | + | | ИАД2 || Алексей Скрынник || 12:10 – 13:30, ауд. 3202 || [https://t.me/joinchat/A98O_RX9s_OUSaEyeOE6qg Чат группы] |
|- | |- | ||
| ИАД3 || Наталия Козловская || 09:00 – 10:20, ауд. 3316 || | | ИАД3 || Наталия Козловская || 09:00 – 10:20, ауд. 3316 || | ||
Строка 35: | Строка 37: | ||
=== Домашние задания === | === Домашние задания === | ||
− | ДЗ 1. Обучение с подкреплением I: | + | ДЗ 1. Обучение с подкреплением I: [https://github.com/grafft/hse-tasks/tree/master/minor-module4/hw1 имитационное обучение], срок - 20.02.2019 23:59, вопросы задавать [https://t.me/purple_frog ассистенту]. |
− | ДЗ 2. Обучение с подкреплением II: | + | ДЗ 2. Обучение с подкреплением II: [https://github.com/grafft/hse-tasks/tree/master/minor-module4/hw2 алгоритм актор-критик], срок - 24.03.2019 23:59, вопросы задавать [https://t.me/sonyabur ассистенту]. |
− | ДЗ 3. Анализ текстов | + | ДЗ 3. Анализ текстов: [https://yadi.sk/d/OUcDK6o3iUZGTw Текстовая классификация], срок - 10.06.2019 09:59, решения присылать на dz3.iad@yandex.ru |
− | + | ||
− | + | ||
=== Система оценок === | === Система оценок === | ||
Строка 54: | Строка 54: | ||
При накопленное оценке в 8, 9, 10 баллов такая же оценка за экзамен выставляется автоматом. | При накопленное оценке в 8, 9, 10 баллов такая же оценка за экзамен выставляется автоматом. | ||
+ | |||
+ | [https://docs.google.com/spreadsheets/d/1gXsuQMNVuC2rsjoIg5sa_1g9uxtmS9DAg8inMHT_wYE/edit?usp=sharing Таблица с оценками] | ||
+ | |||
+ | === Экзамен === | ||
+ | Экзамен пройдет 20 июня 2019 г. в ауд. 3231 с 10 часов. [https://yadi.sk/i/BahvFjhWiRv_Xw Вопросы к экзамену] | ||
=== Программа === | === Программа === | ||
Строка 59: | Строка 64: | ||
==== Неделя 1. 17.01.2019 ==== | ==== Неделя 1. 17.01.2019 ==== | ||
− | '''Лекция''': Введение в обучение с подкреплением. Основные понятия [ | + | '''Лекция''': Введение в обучение с подкреплением. Основные понятия [https://yadi.sk/i/kqbwWX_1sNzkUg (слайды)] |
− | '''Семинар''': [ | + | '''Семинар''': [https://github.com/grafft/hse-tasks/tree/master/minor-module4/seminar1 MDP + CrossEntropy] |
==== Неделя 2. 24.01.2019 ==== | ==== Неделя 2. 24.01.2019 ==== | ||
− | '''Лекция''': Динамическое программирование [ | + | '''Лекция''': Динамическое программирование [https://yadi.sk/i/6mH8sFKfgGY2LA (слайды)] |
− | '''Семинар''': [ | + | '''Семинар''': [https://github.com/grafft/hse-tasks/blob/master/minor-module4/seminar2/sem2_dp.ipynb DP + ADP] |
==== Неделя 3. 31.01.2019 ==== | ==== Неделя 3. 31.01.2019 ==== | ||
− | '''Лекция''': | + | '''Лекция''': Монте-Карло и временные различия [https://yadi.sk/i/fZbj8IpbBW3nIQ (слайды)] |
− | '''Семинар''': [ | + | '''Семинар''': [https://github.com/grafft/hse-tasks/blob/master/minor-module4/seminar3/sem3_qlearn.ipynb TD + Q-learning] |
==== Неделя 4. 07.02.2019 ==== | ==== Неделя 4. 07.02.2019 ==== | ||
− | + | Занятия перенесены. | |
− | + | ||
− | + | ||
==== Неделя 5. 14.02.2019 ==== | ==== Неделя 5. 14.02.2019 ==== | ||
− | '''Лекция''': | + | '''Лекция''': Аппроксимация функции полезности [https://yadi.sk/i/tlVbPXY1rvC-Kw (слайды)] |
− | '''Семинар''': [ | + | '''Семинар''': [https://github.com/grafft/hse-tasks/tree/master/minor-module4/seminar4 DQN] |
==== Неделя 6. 21.02.2019 ==== | ==== Неделя 6. 21.02.2019 ==== | ||
− | '''Лекция''': Иерархическое обучение с подкреплением [ | + | '''Лекция''': Иерархическое обучение с подкреплением [https://yadi.sk/i/Qpv09MbQJdNTAQ (слайды)] |
− | '''Семинар''': [ | + | '''Семинар''': [https://github.com/grafft/hse-tasks/blob/master/minor-module4/seminar5/sem5_options.ipynb Options] |
==== Неделя 7. 28.02.2019 ==== | ==== Неделя 7. 28.02.2019 ==== | ||
− | '''Лекция''': | + | '''Лекция''': Градиент стратегии [https://yadi.sk/i/N37h4VH2Oa7Q1w (слайды)] |
− | '''Семинар''': [ | + | '''Семинар''': [https://github.com/grafft/hse-tasks/blob/master/minor-module4/seminar6/sem6_pg.ipynb Vanilla PG] |
==== Неделя 8. 07.03.2019 ==== | ==== Неделя 8. 07.03.2019 ==== | ||
− | '''Лекция''': | + | '''Лекция''': Актор-критик [https://yadi.sk/i/fTtRg5QTxr0yYA (слайды)] |
− | '''Семинар''': [ | + | '''Семинар''': [https://github.com/grafft/hse-tasks/blob/master/minor-module4/seminar7/sem7_ac.ipynb ActorCritic] |
==== Неделя 9. 14.03.2019 ==== | ==== Неделя 9. 14.03.2019 ==== | ||
− | '''Лекция''': Обучение | + | '''Лекция''': Обучение и планирование [https://yadi.sk/i/_K-rive0oythxg (слайды)] |
− | '''Семинар''': [ | + | '''Семинар''': [https://github.com/grafft/hse-tasks/tree/master/minor-module4/seminar8 Dyna] |
==== Неделя 10. 21.03.2019 ==== | ==== Неделя 10. 21.03.2019 ==== | ||
− | '''Лекция''': | + | '''Лекция''': Обучение в частично-наблюдаемой среде [https://yadi.sk/i/v7pHOgTKt2oj_Q (слайды)] |
+ | |||
+ | '''Семинар''': | ||
+ | |||
+ | |||
+ | ==== NLP: Неделя 1. 04.04.2019 ==== | ||
+ | |||
+ | '''Лекция''': NLP: введение, базовые элементы пайплайна [https://yadi.sk/i/i9Qh5YTWCjlj0A (слайды)] | ||
+ | |||
+ | '''Семинар''': [https://yadi.sk/d/bN-HPvFzPF9IIQ Sem_tokenize_morph] | ||
+ | |||
+ | ==== NLP: Недели 2-3. 11.04.2019, 18.04.2019 ==== | ||
+ | |||
+ | '''Лекции''': Векторные признаки в NLP: От мешка слов к языковым моделям [https://yadi.sk/i/G9Ni7Otf5D1_Hw (слайды)] | ||
+ | |||
+ | '''Семинары''': [https://yadi.sk/d/y4qxxPkUts7sbg Sem_emb_lm] | ||
+ | |||
+ | ==== NLP: Неделя 4. 25.04.2019 ==== | ||
+ | |||
+ | '''Лекция''': NER:Извлечение именованных сущностей [https://yadi.sk/i/9ZpzDL6bP69mUg (слайды)] | ||
+ | |||
+ | '''Семинар''': [https://yadi.sk/d/ZO5dTTfWzFitQg Sem_NER] | ||
+ | |||
+ | ==== NLP: Неделя 5. 16.05.2019 ==== | ||
+ | |||
+ | '''Лекция''': Текстовая классификация [https://yadi.sk/d/Y1rLhNRGFpq6WQ (слайды)] | ||
+ | |||
+ | '''Семинар''': [https://yadi.sk/d/D17JFFQLhRtNeg sem_classification] | ||
+ | |||
+ | ==== NLP: Неделя 6. 23.05.2019 ==== | ||
+ | |||
+ | '''Лекция''': Машинный перевод [https://yadi.sk/i/I6MJ8JGbYp825A (слайды)] | ||
+ | |||
+ | '''Семинар''': [https://yadi.sk/d/Ps0RxIFuLMFG5w Sem_MT] | ||
+ | |||
+ | |||
+ | ==== Data Mining: Неделя 7. 23.05.2019 ==== | ||
+ | |||
+ | '''Лекция''': 1. Поиск частых множества и ассоциативных правил. Меры интересности: поддержка (support) и достовреность (confidence). Алгоритм Apriori. Примеры прикладных задач. [https://www.dropbox.com/s/nym660ufxw01imy/PatternMiningIntro_2019.pdf?dl=0 (слайды)] | ||
+ | |||
+ | '''Семинар''': [https://www.dropbox.com/s/t3vvcm0po9stswc/ARFIM.ipynb?dl=0 requires Orange 2.7] [https://www.dropbox.com/s/2pukzutj6fhn40t/market-basket.basket?dl=0 data] [https://www.dropbox.com/s/4ycaqn1ld4svndi/ARFIM.ows?dl=0 Orange 2.7 scheme] [https://www.dropbox.com/s/jg506wwnyeersoj/Exercises.pdf?dl=0 Exercises] | ||
+ | |||
+ | |||
+ | ==== RecSys: Неделя 8. 23.05.2019 ==== | ||
+ | |||
+ | '''Лекция''': Типы рекомендательных систем (РС). Коллаборативная фильтрация. Подход на основе сходства по пользователям. Подход на основе сходства по объектам рекомендации. Меры сходства для РС. Методика тестирования рекомендательных систем. [https://www.dropbox.com/s/a5xauz6i3zvh9nm/RecSys_course.pdf?dl=0 (слайды)] | ||
+ | |||
+ | '''Семинар''': [https://www.dropbox.com/s/le1a32x466r3fae/HW_assignment_1_modified_ENG.ipynb?dl=0 User-based and item-based notebook] | ||
+ | |||
+ | ==== RecSys: Неделя 9. 23.05.2019 ==== | ||
+ | |||
+ | '''Лекция''': Матричная факторизация для рекомендательных систем. SVD и его расширения (SVD++ и timeSVD). Случай неявного отлика (ALS подход). Неотрицательная матричная факторизация. Факторизационные машины и их связь с SVD. [https://www.dropbox.com/s/5fn5bsjgd3wwfcz/RecSys_MF_2019.pdf?dl=0 (слайды)] | ||
− | '''Семинар''': [ | + | '''Семинар''': [https://www.dropbox.com/s/aij1ussi8p26on4/SVD%20%26%20NMF.ipynb?dl=0 SVD & NMF examples – notebook] |
=== Рекомендуемые ресурсы и литература=== | === Рекомендуемые ресурсы и литература=== | ||
Обучение с подкреплением: | Обучение с подкреплением: | ||
− | * Книга Sutton, Barto Reinforcement learning: An | + | * Книга Sutton, Barto Reinforcement learning: An Introdu [http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html (ссылка)] |
* Курс от Яндекса [https://github.com/yandexdataschool/Practical_RL (ссылка)] | * Курс от Яндекса [https://github.com/yandexdataschool/Practical_RL (ссылка)] | ||
* Идеи нейрофизиологии и психологии [http://www.scholarpedia.org/article/Reinforcement_learning (ссылка)] | * Идеи нейрофизиологии и психологии [http://www.scholarpedia.org/article/Reinforcement_learning (ссылка)] | ||
Строка 130: | Строка 184: | ||
* Курс Саттона [https://drive.google.com/drive/folders/0B3w765rOKuKANmxNbXdwaE1YU1k (ссылка)] | * Курс Саттона [https://drive.google.com/drive/folders/0B3w765rOKuKANmxNbXdwaE1YU1k (ссылка)] | ||
* Материалы OpenAI [https://spinningup.openai.com/en/latest/index.html (ссылка)] | * Материалы OpenAI [https://spinningup.openai.com/en/latest/index.html (ссылка)] | ||
+ | * Репозиторий различных материалов по RL [https://github.com/aikorea/awesome-rl (ссылка)] |
Текущая версия на 16:42, 14 июня 2019
Содержание
- 1 О курсе
- 2 Семинары
- 3 Домашние задания
- 4 Система оценок
- 5 Экзамен
- 6 Программа
- 6.1 Неделя 1. 17.01.2019
- 6.2 Неделя 2. 24.01.2019
- 6.3 Неделя 3. 31.01.2019
- 6.4 Неделя 4. 07.02.2019
- 6.5 Неделя 5. 14.02.2019
- 6.6 Неделя 6. 21.02.2019
- 6.7 Неделя 7. 28.02.2019
- 6.8 Неделя 8. 07.03.2019
- 6.9 Неделя 9. 14.03.2019
- 6.10 Неделя 10. 21.03.2019
- 6.11 NLP: Неделя 1. 04.04.2019
- 6.12 NLP: Недели 2-3. 11.04.2019, 18.04.2019
- 6.13 NLP: Неделя 4. 25.04.2019
- 6.14 NLP: Неделя 5. 16.05.2019
- 6.15 NLP: Неделя 6. 23.05.2019
- 6.16 Data Mining: Неделя 7. 23.05.2019
- 6.17 RecSys: Неделя 8. 23.05.2019
- 6.18 RecSys: Неделя 9. 23.05.2019
- 7 Рекомендуемые ресурсы и литература
О курсе
Читается для студентов 3 курса в 3-4 модулях.
Лекции проходят по четвергам, 10:30 – 11:50, ауд. 5306 (Шаболовка, 26).
Лекторы:
В 3 модуле: Александр Панов (обучение с подкреплением) - apanov[at]hse.ru
В 4 модуле: Дмитрий Игнатов (майнинг данных), Иван Смуров (автоматическая обработка текстов)
Канал для оповещений в Telegram
Оставить анонимный отзыв или предложение для курса.
Семинары
Семинары проходят по четвергам (Шаболовка, 26).
Группа | Преподаватель | Расписание | Telegram |
---|---|---|---|
ИАД1 | Александр Панов | 09:00 – 10:20, ауд. 4336 | Вопросы по семинарам и ДЗ |
ИАД2 | Алексей Скрынник | 12:10 – 13:30, ауд. 3202 | Чат группы |
ИАД3 | Наталия Козловская | 09:00 – 10:20, ауд. 3316 | |
ИАД4 | Дмитрий Светличный | 09:00 – 10:20, ауд. 4335 | |
ИАД5 | Дмитрий Светличный | 12:10 – 13:30, ауд. 4335 |
Домашние задания
ДЗ 1. Обучение с подкреплением I: имитационное обучение, срок - 20.02.2019 23:59, вопросы задавать ассистенту.
ДЗ 2. Обучение с подкреплением II: алгоритм актор-критик, срок - 24.03.2019 23:59, вопросы задавать ассистенту.
ДЗ 3. Анализ текстов: Текстовая классификация, срок - 10.06.2019 09:59, решения присылать на dz3.iad@yandex.ru
Система оценок
Результирующая оценка рассчитывается по формуле:
Oитоговая = 0.6 * Oнакопл + 0.4 * Оэкз
Накопленная оценка рассчитывается по формуле:
Oнакопл = 0.6 * OДЗ (4 шт) + 0.2 * Oауд + 0.2 * Oколл
При накопленное оценке в 8, 9, 10 баллов такая же оценка за экзамен выставляется автоматом.
Экзамен
Экзамен пройдет 20 июня 2019 г. в ауд. 3231 с 10 часов. Вопросы к экзамену
Программа
Неделя 1. 17.01.2019
Лекция: Введение в обучение с подкреплением. Основные понятия (слайды)
Семинар: MDP + CrossEntropy
Неделя 2. 24.01.2019
Лекция: Динамическое программирование (слайды)
Семинар: DP + ADP
Неделя 3. 31.01.2019
Лекция: Монте-Карло и временные различия (слайды)
Семинар: TD + Q-learning
Неделя 4. 07.02.2019
Занятия перенесены.
Неделя 5. 14.02.2019
Лекция: Аппроксимация функции полезности (слайды)
Семинар: DQN
Неделя 6. 21.02.2019
Лекция: Иерархическое обучение с подкреплением (слайды)
Семинар: Options
Неделя 7. 28.02.2019
Лекция: Градиент стратегии (слайды)
Семинар: Vanilla PG
Неделя 8. 07.03.2019
Лекция: Актор-критик (слайды)
Семинар: ActorCritic
Неделя 9. 14.03.2019
Лекция: Обучение и планирование (слайды)
Семинар: Dyna
Неделя 10. 21.03.2019
Лекция: Обучение в частично-наблюдаемой среде (слайды)
Семинар:
NLP: Неделя 1. 04.04.2019
Лекция: NLP: введение, базовые элементы пайплайна (слайды)
Семинар: Sem_tokenize_morph
NLP: Недели 2-3. 11.04.2019, 18.04.2019
Лекции: Векторные признаки в NLP: От мешка слов к языковым моделям (слайды)
Семинары: Sem_emb_lm
NLP: Неделя 4. 25.04.2019
Лекция: NER:Извлечение именованных сущностей (слайды)
Семинар: Sem_NER
NLP: Неделя 5. 16.05.2019
Лекция: Текстовая классификация (слайды)
Семинар: sem_classification
NLP: Неделя 6. 23.05.2019
Лекция: Машинный перевод (слайды)
Семинар: Sem_MT
Data Mining: Неделя 7. 23.05.2019
Лекция: 1. Поиск частых множества и ассоциативных правил. Меры интересности: поддержка (support) и достовреность (confidence). Алгоритм Apriori. Примеры прикладных задач. (слайды)
Семинар: requires Orange 2.7 data Orange 2.7 scheme Exercises
RecSys: Неделя 8. 23.05.2019
Лекция: Типы рекомендательных систем (РС). Коллаборативная фильтрация. Подход на основе сходства по пользователям. Подход на основе сходства по объектам рекомендации. Меры сходства для РС. Методика тестирования рекомендательных систем. (слайды)
Семинар: User-based and item-based notebook
RecSys: Неделя 9. 23.05.2019
Лекция: Матричная факторизация для рекомендательных систем. SVD и его расширения (SVD++ и timeSVD). Случай неявного отлика (ALS подход). Неотрицательная матричная факторизация. Факторизационные машины и их связь с SVD. (слайды)
Семинар: SVD & NMF examples – notebook
Рекомендуемые ресурсы и литература
Обучение с подкреплением:
- Книга Sutton, Barto Reinforcement learning: An Introdu (ссылка)
- Курс от Яндекса (ссылка)
- Идеи нейрофизиологии и психологии (ссылка)
- Глубокое обучение с подкреплением (ссылка)
- Лекции от Berkley (ссылка)
- Лекции от University of Edinburg (ссылка)
- Лекции Дэвида Сильвера (ссылка)
- Курс Паскаля Попарта (ссылка)
- Курс Саттона (ссылка)
- Материалы OpenAI (ссылка)
- Репозиторий различных материалов по RL (ссылка)