Прикладные задачи анализа данных (майнор - весна 2018) — различия между версиями
Katya (обсуждение | вклад) (→Семинары) |
м (→21.06.2018) |
||
(не показана одна промежуточная версия 4 участников) | |||
Строка 15: | Строка 15: | ||
[https://t.me/minor2018 Канал для оповещений в Telegram] | [https://t.me/minor2018 Канал для оповещений в Telegram] | ||
+ | |||
+ | |||
+ | [https://docs.google.com/spreadsheets/d/1Yv4vwT2uRpGzfRORH1NCVfAaWPqcEBLk5ybKrj5bRbY/edit?usp=sharing Оценки за модуль NLP] | ||
=== Семинары === | === Семинары === | ||
Строка 24: | Строка 27: | ||
! Группа !! Преподаватель !! Расписание !! чат группы | ! Группа !! Преподаватель !! Расписание !! чат группы | ||
|- | |- | ||
− | | ИАД1 || | + | | ИАД1 || Наталия Козловская || 12:10 – 13:30, ауд. 3316 || [https://t.me/joinchat/B3rxURJauyfLrG168XVAfA ссылка] |
|- | |- | ||
− | | ИАД2 || Иван Смуров || 12:10 – 13:30, ауд. 4428 || | + | | ИАД2 || Иван Смуров || 12:10 – 13:30, ауд. 4428 || [https://t.me/joinchat/GH1hLBCm6iYjd93vNWlLYA ссылка] |
|- | |- | ||
| ИАД3 || Александр Панов || 09:00 – 10:20, ауд. 4435 || | | ИАД3 || Александр Панов || 09:00 – 10:20, ауд. 4435 || | ||
Строка 33: | Строка 36: | ||
|- | |- | ||
|} | |} | ||
− | |||
=== Домашние задания === | === Домашние задания === | ||
ДЗ 1. Генератор описания погоды: [https://github.com/echernyak/minor/blob/master/NLP/hw1.ipynb (GitHub)] | ДЗ 1. Генератор описания погоды: [https://github.com/echernyak/minor/blob/master/NLP/hw1.ipynb (GitHub)] | ||
+ | |||
+ | ДЗ 2. Предсказание цены акции: [https://github.com/echernyak/minor/tree/master/NLP/hw2 (GitHub)] | ||
+ | |||
+ | Д3 3. Кластеризация изображений: [https://www.dropbox.com/sh/9vamc23gmxcjkrq/AABAwq2qp7PTkA2_qMWl1DEGa?dl=0 (dropbox)] | ||
+ | |||
+ | ДЗ 4. Рекомендательные системы: [https://yadi.sk/d/ekgg5-nA3W52YQ (Я.Диск)] | ||
=== Система оценок === | === Система оценок === | ||
Строка 74: | Строка 82: | ||
'''Семинар''': [https://www.dropbox.com/s/qid0ohgzq4holo1/M_sem3.pdf?dl=0 Scrapy] | '''Семинар''': [https://www.dropbox.com/s/qid0ohgzq4holo1/M_sem3.pdf?dl=0 Scrapy] | ||
+ | |||
+ | ==== Неделя 4. 08.02.2018 ==== | ||
+ | |||
+ | '''Лекция''': Векторная модель, снижение размерности в векторной модели. Информационный поиск. Модели скрытых тем. [https://www.dropbox.com/s/kf79mcmiaj7of72/3_VSM.pdf?dl=0 (слайды)] | ||
+ | |||
+ | '''Семинар''': [https://www.dropbox.com/s/xhhna4aav7f0ikx/M_sem4.pdf?dl=0 Ключевые слова] | ||
+ | |||
+ | ==== Неделя 5. 15.02.2018 ==== | ||
+ | |||
+ | '''Лекция''': Векторная модель, снижение размерности в векторной модели. Векторное представление слова. Счетные и нейронные модели. [https://www.dropbox.com/s/j6gsnobrcnyrmvj/5_DS.pdf?dl=0 (слайды)] | ||
+ | |||
+ | '''Семинар''': [https://yadi.sk/d/LB6owaMb3SGu3X Модели скрытых тем] | ||
+ | |||
+ | ==== Неделя 6. 22.02.2018 ==== | ||
+ | |||
+ | '''Лекция''': Классификация текстов. ML и DL методы классификации текстов. [https://github.com/echernyak/ML-for-compling/blob/master/l3_classification.ipynb (слайды1)] [https://github.com/echernyak/ML-for-compling/blob/master/l6_RU_FNN_CNN.ipynb (слайды2)] | ||
+ | |||
+ | '''Семинар''': [https://yadi.sk/d/G-3NVs613SVqXf Дистрибутивная семантика] | ||
+ | |||
+ | ==== Неделя 7. 01.03.2018 ==== | ||
+ | |||
+ | '''Лекция''': Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели [https://github.com/echernyak/ML-for-compling/blob/master/l7_LM.ipynb (слайды)] | ||
+ | |||
+ | '''Семинар''': самостоятельная работа | ||
+ | |||
+ | ==== Неделя 8. 15.03.2018 ==== | ||
+ | '''Лекция''': Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели [https://github.com/echernyak/ML-for-compling/blob/master/l7_LM.ipynb (слайды)] | ||
+ | |||
+ | '''Семинар''': [https://yadi.sk/d/VENYrFB43TDhhz Классификация и кластеризация текстов] | ||
+ | |||
+ | ==== Неделя 9. 22.03.2018 ==== | ||
+ | '''Лекция''': Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели [https://github.com/echernyak/ML-for-compling/blob/master/l7_LM.ipynb (слайды)] | ||
+ | |||
+ | '''Семинар''': [https://yadi.sk/d/5RmYAwQf3Td3Ee Языковые модели ] | ||
+ | |||
=== Рекомендуемые ресурсы === | === Рекомендуемые ресурсы === | ||
Строка 110: | Строка 153: | ||
# pymystem3 [https://github.com/Digsolab/pymystem3 (link)] | # pymystem3 [https://github.com/Digsolab/pymystem3 (link)] | ||
# readability [https://github.com/buriy/python-readability (link)] | # readability [https://github.com/buriy/python-readability (link)] | ||
+ | |||
+ | ===05.04.2018=== | ||
+ | '''Лекция''': Поиск частых множеств (товаров) и ассоциативных правил. Алгоритмы. [https://www.dropbox.com/s/y8wl6r6dlc2cih7/PatternMiningIntro_DPO_2018.pdf?dl=0] | ||
+ | |||
+ | '''Семинар''': Named Entity Recognition [https://yadi.sk/d/DxzzwOWQ3W69Eo] | ||
+ | |||
+ | ===12.04.2018=== | ||
+ | '''Лекция''': Упражнения для самопроверки [https://www.dropbox.com/s/wnzt48068fv5s1i/Exercises_wo_solutions.pptx?dl=0] | ||
+ | Поиск частых множеств (товаров) и ассоциативных правил. Задачи. (см. слайды предыдущего занятия) | ||
+ | |||
+ | '''Семинар''': Reinforcement Learning [https://github.com/grafft/hse-tasks/tree/master/minor-atda-18/sem10] | ||
+ | |||
+ | ===19.04.2018=== | ||
+ | '''Лекция''': Рамочная презентация. [https://www.dropbox.com/s/a6q6s1grg0gs4o9/RecSysIntro.pdf?dl=0] | ||
+ | Case-study 1. Коллаборативная фильтрация: user-based and item-based алгоритмы [https://www.dropbox.com/s/jvmxljjj1wobylc/Case%201.%20%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%20%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B.pdf?dl=0] | ||
+ | |||
+ | '''Семинар''': Reinforcement Learning: нейросетевой подход [https://github.com/grafft/hse-tasks/tree/master/minor-atda-18/sem11] | ||
+ | |||
+ | ===26.04.2018=== | ||
+ | '''Лекция''': Case-study 2. Булева матричная факторизация и сингулярное разложение матриц для коллаборативной фильтрации [https://www.dropbox.com/s/f2anmkhlm2b9i7o/Case%202%20Varna%20Boolean%20Matrix%20Factorisation%20for%20Collaborative%20Filtering.pdf?dl=0] | ||
+ | |||
+ | Скрипт с примерами SVD и NMF средствами Питона.[https://www.dropbox.com/s/aij1ussi8p26on4/SVD%20%26%20NMF.ipynb?dl=0] | ||
+ | |||
+ | '''Семинар''': Спектральная кластеризация [https://yadi.sk/d/oTt7Vkr93UdseH] | ||
+ | |||
+ | ===10.05.2018=== | ||
+ | |||
+ | '''Лекция''': Case-study 3. Рекомендация радиостанций. Гибридные рекомендательные системы [https://www.dropbox.com/s/4f8b5o9f0mleiit/Case%203%20Warsaw_FMhostTalk.pdf?dl=0] | ||
+ | |||
+ | Статья [https://www.dropbox.com/s/83vsmjdsiultwxn/1-s2.0-S0957417416300513-main.pdf?dl=0] | ||
+ | |||
+ | '''Семинар''': - | ||
+ | |||
+ | ===17.05.2018=== | ||
+ | '''Лекция''': Спектральная кластеризация [https://www.dropbox.com/s/djwu59mhhkcyj05/spectral_clustering_minor.pdf?dl=0]. См. ссылки на основную и дополнительную литературу в слайдах. | ||
+ | |||
+ | '''Семинар''': Рекомендательные системы [https://yadi.sk/d/SWWrGA0s3VqLER] | ||
+ | |||
+ | |||
+ | [[Category:Майнор "Интеллектуальный анализ данных"]] | ||
+ | |||
+ | |||
+ | ===24.05.2018=== | ||
+ | '''Лекция''': Дополнительные модели матричной факторизации для рекомендательных систем [https://www.dropbox.com/s/qm7hpgalzi4z35j/RecSys_MF_2018.pdf?dl=0]. См. ссылки на статьи в слайдах. | ||
+ | |||
+ | * [https://www.dropbox.com/s/44szl9letoy71zo/implicite_als.ipynb?dl=0 Матричная факторизация для случая неявного отклика] | ||
+ | |||
+ | * [https://www.dropbox.com/s/mowpr7cnk84wv5k/ALS-sgd_biases.ipynb?dl=0 Матричная факторизация на основе ALS] | ||
+ | |||
+ | '''Семинар''': самостоятельная работа | ||
+ | |||
+ | ===31.05.2018=== | ||
+ | '''Лекция''': Поиск документов почти-дубликатов на основе частых замкнутых множеств признаков [https://www.dropbox.com/s/skek59zw6aewj0n/Frequent%20Itemset%20Mining%20for%20Clustering.pdf?dl=0 Слайды] [https://www.dropbox.com/s/5kqsthrlpep9c4f/fulltext.pdf?dl=0 Статья] | ||
+ | |||
+ | '''Семинар''': [https://yadi.sk/d/a2ezr-eg3Wjvbf Оптимизация метрик] | ||
+ | |||
+ | |||
+ | ===7.06.2018=== | ||
+ | |||
+ | '''Лекция''': Поиск частых последовательностей (Sequence Mining) [https://www.dropbox.com/s/f9vf73v1yohs6cz/SeqMining.pdf?dl=0 Слайды]. Case-study: анализ демографических последовательностей [https://www.dropbox.com/s/2lrb4pvee5t2hrm/presentation_muratova.pdf?dl=0 Слайды] [https://www.dropbox.com/s/ibka4qc030g8tg5/SeqDem.pdf?dl=0 Статья] | ||
+ | |||
+ | '''Семинар''': Проводятся консультации для подготовки к экзаменам семинаристами в своих группах. | ||
+ | |||
+ | ===14.06.2018=== | ||
+ | |||
+ | Занятий нет | ||
+ | |||
+ | ===21.06.2018=== | ||
+ | |||
+ | Экзамен. Аудитория 5306. Время: 18:10 | ||
+ | |||
+ | [https://www.dropbox.com/s/bqv2fcqwd8zxr64/Exam_questions?dl=0 Вопросы по второй части курса (лектор: Игнатов Д.И.) ] | ||
+ | |||
+ | |||
+ | [[Category:Майнор "Интеллектуальный анализ данных"]] |
Текущая версия на 18:29, 4 июня 2018
Содержание
О курсе
Читается для студентов 3 курса в 3-4 модулях.
Лекции проходят по четвергам, 10:30 – 11:50, ауд. 5306 (Шаболовка, 26).
Лекторы:
В 3 модуле: Екатерина Черняк (автоматическая обработка текстов)
В 4 модуле: Дмитрий Игнатов (майнинг данных)
Сдача домашних заданий: в системе Anytask
Канал для оповещений в Telegram
Семинары
Семинары проходят по четвергам (Шаболовка, 26).
Группа | Преподаватель | Расписание | чат группы |
---|---|---|---|
ИАД1 | Наталия Козловская | 12:10 – 13:30, ауд. 3316 | ссылка |
ИАД2 | Иван Смуров | 12:10 – 13:30, ауд. 4428 | ссылка |
ИАД3 | Александр Панов | 09:00 – 10:20, ауд. 4435 | |
ИАД4 | Анна Шишкова | 12:10 – 13:00, ауд. 4335 | ссылка |
Домашние задания
ДЗ 1. Генератор описания погоды: (GitHub)
ДЗ 2. Предсказание цены акции: (GitHub)
Д3 3. Кластеризация изображений: (dropbox)
ДЗ 4. Рекомендательные системы: (Я.Диск)
Система оценок
Результирующая оценка рассчитывается по формуле:
Oитоговая = 0.6 * Oнакопл + 0.4 * Оэкз
Накопленная оценка рассчитывается по формуле:
Oнакопл = 0.7 * Oдз (4 шт) + 0.3 * Oср (2 шт)
Активная работа на семинарах может положительно повлиять на округление оценки в спорных ситуациях.
При накопленное оценке в 8, 9, 10 баллов такая же оценка за экзамен выставляется автоматом.
[Здесь будет ссылка на ведомость, (ведомость)]
Программа
Неделя 1. 18.01.2018
Лекция (Е. Черняк): Введение в автоматическую обработку текстов (слайды)
Семинар: Regexp
Неделя 2. 25.01.2018
Лекция: Морфологический анализ. Скрытый цепи Маркова. (слайды)
Семинар: NLTK
Неделя 3. 01.02.2018
Лекция (И. Смуров): Синтаксический анализ (слайды)
Семинар: Scrapy
Неделя 4. 08.02.2018
Лекция: Векторная модель, снижение размерности в векторной модели. Информационный поиск. Модели скрытых тем. (слайды)
Семинар: Ключевые слова
Неделя 5. 15.02.2018
Лекция: Векторная модель, снижение размерности в векторной модели. Векторное представление слова. Счетные и нейронные модели. (слайды)
Семинар: Модели скрытых тем
Неделя 6. 22.02.2018
Лекция: Классификация текстов. ML и DL методы классификации текстов. (слайды1) (слайды2)
Семинар: Дистрибутивная семантика
Неделя 7. 01.03.2018
Лекция: Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели (слайды)
Семинар: самостоятельная работа
Неделя 8. 15.03.2018
Лекция: Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели (слайды)
Семинар: Классификация и кластеризация текстов
Неделя 9. 22.03.2018
Лекция: Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели (слайды)
Семинар: Языковые модели
Рекомендуемые ресурсы
На английском
- Jurafsky & Martin (link)
- Курс Лауры Каллмайер по МО для АОТ (link)
- Курс Нильса Раймерса по DL для АОТ (link)
- Курс в Оксфорде по DL для АОТ (link)
- Курс в Стенфорде по DL для AOT (link)
- Материалы по обучению с подкреплением (Reinforcment Learning) (link)
На русском (и про русский, в основном)
- НКРЯ (link)
- Открытый корпус (link)
- Дистрибутивные семантические модели для русского языка (link)
- Морфология (link)
- Синтаксис (link)
- Томита-парсер (link)
- Все на свете: (mathlingvo), (nlpub)
- Text Visualisation browser: (link)
Ссылка на дополнительную литературу:
Литература
- Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural language processing. Vol. 999. Cambridge: MIT press, 1999.
- Martin, James H., and Daniel Jurafsky. "Speech and language processing." International Edition 710 (2000): 25.
- Cohen, Shay. "Bayesian analysis in natural language processing." Synthesis Lectures on Human Language Technologies 9, no. 2 (2016): 1-274.
- Goldberg, Yoav. "Neural Network Methods for Natural Language Processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.
Используемые библиотеки
05.04.2018
Лекция: Поиск частых множеств (товаров) и ассоциативных правил. Алгоритмы. [3]
Семинар: Named Entity Recognition [4]
12.04.2018
Лекция: Упражнения для самопроверки [5] Поиск частых множеств (товаров) и ассоциативных правил. Задачи. (см. слайды предыдущего занятия)
Семинар: Reinforcement Learning [6]
19.04.2018
Лекция: Рамочная презентация. [7] Case-study 1. Коллаборативная фильтрация: user-based and item-based алгоритмы [8]
Семинар: Reinforcement Learning: нейросетевой подход [9]
26.04.2018
Лекция: Case-study 2. Булева матричная факторизация и сингулярное разложение матриц для коллаборативной фильтрации [10]
Скрипт с примерами SVD и NMF средствами Питона.[11]
Семинар: Спектральная кластеризация [12]
10.05.2018
Лекция: Case-study 3. Рекомендация радиостанций. Гибридные рекомендательные системы [13]
Статья [14]
Семинар: -
17.05.2018
Лекция: Спектральная кластеризация [15]. См. ссылки на основную и дополнительную литературу в слайдах.
Семинар: Рекомендательные системы [16]
24.05.2018
Лекция: Дополнительные модели матричной факторизации для рекомендательных систем [17]. См. ссылки на статьи в слайдах.
Семинар: самостоятельная работа
31.05.2018
Лекция: Поиск документов почти-дубликатов на основе частых замкнутых множеств признаков Слайды Статья
Семинар: Оптимизация метрик
7.06.2018
Лекция: Поиск частых последовательностей (Sequence Mining) Слайды. Case-study: анализ демографических последовательностей Слайды Статья
Семинар: Проводятся консультации для подготовки к экзаменам семинаристами в своих группах.
14.06.2018
Занятий нет
21.06.2018
Экзамен. Аудитория 5306. Время: 18:10