Прикладные задачи анализа данных (майнор - весна 2018) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(добавлено 4 дз)
м (21.06.2018)
 
(не показано 19 промежуточных версии 3 участников)
Строка 101: Строка 101:
 
'''Семинар''': [https://yadi.sk/d/G-3NVs613SVqXf Дистрибутивная семантика]
 
'''Семинар''': [https://yadi.sk/d/G-3NVs613SVqXf Дистрибутивная семантика]
  
==== Недели 7-10март 2018  ====  
+
==== Неделя 7.  01.03.2018  ====  
  
 +
'''Лекция''': Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели [https://github.com/echernyak/ML-for-compling/blob/master/l7_LM.ipynb (слайды)]
 +
 +
'''Семинар''':  самостоятельная работа
 +
 +
==== Неделя 8.  15.03.2018  ====
 
'''Лекция''': Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели [https://github.com/echernyak/ML-for-compling/blob/master/l7_LM.ipynb (слайды)]
 
'''Лекция''': Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели [https://github.com/echernyak/ML-for-compling/blob/master/l7_LM.ipynb (слайды)]
  
 
'''Семинар''': [https://yadi.sk/d/VENYrFB43TDhhz Классификация и кластеризация текстов]
 
'''Семинар''': [https://yadi.sk/d/VENYrFB43TDhhz Классификация и кластеризация текстов]
 +
 +
==== Неделя 9.  22.03.2018  ====
 +
'''Лекция''': Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели [https://github.com/echernyak/ML-for-compling/blob/master/l7_LM.ipynb (слайды)]
 +
 +
'''Семинар''':  [https://yadi.sk/d/5RmYAwQf3Td3Ee Языковые модели ]
 +
  
 
=== Рекомендуемые ресурсы ===
 
=== Рекомендуемые ресурсы ===
Строка 143: Строка 154:
 
# readability  [https://github.com/buriy/python-readability (link)]
 
# readability  [https://github.com/buriy/python-readability (link)]
  
 +
===05.04.2018===
 +
'''Лекция''':  Поиск частых множеств (товаров) и ассоциативных правил. Алгоритмы. [https://www.dropbox.com/s/y8wl6r6dlc2cih7/PatternMiningIntro_DPO_2018.pdf?dl=0]
  
===5.04.2018===
+
'''Семинар''': Named Entity Recognition [https://yadi.sk/d/DxzzwOWQ3W69Eo]
 
+
Поиск частых множеств (товаров) и ассоциативных правил. Алгоритмы. [https://www.dropbox.com/s/y8wl6r6dlc2cih7/PatternMiningIntro_DPO_2018.pdf?dl=0]
+
  
 
===12.04.2018===
 
===12.04.2018===
 
+
'''Лекция''':  Упражнения для самопроверки [https://www.dropbox.com/s/wnzt48068fv5s1i/Exercises_wo_solutions.pptx?dl=0]
Упражнения для самопроверки [https://www.dropbox.com/s/wnzt48068fv5s1i/Exercises_wo_solutions.pptx?dl=0]
+
 
+
 
Поиск частых множеств (товаров) и ассоциативных правил. Задачи. (см. слайды предыдущего занятия)
 
Поиск частых множеств (товаров) и ассоциативных правил. Задачи. (см. слайды предыдущего занятия)
  
===19.04.2018===
+
'''Семинар''':  Reinforcement Learning [https://github.com/grafft/hse-tasks/tree/master/minor-atda-18/sem10]
 
+
 
+
Рамочная презентация. [https://www.dropbox.com/s/a6q6s1grg0gs4o9/RecSysIntro.pdf?dl=0]
+
  
 +
===19.04.2018===
 +
'''Лекция''': Рамочная презентация. [https://www.dropbox.com/s/a6q6s1grg0gs4o9/RecSysIntro.pdf?dl=0]
 
Case-study 1. Коллаборативная фильтрация: user-based and item-based алгоритмы [https://www.dropbox.com/s/jvmxljjj1wobylc/Case%201.%20%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%20%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B.pdf?dl=0]
 
Case-study 1. Коллаборативная фильтрация: user-based and item-based алгоритмы [https://www.dropbox.com/s/jvmxljjj1wobylc/Case%201.%20%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%20%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B.pdf?dl=0]
  
 +
'''Семинар''':  Reinforcement Learning: нейросетевой подход [https://github.com/grafft/hse-tasks/tree/master/minor-atda-18/sem11]
  
 
===26.04.2018===
 
===26.04.2018===
 
+
'''Лекция''': Case-study 2. Булева матричная факторизация и сингулярное разложение матриц для коллаборативной фильтрации [https://www.dropbox.com/s/f2anmkhlm2b9i7o/Case%202%20Varna%20Boolean%20Matrix%20Factorisation%20for%20Collaborative%20Filtering.pdf?dl=0]
Case-study 2. Булева матричная факторизация и сингулярное разложение матриц для коллаборативной фильтрации [https://www.dropbox.com/s/f2anmkhlm2b9i7o/Case%202%20Varna%20Boolean%20Matrix%20Factorisation%20for%20Collaborative%20Filtering.pdf?dl=0]
+
  
 
Скрипт с примерами SVD и NMF средствами Питона.[https://www.dropbox.com/s/aij1ussi8p26on4/SVD%20%26%20NMF.ipynb?dl=0]
 
Скрипт с примерами SVD и NMF средствами Питона.[https://www.dropbox.com/s/aij1ussi8p26on4/SVD%20%26%20NMF.ipynb?dl=0]
  
 +
'''Семинар''': Спектральная кластеризация [https://yadi.sk/d/oTt7Vkr93UdseH]
  
===10.04.2018===
+
===10.05.2018===
  
Case-study 3. Рекомендация радиостанций. Гибридные рекомендательные системы [https://www.dropbox.com/s/4f8b5o9f0mleiit/Case%203%20Warsaw_FMhostTalk.pdf?dl=0]
+
'''Лекция''':  Case-study 3. Рекомендация радиостанций. Гибридные рекомендательные системы [https://www.dropbox.com/s/4f8b5o9f0mleiit/Case%203%20Warsaw_FMhostTalk.pdf?dl=0]
  
 
Статья [https://www.dropbox.com/s/83vsmjdsiultwxn/1-s2.0-S0957417416300513-main.pdf?dl=0]
 
Статья [https://www.dropbox.com/s/83vsmjdsiultwxn/1-s2.0-S0957417416300513-main.pdf?dl=0]
 +
 +
'''Семинар''':  -
 +
 +
===17.05.2018===
 +
'''Лекция''':  Спектральная кластеризация [https://www.dropbox.com/s/djwu59mhhkcyj05/spectral_clustering_minor.pdf?dl=0]. См. ссылки на основную и дополнительную литературу в слайдах.
 +
 +
'''Семинар''':  Рекомендательные системы [https://yadi.sk/d/SWWrGA0s3VqLER]
 +
 +
 +
[[Category:Майнор "Интеллектуальный анализ данных"]]
 +
 +
 +
===24.05.2018===
 +
'''Лекция''':  Дополнительные модели матричной факторизации для рекомендательных систем [https://www.dropbox.com/s/qm7hpgalzi4z35j/RecSys_MF_2018.pdf?dl=0]. См. ссылки на статьи в слайдах.
 +
 +
* [https://www.dropbox.com/s/44szl9letoy71zo/implicite_als.ipynb?dl=0 Матричная факторизация для случая неявного отклика]
 +
 +
* [https://www.dropbox.com/s/mowpr7cnk84wv5k/ALS-sgd_biases.ipynb?dl=0 Матричная факторизация на основе ALS]
 +
 +
'''Семинар''':  самостоятельная работа
 +
 +
===31.05.2018===
 +
'''Лекция''': Поиск документов почти-дубликатов на основе частых замкнутых множеств признаков [https://www.dropbox.com/s/skek59zw6aewj0n/Frequent%20Itemset%20Mining%20for%20Clustering.pdf?dl=0 Слайды] [https://www.dropbox.com/s/5kqsthrlpep9c4f/fulltext.pdf?dl=0 Статья]
 +
 +
'''Семинар''':  [https://yadi.sk/d/a2ezr-eg3Wjvbf Оптимизация метрик]
 +
 +
 +
===7.06.2018===
 +
 +
'''Лекция''': Поиск частых последовательностей (Sequence Mining) [https://www.dropbox.com/s/f9vf73v1yohs6cz/SeqMining.pdf?dl=0 Слайды]. Case-study: анализ демографических последовательностей [https://www.dropbox.com/s/2lrb4pvee5t2hrm/presentation_muratova.pdf?dl=0 Слайды] [https://www.dropbox.com/s/ibka4qc030g8tg5/SeqDem.pdf?dl=0 Статья]
 +
 +
'''Семинар''': Проводятся консультации для подготовки к экзаменам семинаристами в своих группах.
 +
 +
===14.06.2018===
 +
 +
Занятий нет
 +
 +
===21.06.2018===
 +
 +
Экзамен. Аудитория 5306. Время: 18:10
 +
 +
[https://www.dropbox.com/s/bqv2fcqwd8zxr64/Exam_questions?dl=0 Вопросы по второй части курса (лектор: Игнатов Д.И.) ]
 +
 +
 +
[[Category:Майнор "Интеллектуальный анализ данных"]]

Текущая версия на 18:29, 4 июня 2018

О курсе

Читается для студентов 3 курса в 3-4 модулях.

Лекции проходят по четвергам, 10:30 – 11:50, ауд. 5306 (Шаболовка, 26).

Лекторы:

В 3 модуле: Екатерина Черняк (автоматическая обработка текстов)

В 4 модуле: Дмитрий Игнатов (майнинг данных)


Сдача домашних заданий: в системе Anytask

Канал для оповещений в Telegram


Оценки за модуль NLP

Семинары

Семинары проходят по четвергам (Шаболовка, 26).

Группа Преподаватель Расписание чат группы
ИАД1 Наталия Козловская 12:10 – 13:30, ауд. 3316 ссылка
ИАД2 Иван Смуров 12:10 – 13:30, ауд. 4428 ссылка
ИАД3 Александр Панов 09:00 – 10:20, ауд. 4435
ИАД4 Анна Шишкова 12:10 – 13:00, ауд. 4335 ссылка

Домашние задания

ДЗ 1. Генератор описания погоды: (GitHub)

ДЗ 2. Предсказание цены акции: (GitHub)

Д3 3. Кластеризация изображений: (dropbox)

ДЗ 4. Рекомендательные системы: (Я.Диск)

Система оценок

Результирующая оценка рассчитывается по формуле:

Oитоговая = 0.6 * Oнакопл + 0.4 * Оэкз

Накопленная оценка рассчитывается по формуле:

Oнакопл = 0.7 * Oдз (4 шт) + 0.3 * Oср (2 шт)

Активная работа на семинарах может положительно повлиять на округление оценки в спорных ситуациях.

При накопленное оценке в 8, 9, 10 баллов такая же оценка за экзамен выставляется автоматом.

[Здесь будет ссылка на ведомость, (ведомость)]

Программа

Неделя 1. 18.01.2018

Лекция (Е. Черняк): Введение в автоматическую обработку текстов (слайды)

Семинар: Regexp

Неделя 2. 25.01.2018

Лекция: Морфологический анализ. Скрытый цепи Маркова. (слайды)

Семинар: NLTK

Неделя 3. 01.02.2018

Лекция (И. Смуров): Синтаксический анализ (слайды)

Семинар: Scrapy

Неделя 4. 08.02.2018

Лекция: Векторная модель, снижение размерности в векторной модели. Информационный поиск. Модели скрытых тем. (слайды)

Семинар: Ключевые слова

Неделя 5. 15.02.2018

Лекция: Векторная модель, снижение размерности в векторной модели. Векторное представление слова. Счетные и нейронные модели. (слайды)

Семинар: Модели скрытых тем

Неделя 6. 22.02.2018

Лекция: Классификация текстов. ML и DL методы классификации текстов. (слайды1) (слайды2)

Семинар: Дистрибутивная семантика

Неделя 7. 01.03.2018

Лекция: Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели (слайды)

Семинар: самостоятельная работа

Неделя 8. 15.03.2018

Лекция: Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели (слайды)

Семинар: Классификация и кластеризация текстов

Неделя 9. 22.03.2018

Лекция: Языковые модели. Цепи Маркова, нейронные языковые модели, рекуррентные нейронные языковые модели (слайды)

Семинар: Языковые модели


Рекомендуемые ресурсы

На английском

  • Jurafsky & Martin (link)
  • Курс Лауры Каллмайер по МО для АОТ (link)
  • Курс Нильса Раймерса по DL для АОТ (link)
  • Курс в Оксфорде по DL для АОТ (link)
  • Курс в Стенфорде по DL для AOT (link)
  • Материалы по обучению с подкреплением (Reinforcment Learning) (link)

На русском (и про русский, в основном)

  • НКРЯ (link)
  • Открытый корпус (link)
  • Дистрибутивные семантические модели для русского языка (link)
  • Морфология (link)
  • Синтаксис (link)
  • Томита-парсер (link)
  • Все на свете: (mathlingvo), (nlpub)
  • Text Visualisation browser: (link)

Ссылка на дополнительную литературу:

  • [1] Books on natural language processing
  • [2] Text mining for central banks

Литература

  1. Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural language processing. Vol. 999. Cambridge: MIT press, 1999.
  2. Martin, James H., and Daniel Jurafsky. "Speech and language processing." International Edition 710 (2000): 25.
  3. Cohen, Shay. "Bayesian analysis in natural language processing." Synthesis Lectures on Human Language Technologies 9, no. 2 (2016): 1-274.
  4. Goldberg, Yoav. "Neural Network Methods for Natural Language Processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.

Используемые библиотеки

  1. NLTK (link)
  2. pymorphy2 (link)
  3. pymystem3 (link)
  4. readability (link)

05.04.2018

Лекция: Поиск частых множеств (товаров) и ассоциативных правил. Алгоритмы. [3]

Семинар: Named Entity Recognition [4]

12.04.2018

Лекция: Упражнения для самопроверки [5] Поиск частых множеств (товаров) и ассоциативных правил. Задачи. (см. слайды предыдущего занятия)

Семинар: Reinforcement Learning [6]

19.04.2018

Лекция: Рамочная презентация. [7] Case-study 1. Коллаборативная фильтрация: user-based and item-based алгоритмы [8]

Семинар: Reinforcement Learning: нейросетевой подход [9]

26.04.2018

Лекция: Case-study 2. Булева матричная факторизация и сингулярное разложение матриц для коллаборативной фильтрации [10]

Скрипт с примерами SVD и NMF средствами Питона.[11]

Семинар: Спектральная кластеризация [12]

10.05.2018

Лекция: Case-study 3. Рекомендация радиостанций. Гибридные рекомендательные системы [13]

Статья [14]

Семинар: -

17.05.2018

Лекция: Спектральная кластеризация [15]. См. ссылки на основную и дополнительную литературу в слайдах.

Семинар: Рекомендательные системы [16]


24.05.2018

Лекция: Дополнительные модели матричной факторизации для рекомендательных систем [17]. См. ссылки на статьи в слайдах.

Семинар: самостоятельная работа

31.05.2018

Лекция: Поиск документов почти-дубликатов на основе частых замкнутых множеств признаков Слайды Статья

Семинар: Оптимизация метрик


7.06.2018

Лекция: Поиск частых последовательностей (Sequence Mining) Слайды. Case-study: анализ демографических последовательностей Слайды Статья

Семинар: Проводятся консультации для подготовки к экзаменам семинаристами в своих группах.

14.06.2018

Занятий нет

21.06.2018

Экзамен. Аудитория 5306. Время: 18:10

Вопросы по второй части курса (лектор: Игнатов Д.И.)