Майнор Интеллектуальный анализ данных/Прикладные задачи анализа данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(15.06.2017)
 
(не показана одна промежуточная версия 5 участников)
Строка 2: Строка 2:
  
 
Преподаватели: Д. И. Игнатов, Е. Л. Черняк
 
Преподаватели: Д. И. Игнатов, Е. Л. Черняк
 +
 +
<big>'''ВНИМАНИЕ! 
 +
 +
15.06 лекция не состоится!
 +
 +
В группах ИАД 2, 3, 4 15.06 консультация с 13-30 до 15-00'''
 +
</big>
  
 
Домашние задания можно выполнять индивидуально или в группах по два человека. Отчет по домашнему заданию отправляйте по адресу: iad.hse@yandex.ru , тему письма сформатируйте так: ИАД-X ДЗ-Y Name1 Name2, где X – номер группы,  Y – номер домашнего задания, а Name1 Name2 - ваши фамилии (или Name1, если вы делаете домашнее задание самостоятельно) .  
 
Домашние задания можно выполнять индивидуально или в группах по два человека. Отчет по домашнему заданию отправляйте по адресу: iad.hse@yandex.ru , тему письма сформатируйте так: ИАД-X ДЗ-Y Name1 Name2, где X – номер группы,  Y – номер домашнего задания, а Name1 Name2 - ваши фамилии (или Name1, если вы делаете домашнее задание самостоятельно) .  
Строка 15: Строка 22:
 
* Дедлайн по 4 домашнему заданию: все группы -- до 23:59 6.04
 
* Дедлайн по 4 домашнему заданию: все группы -- до 23:59 6.04
  
* Дедлайн по 5 домашнему заданию: все группы -- до 23:59 13.04
+
* Дедлайн по 5 домашнему заданию: все группы -- до 23:59 16.04
  
* Дедлайн по 5 техническому заданию по проекту: все группы -- до 23:59 13.04
+
* Дедлайн по техническому заданию по проекту: все группы, кроме ИАД-6 -- до 23:59 13.04, ИАД-6 -- до 23:59 20.04
 +
 
 +
* Дедлайн по отчету проекту: все группы -- до 23:59 14.06
  
 
Отчет по ДЗ состоит из трех частей: содержательный отчет, код и данные. Первые две части можно совместить в ipython notebook.  
 
Отчет по ДЗ состоит из трех частей: содержательный отчет, код и данные. Первые две части можно совместить в ipython notebook.  
Строка 25: Строка 34:
 
* [https://docs.google.com/spreadsheets/d/1-PdjLqURNCGConkDpjr2xnJvVNv8CyOZgCuav3wYjG0/edit?usp=sharing ДЗ-2]
 
* [https://docs.google.com/spreadsheets/d/1-PdjLqURNCGConkDpjr2xnJvVNv8CyOZgCuav3wYjG0/edit?usp=sharing ДЗ-2]
 
* [https://docs.google.com/spreadsheets/d/1rkaJ30qxvQ1tfZ_lUFnkWaq9ic0lUVfRlL86ZvWUgOQ/edit?usp=sharing ДЗ-3]
 
* [https://docs.google.com/spreadsheets/d/1rkaJ30qxvQ1tfZ_lUFnkWaq9ic0lUVfRlL86ZvWUgOQ/edit?usp=sharing ДЗ-3]
 +
* [https://docs.google.com/spreadsheets/d/19TNZzu-MQ6K-Ib4rALNCz8V7tQE1Y-PBMRt47lrDHvg/edit?usp=sharing ДЗ-4]
 +
* [https://docs.google.com/spreadsheets/d/1hClNqgiGRU0QrBsR7BN3TzPM5JwAE7qI7XVK1gYNrsk/edit?usp=sharing ДЗ-5]
 +
* [https://docs.google.com/spreadsheets/d/1j0IYcG6-mbpBsDaRehaLgGXzLxzdJkqZlB9fjgTy2qE/edit?usp=sharing оценки за ТЗ]
 +
 +
[https://www.dropbox.com/s/a42xl06dctn3h17/Eng-IndGroupTask_KCh.pdf?dl=0(NEW) Инструкции по выполнению проекта]
 +
 +
Автоматы по курсу: средняя оценка за домашние задания >= 8, оценка за ТЗ = 1, оценка за отчет по проекту >= 8
 +
 +
[https://docs.google.com/spreadsheets/d/1MH4h7iksglbgBxI6UYhb7BcftFlCw7yiyVMsSxBx5h8/edit?usp=sharing Итоговые оценки]
  
 
== Материалы занятий ==
 
== Материалы занятий ==
Строка 41: Строка 59:
 
=== 02.01.2017 ===  
 
=== 02.01.2017 ===  
  
[https://www.dropbox.com/s/asfogalio61p7yz/2017-02-04-140358.zip?dl=0 Лекции 3 и 4. Синтаксический анализ. Векторная модель]
+
[https://www.dropbox.com/sh/v2mpmama3v4dy7e/AAB2phSh8jUtnsUlGN7qztRGa?dl=0 Лекция 3 Векторная модель]
 +
 
 +
[https://www.dropbox.com/s/x4a55crhvtuflti/2_syntax.pdf?dl=0 | Лекция 4 Синтаксис]
  
 
[https://www.dropbox.com/s/inelv0f8a3rptws/2017-02-04-140526.txt?dl=0 Практическое занятие 2. Туториалы и полезные ссылки]
 
[https://www.dropbox.com/s/inelv0f8a3rptws/2017-02-04-140526.txt?dl=0 Практическое занятие 2. Туториалы и полезные ссылки]
Строка 59: Строка 79:
 
[https://www.dropbox.com/s/otnidq7fvly8hwp/hw3_data.zip?dl=0 Данные для Домашнего задания З]
 
[https://www.dropbox.com/s/otnidq7fvly8hwp/hw3_data.zip?dl=0 Данные для Домашнего задания З]
  
[https://www.dropbox.com/s/ypmfmeyurjwflpg/hw3.pdf?dl=0?dl=0 Домашнее задание 3]
+
[https://www.dropbox.com/s/clgiw5kcvgz652q/hw3.pdf?dl=0 Домашнее задание 3]
  
 
[https://github.com/fchollet/keras-resources Туториалы по keras]
 
[https://github.com/fchollet/keras-resources Туториалы по keras]
Строка 83: Строка 103:
 
=== 16.03.2017 ===
 
=== 16.03.2017 ===
  
 +
[https://www.dropbox.com/s/f9vf73v1yohs6cz/SeqMining.pdf?dl=0 Лекция 7. Поиск частых последовательностей (Sequence mining)]
  
 
(UPD) [https://www.dropbox.com/s/4rhvccd4cofg3ul/HW_FIM_FCA_bach4_2017.pdf?dl=0 Домашнее задание 4]
 
(UPD) [https://www.dropbox.com/s/4rhvccd4cofg3ul/HW_FIM_FCA_bach4_2017.pdf?dl=0 Домашнее задание 4]
  
 
(UPD) [https://www.dropbox.com/s/a0fkxjputm6397n/HW_SEQ_FCA_bach4_2017.pdf?dl=0 Домашнее задание  5]
 
(UPD) [https://www.dropbox.com/s/a0fkxjputm6397n/HW_SEQ_FCA_bach4_2017.pdf?dl=0 Домашнее задание  5]
 
  
 
=== 23.03.2017 ===
 
=== 23.03.2017 ===
  
 
[https://www.dropbox.com/s/cen05xxoze6s5nv/decision_trees_inclass2.ipynb?dl=0 Лабораторная по деревьям решений]
 
[https://www.dropbox.com/s/cen05xxoze6s5nv/decision_trees_inclass2.ipynb?dl=0 Лабораторная по деревьям решений]
 +
 +
[https://www.dropbox.com/s/hk6r7co0ax05fjo/presentation_muratova.pptx?dl=0 Лекция 8. Майнинг последовательностей для демографических данных]
 +
 +
=== 06.04.2017 ===
 +
 +
[https://www.dropbox.com/s/a5xauz6i3zvh9nm/RecSys_course.pdf?dl=0 Рамочная презентация: введение в рекомендательные системы]
 +
 +
[https://www.dropbox.com/s/2476y3ppddc8vvn/Case%201.%20%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%20%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B.ppt?dl=0 Case study 1. Подходы на основе сходства по пользователям и предметам рекомендации для коллаборативной фильтрации. Оценка качества на основе бимодального скользящего контроля.]
 +
 +
[https://www.dropbox.com/s/2vxwzj6z2eqemk5/HW_assignment_1.ipynb?dl=0 Скрипт для работы в классе и первая часть домашнего задания]
 +
 +
=== 13.04.2017 ===
 +
 +
Матричная факторизация в задаче коллаборативной фильтрации (SVD, NMF, BMF). [https://www.dropbox.com/s/a5xauz6i3zvh9nm/RecSys_course.pdf?dl=0 Case-study 2.]
 +
 +
[https://www.dropbox.com/s/aij1ussi8p26on4/SVD%20%26%20NMF.ipynb?dl=0 Скрипт на Питоне для SVD и NMF.]
 +
 +
=== 20.04.2017 ===
 +
 +
Гибридные рекомендательные системы на примере рекомендаций онлайн-радиостанций.
 +
 +
[https://www.dropbox.com/s/87rqmqrk5nz7sxv/Case%203%20Warsaw_FMhostTalk.pptx?dl=0 Case-study 3]
 +
 +
[https://www.dropbox.com/s/5pe2a3lrr6moccw/surprise_test.ipynb?dl=0 Surprise test (пример работы с библиотекой рекомендательных систем в Python)]
 +
 +
=== 27.04.2017 ===
 +
 +
 +
[https://www.dropbox.com/s/72fb17d99ib59h1/spectral%20clustering.pdf?dl=0 Спектральная кластеризация для анализа Интернет-данных]
 +
 +
 +
=== 11.05.2017 ===
 +
 +
[https://www.dropbox.com/sh/y08wuo6p6la1nnn/AAB78OebRnRDsU5M0Jk4_wPCa?dl=0 Лабораторная работа по SNA]
 +
 +
[https://www.dropbox.com/s/jkttqdorrzrb51u/DM09-09-Webmining.pdf?dl=0 Лекция про ссылочное ранжирование]
 +
 +
Материал для самостоятельного чтения:
 +
 +
* [http://www.mmds.org/ Leskovec et al., глава 5 книги и слайды]. 
 +
 +
* [http://www.dataminingbook.info/pmwiki.php/Main/BookPathUploads?action=downloadman&upname=book-20160121.pdf Zaki & Meira, стр. 104-116 (Web centralities)]
 +
 +
=== 18.05.2017 ===
 +
 +
<s>18.05 лекция перенесена в ауд. 5307, Шаболовка 26</s>
 +
 +
 +
'''ВНИМАНИЕ! Занятия 18 мая ОТМЕНЯЮТСЯ!'''
 +
 +
 +
=== 25.05.2017 ===
 +
 +
 +
[https://www.dropbox.com/s/iiqk2xvm3p37myb/Clustering.pdf?dl=0 Методы кластеризации. DBScan и Mean-Shift (Denclue) ]
 +
 +
=== 01.06.2017 ===
 +
 +
[https://yadi.sk/i/PSgr-h2Z3JipaD Распознавание изображений]
 +
 +
 +
 +
=== 15.06.2017 ===
 +
 +
15.06 лекция не состоится!
 +
 +
В группах ИАД 2, 3, 4 15.06 консультация с 13-30 до 15-00
 +
 +
 +
=== 22.06.2017 ===
 +
 +
Итоговый экзамен в виде защиты проектов и собеседования по курсу.
 +
 +
Адрес: ауд. 3316 Шаболовка ул., д. 26
 +
 +
Команда защищает свой проект перед преподавателем курса предпочтительно со своим ноутбуком.

Текущая версия на 01:22, 22 июня 2017

Материалы курса "Прикладные задачи анализа данных"

Преподаватели: Д. И. Игнатов, Е. Л. Черняк

ВНИМАНИЕ!

15.06 лекция не состоится!

В группах ИАД 2, 3, 4 15.06 консультация с 13-30 до 15-00

Домашние задания можно выполнять индивидуально или в группах по два человека. Отчет по домашнему заданию отправляйте по адресу: iad.hse@yandex.ru , тему письма сформатируйте так: ИАД-X ДЗ-Y Name1 Name2, где X – номер группы, Y – номер домашнего задания, а Name1 Name2 - ваши фамилии (или Name1, если вы делаете домашнее задание самостоятельно) .

Дедлайны домашних заданий в списке ниже. Если вы сдаете домашнее задание после дедлайна, то оценка снижается на 10% за каждый день опоздания.

  • Дедлайн по 1 домашнему заданию: все группы -- до 23:59 9.02, кроме ИАД-2 -- до 23:59 16.02.
  • Дедлайн по 2 домашнему заданию: все группы -- до 23:59 25.02 (внимание, ДЗ обновлено!!!)
  • Дедлайн по 3 домашнему заданию: все группы -- до 23:59 9.03
  • Дедлайн по 4 домашнему заданию: все группы -- до 23:59 6.04
  • Дедлайн по 5 домашнему заданию: все группы -- до 23:59 16.04
  • Дедлайн по техническому заданию по проекту: все группы, кроме ИАД-6 -- до 23:59 13.04, ИАД-6 -- до 23:59 20.04
  • Дедлайн по отчету проекту: все группы -- до 23:59 14.06

Отчет по ДЗ состоит из трех частей: содержательный отчет, код и данные. Первые две части можно совместить в ipython notebook.

Оценки за домашние задания:

Инструкции по выполнению проекта

Автоматы по курсу: средняя оценка за домашние задания >= 8, оценка за ТЗ = 1, оценка за отчет по проекту >= 8

Итоговые оценки

Материалы занятий

19.01.2017

Лекция 1. Введение (upd: формула оценки)

26.01.2017

Лекция 2. Введение в АОТ. Морфология, методы выделения ключевых слов, синтаксис

Практическое занятие 1. Тетрадки и данные

Домашнее задание 1. Сравнение стилей

02.01.2017

Лекция 3 Векторная модель

| Лекция 4 Синтаксис

Практическое занятие 2. Туториалы и полезные ссылки

(обновление) Домашнее задание 2. Word2vec

9.02.2017

Лекция 5. Классификация в задачах АОТ

Задания из курса Лауры Каллмайер

Туториал по CRF Suite

16.02.2017

Данные для Домашнего задания З

Домашнее задание 3

Туториалы по keras

Deep Learning 4 NLP

Understanding CNN for NLP

Understanding LSTMs

Oxford DL for NLP

Stanford NLP with DL

Практическое занятие 3. Нейронные сети


02.03.2017

Лекция 6. Поиск частых множеств и ассоциативные правила (повторение с примерами прикладных задач)


16.03.2017

Лекция 7. Поиск частых последовательностей (Sequence mining)

(UPD) Домашнее задание 4

(UPD) Домашнее задание 5

23.03.2017

Лабораторная по деревьям решений

Лекция 8. Майнинг последовательностей для демографических данных

06.04.2017

Рамочная презентация: введение в рекомендательные системы

Case study 1. Подходы на основе сходства по пользователям и предметам рекомендации для коллаборативной фильтрации. Оценка качества на основе бимодального скользящего контроля.

Скрипт для работы в классе и первая часть домашнего задания

13.04.2017

Матричная факторизация в задаче коллаборативной фильтрации (SVD, NMF, BMF). Case-study 2.

Скрипт на Питоне для SVD и NMF.

20.04.2017

Гибридные рекомендательные системы на примере рекомендаций онлайн-радиостанций.

Case-study 3

Surprise test (пример работы с библиотекой рекомендательных систем в Python)

27.04.2017

Спектральная кластеризация для анализа Интернет-данных


11.05.2017

Лабораторная работа по SNA

Лекция про ссылочное ранжирование

Материал для самостоятельного чтения:

18.05.2017

18.05 лекция перенесена в ауд. 5307, Шаболовка 26


ВНИМАНИЕ! Занятия 18 мая ОТМЕНЯЮТСЯ!


25.05.2017

Методы кластеризации. DBScan и Mean-Shift (Denclue)

01.06.2017

Распознавание изображений


15.06.2017

15.06 лекция не состоится!

В группах ИАД 2, 3, 4 15.06 консультация с 13-30 до 15-00


22.06.2017

Итоговый экзамен в виде защиты проектов и собеседования по курсу.

Адрес: ауд. 3316 Шаболовка ул., д. 26

Команда защищает свой проект перед преподавателем курса предпочтительно со своим ноутбуком.