Анализ неструктурированных данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 58: Строка 58:
  
 
'''Семинар''': Библиотеки lxml, beautifulsoup, scrapy
 
'''Семинар''': Библиотеки lxml, beautifulsoup, scrapy
 +
 +
=== Рекомендуемые ресурсы ===
 +
 +
# На английском:
 +
* Jurafsky & Martin [https://web.stanford.edu/~jurafsky/slp3/ (link) ]
 +
* Курс Лауры Каллмайер по МО для АОТ [https://user.phil.hhu.de/~kallmeyer/MachineLearning/index.html (link)]
 +
* Курс Нильса Раймерса по DL для АОТ [https://github.com/UKPLab/deeplearning4nlp-tutorial (link)]
 +
* Курс в Оксфорде по DL для АОТ [https://github.com/oxford-cs-deepnlp-2017 (link)]
 +
# На русском (и про русский, в основном)
 +
* Морфология [https://tech.yandex.ru/mystem/ (link)]
 +
* Синтаксис [https://habrahabr.ru/post/317564/ (link)]
 +
* Томита-парсер [https://tech.yandex.ru/tomita/ (link)]
 +
* Все на свете: [http://mathlingvo.ru (mathlingvo)], [https://nlpub.org (nlpub)]
 +
 +
=== Используемые библиотеки ===
 +
# NLTK [http://www.nltk.org (link)]

Версия 21:43, 7 сентября 2017

О курсе

Курс читается для студентов 3-го и 4-го курсов ПМИ ФКН ВШЭ в 1-2 модулях.

Лекторы: Петр Алексеевич Ромов, Екатерина Леонидовна Черняк

Лекции проходят по вторникам, 15:10 – 16:30 , ауд. 509.

Полезные ссылки

Карточка курса

Репозиторий с материалами на GitHub: https://github.com/HSE-NLP

Сдача домашних заданий по электронной почте: amilinguaHW@gmail.com

telegram: https://t.me/nlp_hse

Семинары

Группа Преподаватель Расписание
АДИС Дмитрий Фролов вторник, 18:10 – 19:30, ауд. 501
БПМИ141 МОП Анна Шишкова четверг, 13:40 – 15:00, ауд. 322
БПМИ142 МОП Мурат Апишев четверг, 10:30 – 11:50, ауд. 322

Дата выдачи/сдачи дз

TBA

Система оценок

Результирующая оценка рассчитывается по формуле:

Oитоговая = 0.8 * Oнакопл + 0.2 * Оэкз

Накопленная оценка рассчитывается по формуле:

Oнакопл = 0.4 * Oпроект1 + 0.4 * Oпроект2 + 0.2 * (Одз + Осем) / 2


Программа

Неделя 1 (4-10 сентября)

Лекция (Е. Черняк): Обзор курса: мастер-классы, кейсы, проекты. Введение в автоматическую обработку текстов. (слайды)

Семинар: Библиотека nltk (слайды и дз)

Неделя 2 (11-17 сентября)

Лекция (П. Ромов): Форматы данных, способы хранения, принципы работы интернета. Краулинг. Regexp. Unicode.

Семинар: Библиотеки lxml, beautifulsoup, scrapy

Рекомендуемые ресурсы

  1. На английском:
  • Jurafsky & Martin (link)
  • Курс Лауры Каллмайер по МО для АОТ (link)
  • Курс Нильса Раймерса по DL для АОТ (link)
  • Курс в Оксфорде по DL для АОТ (link)
  1. На русском (и про русский, в основном)

Используемые библиотеки

  1. NLTK (link)