Анализ неструктурированных данных — различия между версиями
Katya (обсуждение | вклад) |
|||
Строка 49: | Строка 49: | ||
==== Неделя 1 (4-10 сентября) ==== | ==== Неделя 1 (4-10 сентября) ==== | ||
− | '''Лекция (Е. Черняк)''': Обзор курса: мастер-классы, кейсы, проекты. Введение в автоматическую обработку текстов. | + | '''Лекция (Е. Черняк)''': Обзор курса: мастер-классы, кейсы, проекты. Введение в автоматическую обработку текстов. [https://www.dropbox.com/s/cisfnsahepuiac9/1_intro.pdf?dl=0 (слайды)] |
− | + | ||
− | [https://www.dropbox.com/s/cisfnsahepuiac9/1_intro.pdf?dl=0 (слайды)] | + | |
'''Семинар''': Библиотека nltk | '''Семинар''': Библиотека nltk |
Версия 21:36, 7 сентября 2017
Содержание
О курсе
Курс читается для студентов 3-го и 4-го курсов ПМИ ФКН ВШЭ в 1-2 модулях.
Лекторы: Петр Алексеевич Ромов, Екатерина Леонидовна Черняк
Лекции проходят по вторникам, 15:10 – 16:30 , ауд. 509.
Полезные ссылки
Репозиторий с материалами на GitHub: https://github.com/HSE-NLP
Сдача домашних заданий по электронной почте: amilinguaHW@gmail.com
telegram: https://t.me/nlp_hse
Семинары
Группа | Преподаватель | Расписание |
---|---|---|
АДИС | Дмитрий Фролов | вторник, 18:10 – 19:30, ауд. 501 |
БПМИ141 МОП | Анна Шишкова | четверг, 13:40 – 15:00, ауд. 322 |
БПМИ142 МОП | Мурат Апишев | четверг, 10:30 – 11:50, ауд. 322 |
Дата выдачи/сдачи дз
TBA
Система оценок
Результирующая оценка рассчитывается по формуле:
Oитоговая = 0.8 * Oнакопл + 0.2 * Оэкз
Накопленная оценка рассчитывается по формуле:
Oнакопл = 0.4 * Oпроект1 + 0.4 * Oпроект2 + 0.2 * (Одз + Осем) / 2
Программа
Неделя 1 (4-10 сентября)
Лекция (Е. Черняк): Обзор курса: мастер-классы, кейсы, проекты. Введение в автоматическую обработку текстов. (слайды)
Семинар: Библиотека nltk (слайды и дз)
Неделя 2 (11-17 сентября)
Лекция (П. Ромов): Форматы данных, способы хранения, принципы работы интернета. Краулинг. Regexp. Unicode.
Семинар: Библиотеки lxml, beautifulsoup, scrapy