Интеллектуальный анализ текстов 2020/2021
Содержание
Аннотация
Рост доступной текстовой информации ускорил развитие научной области, известной как автоматическая обработка естественного языка (англ. Natural Language Processing). В рамках данного курса студенты ознакомятся с задачами, которые решает NLP как с помощью классических, так и с помощью нейросетевых методов. В частности будут разобраны задачи классификации текстов, векторизации слов и выделения тематик в тексте. В качестве выпускного проекта студентам будет предложено провести анализ корпуса текста с использованием освоенных навыков. Курс основан на онлайн курсе “Natural Language Processing”, URL (платформа – Coursera, разработчик – ВШЭ).
Цель освоения дисциплины
- Формирование у студентов базовых теоретических знаний и практических навыков в области автоматической обработки естественного языка.
Планируемые результаты обучения
- Понимание идеи языковых моделей, разработка языковой модели с помощью рекуррентной нейронной сети
- Понимание основного пайплайна обработки текстовой информации и умение применять его на практике
- Понимание принципов построения векторных представлений слов и текстов
- Понимание принципов работы моделей машинного перевода
- Понимание элементов архитектуры диалоговых систем
- Разработка собственного классификатора текстов и алгоритма выявления тематик
Содержание учебной дисциплины
- Введение в классификацию текстов
Изучение основных шагов в обработке текстовой информации; Основы обработки текстов на Python. Библиотека Gensim. Представление текста как “мешка слов”. TF-IDF. Разработка классификатора текстов.
- Языковые модели и разметка последовательностей
Применение LSTM для задачи распознавания именованных сущностей; Моделирование языка с помощью n-gram и рекуррентных нейронных сетей; Оценка качества моделей
- Дистрибутивная семантика и тематические модели
Модели word2vec, skipgram, CBOW, fastText и другие способы векторного представления слов; Создание поисковой системы с помощью векторного представления предложений; Обзор тематических моделей
- Модели преобразования последовательности в последовательность
Модели машинного перевода; Обучение нейронной сети для решения задачи преобразования последовательностей; Механизмы внимания
- Диалоговые системы
Архитектуры диалоговых систем;
Текущий контроль
Индивидуальный проект
- Форма контроля: Индивидуальный проект
- Критерии оценивания: Вместе с заданием по проекту выдаются требования к результатам и сообщается максимальный балл за выполнение каждого из требований. Итоговая оценка за работу вычисляется как сумма набранных баллов или по правилам, прописанным в тексте работы, при их наличии. За задания могут выставляться частичные баллы в соответствие с долей выполненного задания, если критерии сформулированы в тексте задания.
- Комментарий: Индивидуальный проект состоит из отдельных заданий за которые выставляются частичные баллы
Оценка онлайн курса
- Форма контроля: Оценка онлайн курса
- Критерии оценивания: Для каждого задания в работе указано, сколько баллов получает студент при его полностью корректном выполнении. Итоговая оценка за работу вычисляется как сумма набранных баллов или по правилам, прописанным в тексте работы, при их наличии, и приводится к десятибалльной шкале. За задания могут выставляться частичные баллы в соответствие с долей выполненного задания, если критерии сформулированы в тексте задания.
- Комментарий: Курс “Natural Language Processing” на платформе Coursera [URL: https://www.coursera.org/learn/language-processing]
Экзамен
- Форма контроля: Экзамен
- Критерии оценивания: Для каждого задания в работе указано, сколько баллов получает студент при его полностью корректном выполнении. Итоговая оценка за работу вычисляется как сумма набранных баллов или по правилам, прописанным в тексте работы, при их наличии. За задания могут выставляться частичные баллы в соответствие с долей выполненного задания, если критерии сформулированы в тексте задания.
- Комментарий: Экзамен проводится в письменной форме.
Промежуточная аттестация
Промежуточная аттестация (4 модуль)
- 0.4 Оценка онлайн-курса
- 0.3 Индивидуальный проект
- 0.3 Экзамен
Правила округления:
Стандартное арифметическое округление
Литература
Рекомендуемая основная литература
- Гудфеллоу Я., Бенджио И., Курвилль А. - Глубокое обучение - Издательство "ДМК Пресс" - 2018 - 652с. - ISBN: 978-5-97060-618-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/107901
Рекомендуемая дополнительная литература
- Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512
- Beysolow, T. (2018). Applied Natural Language Processing with Python : Implementing Machine Learning and Deep Learning Algorithms for Natural Language Processing. [Berkeley, CA]: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1892182
Программное обеспечение
- Anaconda Community / Свободное лицензионное соглашение
- Microsoft Office Professional Plus 2010 / Из внутренней сети Университета
- Microsoft Windows 7 Professional RUS / Из внутренней сети Университета