Интеллектуальный анализ текстов 2020/2021

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

Аннотация

Рост доступной текстовой информации ускорил развитие научной области, известной как автоматическая обработка естественного языка (англ. Natural Language Processing). В рамках данного курса студенты ознакомятся с задачами, которые решает NLP как с помощью классических, так и с помощью нейросетевых методов. В частности будут разобраны задачи классификации текстов, векторизации слов и выделения тематик в тексте. В качестве выпускного проекта студентам будет предложено провести анализ корпуса текста с использованием освоенных навыков. Курс основан на онлайн курсе “Natural Language Processing”, URL (платформа – Coursera, разработчик – ВШЭ).

Цель освоения дисциплины

  1. Формирование у студентов базовых теоретических знаний и практических навыков в области автоматической обработки естественного языка.


Планируемые результаты обучения

  • Понимание идеи языковых моделей, разработка языковой модели с помощью рекуррентной нейронной сети
  • Понимание основного пайплайна обработки текстовой информации и умение применять его на практике
  • Понимание принципов построения векторных представлений слов и текстов
  • Понимание принципов работы моделей машинного перевода
  • Понимание элементов архитектуры диалоговых систем
  • Разработка собственного классификатора текстов и алгоритма выявления тематик

Содержание учебной дисциплины

  • Введение в классификацию текстов

Изучение основных шагов в обработке текстовой информации; Основы обработки текстов на Python. Библиотека Gensim. Представление текста как “мешка слов”. TF-IDF. Разработка классификатора текстов.

  • Языковые модели и разметка последовательностей

Применение LSTM для задачи распознавания именованных сущностей; Моделирование языка с помощью n-gram и рекуррентных нейронных сетей; Оценка качества моделей

  • Дистрибутивная семантика и тематические модели

Модели word2vec, skipgram, CBOW, fastText и другие способы векторного представления слов; Создание поисковой системы с помощью векторного представления предложений; Обзор тематических моделей

  • Модели преобразования последовательности в последовательность

Модели машинного перевода; Обучение нейронной сети для решения задачи преобразования последовательностей; Механизмы внимания

  • Диалоговые системы

Архитектуры диалоговых систем;

Текущий контроль

Индивидуальный проект

  • Форма контроля: Индивидуальный проект
  • Критерии оценивания: Вместе с заданием по проекту выдаются требования к результатам и сообщается максимальный балл за выполнение каждого из требований. Итоговая оценка за работу вычисляется как сумма набранных баллов или по правилам, прописанным в тексте работы, при их наличии. За задания могут выставляться частичные баллы в соответствие с долей выполненного задания, если критерии сформулированы в тексте задания.
  • Комментарий: Индивидуальный проект состоит из отдельных заданий за которые выставляются частичные баллы

Оценка онлайн курса

  • Форма контроля: Оценка онлайн курса
  • Критерии оценивания: Для каждого задания в работе указано, сколько баллов получает студент при его полностью корректном выполнении. Итоговая оценка за работу вычисляется как сумма набранных баллов или по правилам, прописанным в тексте работы, при их наличии, и приводится к десятибалльной шкале. За задания могут выставляться частичные баллы в соответствие с долей выполненного задания, если критерии сформулированы в тексте задания.
  • Комментарий: Курс “Natural Language Processing” на платформе Coursera [URL: https://www.coursera.org/learn/language-processing]

Экзамен

  • Форма контроля: Экзамен
  • Критерии оценивания: Для каждого задания в работе указано, сколько баллов получает студент при его полностью корректном выполнении. Итоговая оценка за работу вычисляется как сумма набранных баллов или по правилам, прописанным в тексте работы, при их наличии. За задания могут выставляться частичные баллы в соответствие с долей выполненного задания, если критерии сформулированы в тексте задания.
  • Комментарий: Экзамен проводится в письменной форме.

Промежуточная аттестация

Промежуточная аттестация (4 модуль)

  • 0.4 Оценка онлайн-курса
  • 0.3 Индивидуальный проект
  • 0.3 Экзамен

Правила округления:

Стандартное арифметическое округление

Материалы занятий

Литература

Рекомендуемая основная литература

  • Гудфеллоу Я., Бенджио И., Курвилль А. - Глубокое обучение - Издательство "ДМК Пресс" - 2018 - 652с. - ISBN: 978-5-97060-618-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/107901

Рекомендуемая дополнительная литература

Программное обеспечение

  • Anaconda Community / Свободное лицензионное соглашение
  • Microsoft Office Professional Plus 2010 / Из внутренней сети Университета
  • Microsoft Windows 7 Professional RUS / Из внутренней сети Университета