МОВС Автоматический анализ текстов, NLP (2023-24 уч. год, 6 модуль) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (UPD after sem3)
 
(не показаны 2 промежуточные версии этого же участника)
Строка 36: Строка 36:
 
| style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=bXtSXgbOMQI&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3 Запись]] || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/3/3_BERT_sentiment_classification.ipynb Ноутбук]] Современные модели, основанные на модели Transformer || 15.11.23 || Предобученные языковые модели. Улица Сезам 1.  ||  Итоговый тест 6  
 
| style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=bXtSXgbOMQI&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3 Запись]] || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/3/3_BERT_sentiment_classification.ipynb Ноутбук]] Современные модели, основанные на модели Transformer || 15.11.23 || Предобученные языковые модели. Улица Сезам 1.  ||  Итоговый тест 6  
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] Few- и zero-shot learning. Использование предобученных языковых моделей для задач классификации и вопросно-ответных систем || 22.11.23 || Предобученные языковые модели. Улица Сезам 2  ||  Итоговый тест 7
+
| style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=mJ5KLge6ys4&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3&index=4 Запись]] || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/4/natural_language_inference.ipynb Ноутбук]] Few- и zero-shot learning. Использование предобученных языковых моделей для задач классификации и вопросно-ответных систем || 22.11.23 || Предобученные языковые модели. Улица Сезам 2  ||  Итоговый тест 7
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Sequence Labeling: POS-теггинг и извлечение именованных сущностей (NER) || 29.11.23 || Разметка последовательности (видео "Извлечение именованных сущностей (NER)" и "Перекрестное обучение")  || -   
+
| style="background:#eaecf0;" | '''5''' [[https://www.youtube.com/watch?v=yHrxIkGXKDg&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3&index=6 Запись]] || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/5/Named_Entity_Recognition.ipynb Ноутбук]] Sequence Labeling: POS-теггинг и извлечение именованных сущностей (NER) || 29.11.23 || Разметка последовательности (видео "Извлечение именованных сущностей (NER)" и "Перекрестное обучение")  || -   
 
|-
 
|-
| style="background:#eaecf0;" | '''6''' [[ Запись]] || [[ Ноутбук]] Тематическое моделирование и модель LDA || 06.12.23 || Тематическое моделирование  ||  Итоговый тест 9
+
| style="background:#eaecf0;" | '''6''' [[https://www.youtube.com/watch?v=4TdO5y9CuQ8&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3&index=7 Запись]] || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/6/topic_modelling.ipynb Ноутбук]] Тематическое моделирование и модель LDA || 06.12.23 || Тематическое моделирование  ||  Итоговый тест 9
 
|-
 
|-
| style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ Ноутбук]] Синтаксический парсинг предложений || 13.12.23 ||  Синтаксис в рамках грамматики зависимостей  ||  Итоговый тест 8
+
| style="background:#eaecf0;" | '''7''' || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/7/syntax_parsing.ipynb Ноутбук]] Синтаксический парсинг предложений || 13.12.23 ||  Синтаксис в рамках грамматики зависимостей  ||  Итоговый тест 8
 
|-
 
|-
 
| style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]]  || 20.12.23 || Суммаризация и симплификация текстов  ||  Итоговый тест 10
 
| style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]]  || 20.12.23 || Суммаризация и симплификация текстов  ||  Итоговый тест 10
Строка 57: Строка 57:
 
== Домашние задания ==
 
== Домашние задания ==
  
Дедлайн по сдаче тестов (всех): 22 декабря  
+
Дедлайн по сдаче тестов (всех): 24 декабря (включительно)
  
 
# ДЗ 1: Классификация: https://www.kaggle.com/competitions/toxic-comments-classification-2023/overview
 
# ДЗ 1: Классификация: https://www.kaggle.com/competitions/toxic-comments-classification-2023/overview
# ДЗ 2: NER (будет выдана после 5-го семинара)
+
# ДЗ 2: NER https://www.kaggle.com/competitions/litbank-ner-2023?rvi=1
 
+
  
 
== Литература ==
 
== Литература ==
 
* Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural language processing. Vol. 999. Cambridge: MIT press, 1999.
 
* Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural language processing. Vol. 999. Cambridge: MIT press, 1999.
 
* Goldberg, Yoav. "Neural Network Methods for Natural Language Processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.
 
* Goldberg, Yoav. "Neural Network Methods for Natural Language Processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.

Текущая версия на 15:09, 20 декабря 2023

О курсе

Цель курса - ознакомление студентов с задачами и современными технологиями Natural Language Processing. Планируется ознакомление со статистическими и нейросетевыми подходами в NLP, приобретение навыков их использования в реальных практических задачах.
По завершению программы студенты будут уметь работать с текстовыми данными, знать основные методы предобработки текста и его векторизации. Студенты также должны овладеть современными фреймворками для работы с нейросетевыми моделями, ориентироваться в основных задачах в области обработки текстов: уметь сформулировать задачу, выбрать и реализовать на практике модель для ее решения.

Занятия проводятся в Zoom по средам в 19:40 (за исключением недели 11 - 17 декабря: вместо 13 декабря занятие состоится 15 декабря в 19:40).

Онлайн-курс в дополнение к парам: https://openedu.ru/course/hse/TEXT/

Контакты

Чат курса в TG: https://t.me/+eyYewvjvsEU0NjVi

Преподаватель: Саркисян Вероника Вагановна

Ассистент Контакты
Артём Никитин @SHAMPINION
Андрей Дядюнов @mr_dyadyunov

Материалы курса

Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3

GitHub с материалами курса: https://github.com/Combo-Breaker/NLP_course_2023

Занятие Тема Дата Теоретические материалы на платформе Тесты
1 [Запись] Ноутбук Обработка и аугментация текстов, векторные модели представления текста и задача классификации 01.11.23 Темы для повторения: Введение в анализ текстов, базовые методы предобработки и выделения признаков, Неглубокие векторные представления слов -
2 [Запись] [Папка с ноутбуками] Языковое моделирование. Модель Encoder-Decoder, Механизм внимания и задачи Seq2Seq 08.11.23 Машинный перевод Итоговый тест 5
3 [Запись] [Ноутбук] Современные модели, основанные на модели Transformer 15.11.23 Предобученные языковые модели. Улица Сезам 1. Итоговый тест 6
4 [Запись] [Ноутбук] Few- и zero-shot learning. Использование предобученных языковых моделей для задач классификации и вопросно-ответных систем 22.11.23 Предобученные языковые модели. Улица Сезам 2 Итоговый тест 7
5 [Запись] [Ноутбук] Sequence Labeling: POS-теггинг и извлечение именованных сущностей (NER) 29.11.23 Разметка последовательности (видео "Извлечение именованных сущностей (NER)" и "Перекрестное обучение") -
6 [Запись] [Ноутбук] Тематическое моделирование и модель LDA 06.12.23 Тематическое моделирование Итоговый тест 9
7 [Ноутбук] Синтаксический парсинг предложений 13.12.23 Синтаксис в рамках грамматики зависимостей Итоговый тест 8
8 Запись Ноутбук 20.12.23 Суммаризация и симплификация текстов Итоговый тест 10

Записи консультаций

Формула оценивания

Оценка = 0.3*ОТесты + 0.7*ОДЗ, где ОТесты - средняя оценка по тестам на платформе онлайн-курса, а ОДЗ - максимальная из оценок по двум домашним заданиям

Домашние задания

Дедлайн по сдаче тестов (всех): 24 декабря (включительно)

  1. ДЗ 1: Классификация: https://www.kaggle.com/competitions/toxic-comments-classification-2023/overview
  2. ДЗ 2: NER https://www.kaggle.com/competitions/litbank-ner-2023?rvi=1

Литература

  • Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural language processing. Vol. 999. Cambridge: MIT press, 1999.
  • Goldberg, Yoav. "Neural Network Methods for Natural Language Processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.