МОВС Автоматический анализ текстов, NLP (2023-24 уч. год, 6 модуль) — различия между версиями
м (add Zoom link) |
|||
(не показано 5 промежуточных версии 2 участников) | |||
Строка 24: | Строка 24: | ||
Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3 | Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3 | ||
− | GitHub с материалами курса: | + | GitHub с материалами курса: https://github.com/Combo-Breaker/NLP_course_2023 |
{| class="wikitable" | {| class="wikitable" | ||
Строка 30: | Строка 30: | ||
! Занятие !! Тема !! Дата !! Теоретические материалы на платформе !! Тесты | ! Занятие !! Тема !! Дата !! Теоретические материалы на платформе !! Тесты | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''1''' [[ Запись]] || [https://github.com/Combo-Breaker/NLP_course_2023/tree/main/1 Ноутбук] Обработка и аугментация текстов, векторные модели представления текста и задача классификации || 01.11.23 || Темы для повторения: Введение в анализ текстов, базовые методы предобработки и выделения признаков, Неглубокие векторные представления слов || - | + | | style="background:#eaecf0;" | '''1''' [[https://www.youtube.com/watch?v=SPRiPT4G1qo&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3 Запись]] || [https://github.com/Combo-Breaker/NLP_course_2023/tree/main/1 Ноутбук] Обработка и аугментация текстов, векторные модели представления текста и задача классификации || 01.11.23 || Темы для повторения: Введение в анализ текстов, базовые методы предобработки и выделения признаков, Неглубокие векторные представления слов || - |
|- | |- | ||
− | | style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ | + | | style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=iuDWv4K0p60&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3 Запись]] || [[https://github.com/Combo-Breaker/NLP_course_2023/tree/main/2 Папка с ноутбуками]] Языковое моделирование. Модель Encoder-Decoder, Механизм внимания и задачи Seq2Seq || 08.11.23 || Машинный перевод || Итоговый тест 5 |
|- | |- | ||
− | | style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Современные модели, основанные на модели Transformer || 15.11.23 || Предобученные языковые модели. Улица Сезам 1. || Итоговый тест 6 | + | | style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=bXtSXgbOMQI&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3 Запись]] || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/3/3_BERT_sentiment_classification.ipynb Ноутбук]] Современные модели, основанные на модели Transformer || 15.11.23 || Предобученные языковые модели. Улица Сезам 1. || Итоговый тест 6 |
|- | |- | ||
− | | style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] Few- и zero-shot learning. Использование предобученных языковых моделей для задач классификации и вопросно-ответных систем || 22.11.23 || | + | | style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=mJ5KLge6ys4&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3&index=4 Запись]] || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/4/natural_language_inference.ipynb Ноутбук]] Few- и zero-shot learning. Использование предобученных языковых моделей для задач классификации и вопросно-ответных систем || 22.11.23 || Предобученные языковые модели. Улица Сезам 2 || Итоговый тест 7 |
|- | |- | ||
− | | style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Sequence Labeling: POS-теггинг и извлечение именованных сущностей (NER) || 29.11.23 || | + | | style="background:#eaecf0;" | '''5''' [[https://www.youtube.com/watch?v=yHrxIkGXKDg&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3&index=6 Запись]] || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/5/Named_Entity_Recognition.ipynb Ноутбук]] Sequence Labeling: POS-теггинг и извлечение именованных сущностей (NER) || 29.11.23 || Разметка последовательности (видео "Извлечение именованных сущностей (NER)" и "Перекрестное обучение") || - |
|- | |- | ||
− | | style="background:#eaecf0;" | '''6''' [[ Запись]] || [[ Ноутбук]] Тематическое моделирование и модель LDA || 06.12.23 || | + | | style="background:#eaecf0;" | '''6''' [[https://www.youtube.com/watch?v=4TdO5y9CuQ8&list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3&index=7 Запись]] || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/6/topic_modelling.ipynb Ноутбук]] Тематическое моделирование и модель LDA || 06.12.23 || Тематическое моделирование || Итоговый тест 9 |
|- | |- | ||
− | | style="background:#eaecf0;" | '''7''' | + | | style="background:#eaecf0;" | '''7''' || [[https://github.com/Combo-Breaker/NLP_course_2023/blob/main/7/syntax_parsing.ipynb Ноутбук]] Синтаксический парсинг предложений || 13.12.23 || Синтаксис в рамках грамматики зависимостей || Итоговый тест 8 |
|- | |- | ||
− | | style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] || 20.12.23 || | + | | style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] || 20.12.23 || Суммаризация и симплификация текстов || Итоговый тест 10 |
|- | |- | ||
|} | |} | ||
Строка 57: | Строка 57: | ||
== Домашние задания == | == Домашние задания == | ||
− | Дедлайн по сдаче тестов (всех): | + | Дедлайн по сдаче тестов (всех): 24 декабря (включительно) |
# ДЗ 1: Классификация: https://www.kaggle.com/competitions/toxic-comments-classification-2023/overview | # ДЗ 1: Классификация: https://www.kaggle.com/competitions/toxic-comments-classification-2023/overview | ||
− | # ДЗ 2: NER | + | # ДЗ 2: NER https://www.kaggle.com/competitions/litbank-ner-2023?rvi=1 |
− | + | ||
== Литература == | == Литература == | ||
* Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural language processing. Vol. 999. Cambridge: MIT press, 1999. | * Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural language processing. Vol. 999. Cambridge: MIT press, 1999. | ||
* Goldberg, Yoav. "Neural Network Methods for Natural Language Processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309. | * Goldberg, Yoav. "Neural Network Methods for Natural Language Processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309. |
Текущая версия на 15:09, 20 декабря 2023
Содержание
О курсе
Цель курса - ознакомление студентов с задачами и современными технологиями Natural Language Processing. Планируется ознакомление со статистическими и нейросетевыми подходами в NLP, приобретение навыков их использования в реальных практических задачах.
По завершению программы студенты будут уметь работать с текстовыми данными, знать основные методы предобработки текста и его векторизации. Студенты также должны овладеть современными фреймворками для работы с нейросетевыми моделями, ориентироваться в основных задачах в области обработки текстов: уметь сформулировать задачу, выбрать и реализовать на практике модель для ее решения.
Занятия проводятся в Zoom по средам в 19:40 (за исключением недели 11 - 17 декабря: вместо 13 декабря занятие состоится 15 декабря в 19:40).
Онлайн-курс в дополнение к парам: https://openedu.ru/course/hse/TEXT/
Контакты
Чат курса в TG: https://t.me/+eyYewvjvsEU0NjVi
Преподаватель: Саркисян Вероника Вагановна
Ассистент | Контакты |
---|---|
Артём Никитин | @SHAMPINION |
Андрей Дядюнов | @mr_dyadyunov |
Материалы курса
Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3
GitHub с материалами курса: https://github.com/Combo-Breaker/NLP_course_2023
Занятие | Тема | Дата | Теоретические материалы на платформе | Тесты |
---|---|---|---|---|
1 [Запись] | Ноутбук Обработка и аугментация текстов, векторные модели представления текста и задача классификации | 01.11.23 | Темы для повторения: Введение в анализ текстов, базовые методы предобработки и выделения признаков, Неглубокие векторные представления слов | - |
2 [Запись] | [Папка с ноутбуками] Языковое моделирование. Модель Encoder-Decoder, Механизм внимания и задачи Seq2Seq | 08.11.23 | Машинный перевод | Итоговый тест 5 |
3 [Запись] | [Ноутбук] Современные модели, основанные на модели Transformer | 15.11.23 | Предобученные языковые модели. Улица Сезам 1. | Итоговый тест 6 |
4 [Запись] | [Ноутбук] Few- и zero-shot learning. Использование предобученных языковых моделей для задач классификации и вопросно-ответных систем | 22.11.23 | Предобученные языковые модели. Улица Сезам 2 | Итоговый тест 7 |
5 [Запись] | [Ноутбук] Sequence Labeling: POS-теггинг и извлечение именованных сущностей (NER) | 29.11.23 | Разметка последовательности (видео "Извлечение именованных сущностей (NER)" и "Перекрестное обучение") | - |
6 [Запись] | [Ноутбук] Тематическое моделирование и модель LDA | 06.12.23 | Тематическое моделирование | Итоговый тест 9 |
7 | [Ноутбук] Синтаксический парсинг предложений | 13.12.23 | Синтаксис в рамках грамматики зависимостей | Итоговый тест 8 |
8 Запись | Ноутбук | 20.12.23 | Суммаризация и симплификация текстов | Итоговый тест 10 |
Записи консультаций
Формула оценивания
Оценка = 0.3*ОТесты + 0.7*ОДЗ, где ОТесты - средняя оценка по тестам на платформе онлайн-курса, а ОДЗ - максимальная из оценок по двум домашним заданиям
Домашние задания
Дедлайн по сдаче тестов (всех): 24 декабря (включительно)
- ДЗ 1: Классификация: https://www.kaggle.com/competitions/toxic-comments-classification-2023/overview
- ДЗ 2: NER https://www.kaggle.com/competitions/litbank-ner-2023?rvi=1
Литература
- Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural language processing. Vol. 999. Cambridge: MIT press, 1999.
- Goldberg, Yoav. "Neural Network Methods for Natural Language Processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.