МОВС Автоматический анализ текстов, NLP (2023-24 уч. год, 6 модуль) — различия между версиями
м (add dates) |
|||
Строка 2: | Строка 2: | ||
''Цель курса - ознакомление студентов с задачами и современными технологиями Natural Language Processing. Планируется ознакомление со статистическими и нейросетевыми подходами в NLP, приобретение навыков их использования в реальных практических задачах.<br/> По завершению программы студенты будут уметь работать с текстовыми данными, знать основные методы предобработки текста и его векторизации. Студенты также должны овладеть современными фреймворками для работы с нейросетевыми моделями, ориентироваться в основных задачах в области обработки текстов: уметь сформулировать задачу, выбрать и реализовать на практике модель для ее решения.'' | ''Цель курса - ознакомление студентов с задачами и современными технологиями Natural Language Processing. Планируется ознакомление со статистическими и нейросетевыми подходами в NLP, приобретение навыков их использования в реальных практических задачах.<br/> По завершению программы студенты будут уметь работать с текстовыми данными, знать основные методы предобработки текста и его векторизации. Студенты также должны овладеть современными фреймворками для работы с нейросетевыми моделями, ориентироваться в основных задачах в области обработки текстов: уметь сформулировать задачу, выбрать и реализовать на практике модель для ее решения.'' | ||
− | Занятия проводятся в [[ Zoom]] | + | Занятия проводятся в [[ Zoom]] по средам в 19:40 (за исключением недели 11 - 17 декабря: вместо 13 декабря занятие состоится 15 декабря в 19:40).''' |
Онлайн-курс в дополнение к парам: https://openedu.ru/course/hse/TEXT/ | Онлайн-курс в дополнение к парам: https://openedu.ru/course/hse/TEXT/ | ||
Строка 30: | Строка 30: | ||
! Занятие !! Тема !! Дата !! Ссылки | ! Занятие !! Тема !! Дата !! Ссылки | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''1''' [[ Запись]] || [ | + | | style="background:#eaecf0;" | '''1''' [[ Запись]] || [https://github.com/Combo-Breaker/NLP_course_2023/tree/main/1 Ноутбук] Обработка и аугментация текстов, векторные модели представления текста и задача классификации || 01.11.23 || |
|- | |- | ||
| style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Языковое моделирование. Модель Encoder-Decoder, Механизм внимания и задачи Seq2Seq || 08.11.23 || | | style="background:#eaecf0;" | '''2''' [[ Запись]] || [[ Ноутбук]] Языковое моделирование. Модель Encoder-Decoder, Механизм внимания и задачи Seq2Seq || 08.11.23 || | ||
Строка 55: | Строка 55: | ||
== Домашние задания == | == Домашние задания == | ||
− | # Классификация | + | # Классификация: https://www.kaggle.com/competitions/toxic-comments-classification-2023/overview |
# NER (будет выдана после 5-го семинара) | # NER (будет выдана после 5-го семинара) | ||
Версия 18:17, 1 ноября 2023
Содержание
О курсе
Цель курса - ознакомление студентов с задачами и современными технологиями Natural Language Processing. Планируется ознакомление со статистическими и нейросетевыми подходами в NLP, приобретение навыков их использования в реальных практических задачах.
По завершению программы студенты будут уметь работать с текстовыми данными, знать основные методы предобработки текста и его векторизации. Студенты также должны овладеть современными фреймворками для работы с нейросетевыми моделями, ориентироваться в основных задачах в области обработки текстов: уметь сформулировать задачу, выбрать и реализовать на практике модель для ее решения.
Занятия проводятся в Zoom по средам в 19:40 (за исключением недели 11 - 17 декабря: вместо 13 декабря занятие состоится 15 декабря в 19:40).
Онлайн-курс в дополнение к парам: https://openedu.ru/course/hse/TEXT/
Контакты
Чат курса в TG: https://t.me/+eyYewvjvsEU0NjVi
Преподаватель: Саркисян Вероника Вагановна
Ассистент | Контакты |
---|---|
Артём Никитин | @SHAMPINION |
Андрей Дядюнов | @mr_dyadyunov |
Материалы курса
Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzBF1THckCvwhkITfhFs8ZB3
GitHub с материалами курса: GitHub repository
Занятие | Тема | Дата | Ссылки |
---|---|---|---|
1 Запись | Ноутбук Обработка и аугментация текстов, векторные модели представления текста и задача классификации | 01.11.23 | |
2 Запись | Ноутбук Языковое моделирование. Модель Encoder-Decoder, Механизм внимания и задачи Seq2Seq | 08.11.23 | |
3 Запись | Ноутбук Современные модели, основанные на модели Transformer | 15.11.23 | |
4 Запись | Ноутбук Few- и zero-shot learning. Использование предобученных языковых моделей для задач классификации и вопросно-ответных систем | 22.11.23 | |
5 Запись | Ноутбук Sequence Labeling: POS-теггинг и извлечение именованных сущностей (NER) | 29.11.23 | |
6 Запись | Ноутбук Тематическое моделирование и модель LDA | 06.12.23 | |
7 Запись | Ноутбук Синтаксический парсинг предложений | 13.12.23 | |
8 Запись | Ноутбук | 20.12.23 |
Записи консультаций
Формула оценивания
Оценка = 0.3*ОТесты + 0.7*ОДЗ, где ОТесты - средняя оценка по тестам на платформе онлайн-курса, а ОДЗ - максимальная из оценок по двум домашним заданиям
Домашние задания
- Классификация: https://www.kaggle.com/competitions/toxic-comments-classification-2023/overview
- NER (будет выдана после 5-го семинара)
Литература
- Manning, Christopher D., and Hinrich Schütze. Foundations of statistical natural language processing. Vol. 999. Cambridge: MIT press, 1999.
- Goldberg, Yoav. "Neural Network Methods for Natural Language Processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.