Автоматический анализ текстов-2021-2022 — различия между версиями
Материал из Wiki - Факультет компьютерных наук
м (add Zoom link) |
(add notebooks' links) |
||
Строка 32: | Строка 32: | ||
! Неделя !! Тема !! Материалы для подготовки к семинару !! Дополнительные материалы | ! Неделя !! Тема !! Материалы для подготовки к семинару !! Дополнительные материалы | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''1''' || [https://github.com/Combo-Breaker/nlp_course_2022/tree/main/1 | + | | style="background:#eaecf0;" | '''1''' || [https://github.com/Combo-Breaker/nlp_course_2022/tree/main/1 Регулярки. Техники предобработки текстов. Простые векторные модели] || Блок "Введение в анализ текстов, базовые методы предобработки и выделения признаков" на OpenEdu || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''2''' || || Блок "Неглубокие векторные представления слов" на OpenEdu, [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb ноутбук "Векторные представления слов"] || | + | | style="background:#eaecf0;" | '''2''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb Векторные представления слов: берем предобученные // обучаем сами // дообучаем :)] || Блок "Неглубокие векторные представления слов" на OpenEdu, [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb ноутбук "Векторные представления слов"] || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''3''' || || || | + | | style="background:#eaecf0;" | '''3''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/3/3_classification.ipynb Классификация текста с использованием FastText и CNN. Аугментация текстовых данных: Under- and Oversampling] || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''4''' || || || | + | | style="background:#eaecf0;" | '''4''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/4/4_Language_models.ipynb Языковые модели и генерация текстов. Вероятностные модели и RNN-ки] || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''5''' || || || | + | | style="background:#eaecf0;" | '''5''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/5/5_seq2seq.ipynb Seq2Seq-модели, механизм Attention] || || |
|- | |- | ||
| style="background:#eaecf0;" | '''6''' || || || | | style="background:#eaecf0;" | '''6''' || || || | ||
− | |- | + | |-э |
− | | style="background:#eaecf0;" | '''7''' || || || | + | | style="background:#eaecf0;" | '''7''' || [https://github.com/Combo-Breaker/nlp_course_2022/tree/main/7 Классификация текстов BERT'ом] || || |
|- | |- | ||
| style="background:#eaecf0;" | '''8''' || || || | | style="background:#eaecf0;" | '''8''' || || || |
Версия 11:01, 3 августа 2022
Содержание
О курсе
Курс проходит в смешанном формате: Курс на OpenEdu и 9 вебинаров
Ссылка на Zoom (по понедельникам в 19:00): [Weekly Zoom Meeting Link]
Контакты
Канал в TG: NLP channel link
Чат курса в TG: NLP chat link
Преподаватель | Контакты |
---|---|
Артёмова Екатерина | Telegram |
Вероника Саркисян | Telegram |
Михаил Флоринский | Telegram |
Материалы курса
Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzB0hk1DjnaF6YapLrNkDFN4
Ссылка на github с материалами курса: [GitHub]
Ссылка на курс на платформе OpenEdu: https://openedu.ru/course/hse/TEXT/?session=fall_2020
Неделя | Тема | Материалы для подготовки к семинару | Дополнительные материалы |
---|---|---|---|
1 | Регулярки. Техники предобработки текстов. Простые векторные модели | Блок "Введение в анализ текстов, базовые методы предобработки и выделения признаков" на OpenEdu | |
2 | Векторные представления слов: берем предобученные // обучаем сами // дообучаем :) | Блок "Неглубокие векторные представления слов" на OpenEdu, ноутбук "Векторные представления слов" | |
3 | Классификация текста с использованием FastText и CNN. Аугментация текстовых данных: Under- and Oversampling | ||
4 | Языковые модели и генерация текстов. Вероятностные модели и RNN-ки | ||
5 | Seq2Seq-модели, механизм Attention | ||
6 | |||
7 | Классификация текстов BERT'ом | ||
8 | |||
9 |
Оценки
Предварительно: Oитог = 0.3 * Отесты + 0.7 * Одз