Автоматический анализ текстов-2021-2022 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(add notebooks' links)
(Add materials)
Строка 36: Строка 36:
 
| style="background:#eaecf0;" | '''2''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb Векторные представления слов: берем предобученные // обучаем сами // дообучаем :)] || Блок "Неглубокие векторные представления слов" на OpenEdu, [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb ноутбук "Векторные представления слов"] ||  
 
| style="background:#eaecf0;" | '''2''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb Векторные представления слов: берем предобученные // обучаем сами // дообучаем :)] || Блок "Неглубокие векторные представления слов" на OpenEdu, [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb ноутбук "Векторные представления слов"] ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/3/3_classification.ipynb Классификация текста с использованием FastText и CNN. Аугментация текстовых данных: Under- and Oversampling] || ||  
+
| style="background:#eaecf0;" | '''3''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/3/3_classification.ipynb Классификация текста с использованием FastText и CNN. Аугментация текстовых данных: Under- and Oversampling] || Блок "Классификация текстов" с OpenEdu, [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/3/3_classification.ipynb Ноутбук про классификацию текстов], итоговый тест к блоку "Неглубокие векторные представления слов" с OpenEdu || Найти в корпусе lenta.ru все имена людей (''Подсказка: регулярки и морфологический парсинг'')
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/4/4_Language_models.ipynb Языковые модели и генерация текстов. Вероятностные модели и RNN-ки] || ||  
+
| style="background:#eaecf0;" | '''4''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/4/4_Language_models.ipynb Языковые модели и генерация текстов. Вероятностные модели и RNN-ки] || ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/5/5_seq2seq.ipynb Seq2Seq-модели, механизм Attention] || ||   
+
| style="background:#eaecf0;" | '''5''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/5/5_seq2seq.ipynb Seq2Seq-модели, механизм Attention] || [https://www.kaggle.com/competitions/toxic-comments-classification-apdl-2022/leaderboard Kaggle занятия] ||   
 
|-
 
|-
| style="background:#eaecf0;" | '''6''' || || ||  
+
| style="background:#eaecf0;" | '''6''' || Бенчмарки. GLUE и обучение на его примерах || [https://drive.google.com/file/d/1CcnTdqgh-tPhJ7893vNKHm3lpYu78Iw8/view?usp=sharing Ноутбук] ||  
 
|-э
 
|-э
| style="background:#eaecf0;" | '''7''' || [https://github.com/Combo-Breaker/nlp_course_2022/tree/main/7 Классификация текстов BERT'ом] || ||  
+
| style="background:#eaecf0;" | '''7''' || [https://github.com/Combo-Breaker/nlp_course_2022/tree/main/7 Классификация текстов BERT'ом] || [https://courses.openedu.ru/courses/course-v1:hse+TEXT+fall_2020/courseware/a947c504d30949828ef013535d677634/ec4675e05d7c4f27970a333670c10784/1?activate_block_id=block-v1%3Ahse%2BTEXT%2Bfall_2020%2Btype%40vertical%2Bblock%4012e499e11c9e452ab97165655a49ee47 Домашнее задание на OpenEdu] '''или''' [https://www.kaggle.com/competitions/adr-twitter-classification/overview Соревнование на Kaggle про поиск упоминания побочек в твитах]||  
 
|-
 
|-
| style="background:#eaecf0;" | '''8''' || || ||
+
| style="background:#eaecf0;" | '''8''' || [https://www.youtube.com/watch?v=MF8S5iLv5CM Семинар "Как сравнивать модели?"] || ||  
|-
+
| style="background:#eaecf0;" | '''9''' || || ||  
+
 
|}
 
|}
  

Версия 11:17, 3 августа 2022

О курсе

Курс проходит в смешанном формате: Курс на OpenEdu и 9 вебинаров

Ссылка на Zoom (по понедельникам в 19:00): [Weekly Zoom Meeting Link]

Контакты

Канал в TG: NLP channel link

Чат курса в TG: NLP chat link

Преподаватель Контакты
Артёмова Екатерина Telegram
Вероника Саркисян Telegram
Михаил Флоринский Telegram

Материалы курса

Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzB0hk1DjnaF6YapLrNkDFN4

Ссылка на github с материалами курса: [GitHub]

Ссылка на курс на платформе OpenEdu: https://openedu.ru/course/hse/TEXT/?session=fall_2020

Неделя Тема Материалы для подготовки к семинару Дополнительные материалы
1 Регулярки. Техники предобработки текстов. Простые векторные модели Блок "Введение в анализ текстов, базовые методы предобработки и выделения признаков" на OpenEdu
2 Векторные представления слов: берем предобученные // обучаем сами // дообучаем :) Блок "Неглубокие векторные представления слов" на OpenEdu, ноутбук "Векторные представления слов"
3 Классификация текста с использованием FastText и CNN. Аугментация текстовых данных: Under- and Oversampling Блок "Классификация текстов" с OpenEdu, Ноутбук про классификацию текстов, итоговый тест к блоку "Неглубокие векторные представления слов" с OpenEdu Найти в корпусе lenta.ru все имена людей (Подсказка: регулярки и морфологический парсинг)
4 Языковые модели и генерация текстов. Вероятностные модели и RNN-ки
5 Seq2Seq-модели, механизм Attention Kaggle занятия
6 Бенчмарки. GLUE и обучение на его примерах Ноутбук
7 Классификация текстов BERT'ом Домашнее задание на OpenEdu или Соревнование на Kaggle про поиск упоминания побочек в твитах
8 Семинар "Как сравнивать модели?"

Оценки

Предварительно: Oитог = 0.3 * Отесты + 0.7 * Одз