Автоматический анализ текстов-2021-2022 — различия между версиями
Материал из Wiki - Факультет компьютерных наук
м (add channel and chat links) |
(add marks spreadsheet) |
||
(не показано 5 промежуточных версии этого же участника) | |||
Строка 3: | Строка 3: | ||
Курс проходит в смешанном формате: [https://openedu.ru/course/hse/TEXT/ Курс на OpenEdu] и 9 вебинаров | Курс проходит в смешанном формате: [https://openedu.ru/course/hse/TEXT/ Курс на OpenEdu] и 9 вебинаров | ||
− | Ссылка на Zoom (по | + | Ссылка на Zoom ('''по понедельникам в 19:00'''): [[https://us06web.zoom.us/j/82757622512?pwd=ZkZiSWc3bDVKczV4dmJhOUNWVFZCUT09 Weekly Zoom Meeting Link]] |
==Контакты== | ==Контакты== | ||
Строка 16: | Строка 16: | ||
| style="background:#eaecf0;" | Артёмова Екатерина ||[https://t.me/eartemova Telegram] | | style="background:#eaecf0;" | Артёмова Екатерина ||[https://t.me/eartemova Telegram] | ||
|- | |- | ||
− | | style="background:#eaecf0;" | Вероника | + | | style="background:#eaecf0;" | Вероника Саркисян || [https://t.me/Combo_Breaker Telegram] |
|- | |- | ||
− | | style="background:#eaecf0;" | Михаил | + | | style="background:#eaecf0;" | Михаил Флоринский || [https://t.me/roflinski Telegram] |
|} | |} | ||
==Материалы курса== | ==Материалы курса== | ||
− | Ссылка на плейлист курса на YouTube:https://www.youtube.com/playlist?list=PLmA-1xX7IuzB0hk1DjnaF6YapLrNkDFN4 | + | Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzB0hk1DjnaF6YapLrNkDFN4 |
− | Ссылка на github с материалами курса: [[GitHub]] | + | Ссылка на github с материалами курса: [[https://github.com/Combo-Breaker/nlp_course_2022 GitHub]] |
+ | |||
+ | Ссылка на курс на платформе OpenEdu: https://openedu.ru/course/hse/TEXT/?session=fall_2020 | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! Неделя !! Тема !! Дополнительные материалы | + | ! Неделя !! Тема !! Материалы для подготовки к семинару !! Дополнительные материалы |
|- | |- | ||
− | | style="background:#eaecf0;" | '''1''' || | + | | style="background:#eaecf0;" | '''1''' || [https://github.com/Combo-Breaker/nlp_course_2022/tree/main/1 Регулярки. Техники предобработки текстов. Простые векторные модели] || Блок "Введение в анализ текстов, базовые методы предобработки и выделения признаков" на OpenEdu || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''2''' || | + | | style="background:#eaecf0;" | '''2''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb Векторные представления слов: берем предобученные // обучаем сами // дообучаем :)] || Блок "Неглубокие векторные представления слов" на OpenEdu, [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb ноутбук "Векторные представления слов"] || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''3''' || | + | | style="background:#eaecf0;" | '''3''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/3/3_classification.ipynb Классификация текста с использованием FastText и CNN. Аугментация текстовых данных: Under- and Oversampling] || Блок "Классификация текстов" с OpenEdu, [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/3/3_classification.ipynb Ноутбук про классификацию текстов], итоговый тест к блоку "Неглубокие векторные представления слов" с OpenEdu || Найти в корпусе lenta.ru все имена людей (''Подсказка: регулярки и морфологический парсинг'') |
|- | |- | ||
− | | style="background:#eaecf0;" | '''4''' || || | + | | style="background:#eaecf0;" | '''4''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/4/4_Language_models.ipynb Языковые модели и генерация текстов. Вероятностные модели и RNN-ки] || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''5''' || | + | | style="background:#eaecf0;" | '''5''' || [https://github.com/Combo-Breaker/nlp_course_2022/blob/main/5/5_seq2seq.ipynb Seq2Seq-модели, механизм Attention] || [https://www.kaggle.com/competitions/toxic-comments-classification-apdl-2022/leaderboard Kaggle занятия] || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''6''' || | + | | style="background:#eaecf0;" | '''6''' || Бенчмарки. GLUE и обучение на его примерах || [https://drive.google.com/file/d/1CcnTdqgh-tPhJ7893vNKHm3lpYu78Iw8/view?usp=sharing Ноутбук] || |
+ | |-э | ||
+ | | style="background:#eaecf0;" | '''7''' || [https://github.com/Combo-Breaker/nlp_course_2022/tree/main/7 Классификация текстов BERT'ом] || [https://courses.openedu.ru/courses/course-v1:hse+TEXT+fall_2020/courseware/a947c504d30949828ef013535d677634/ec4675e05d7c4f27970a333670c10784/1?activate_block_id=block-v1%3Ahse%2BTEXT%2Bfall_2020%2Btype%40vertical%2Bblock%4012e499e11c9e452ab97165655a49ee47 Домашнее задание на OpenEdu] '''или''' [https://www.kaggle.com/competitions/adr-twitter-classification/overview Соревнование на Kaggle про поиск упоминания побочек в твитах]|| | ||
|- | |- | ||
− | | style="background:#eaecf0;" | ''' | + | | style="background:#eaecf0;" | '''8''' || [https://www.youtube.com/watch?v=MF8S5iLv5CM Семинар "Как сравнивать модели?"] || || |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
|} | |} | ||
+ | ==Оценки== | ||
− | = | + | O<sub>итог</sub> = 0.3 * О<sub>тесты</sub> + 0.7 * О<sub>дз</sub> |
− | + | [[https://docs.google.com/spreadsheets/d/1HsnOGvWdisYb4MHoCPfKvdNIit2IohSrhOayFPP_Q00/edit#gid=1564928422 Ведомость]] |
Текущая версия на 11:19, 3 августа 2022
Содержание
О курсе
Курс проходит в смешанном формате: Курс на OpenEdu и 9 вебинаров
Ссылка на Zoom (по понедельникам в 19:00): [Weekly Zoom Meeting Link]
Контакты
Канал в TG: NLP channel link
Чат курса в TG: NLP chat link
Преподаватель | Контакты |
---|---|
Артёмова Екатерина | Telegram |
Вероника Саркисян | Telegram |
Михаил Флоринский | Telegram |
Материалы курса
Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzB0hk1DjnaF6YapLrNkDFN4
Ссылка на github с материалами курса: [GitHub]
Ссылка на курс на платформе OpenEdu: https://openedu.ru/course/hse/TEXT/?session=fall_2020
Оценки
Oитог = 0.3 * Отесты + 0.7 * Одз