МОВС Автоматический анализ текстов (2022) — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(init fill) |
м (add course materials) |
||
(не показаны 3 промежуточные версии этого же участника) | |||
Строка 1: | Строка 1: | ||
==О курсе== | ==О курсе== | ||
− | Занятия проводятся в [[ Zoom]] '''по средам в 19:00''' | + | Занятия проводятся в [[https://us06web.zoom.us/j/84613884677?pwd=dXVEdGJZUXlnQTZ5T3U2em5wZjB6dz09 Zoom]] '''по средам в 19:00''' |
− | Онлайн-курс в дополнение к парам: [[ online-course link]] | + | Онлайн-курс в дополнение к парам: [[https://edu.hse.ru/enrol/index.php?id=136227 online-course link]] |
==Контакты== | ==Контакты== | ||
Строка 11: | Строка 11: | ||
Чат курса в TG: [https://t.me/+tgehrVfy_vZlY2Zi chat link] | Чат курса в TG: [https://t.me/+tgehrVfy_vZlY2Zi chat link] | ||
− | + | Преподаватели: Саркисян Вероника, Аксенов Сергей | |
{| class="wikitable" | {| class="wikitable" | ||
Строка 24: | Строка 24: | ||
Ссылка на плейлист курса на YouTube: [https://www.youtube.com/playlist?list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM YouTube playlist] | Ссылка на плейлист курса на YouTube: [https://www.youtube.com/playlist?list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM YouTube playlist] | ||
− | Ссылка на GitHub с материалами курса: [[ GitHub repository]] | + | Ссылка на GitHub с материалами курса: [[https://github.com/Combo-Breaker/nlp_course_2022 GitHub repository]] |
{| class="wikitable" | {| class="wikitable" | ||
Строка 30: | Строка 30: | ||
! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы | ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''1''' || [[ | + | | style="background:#eaecf0;" | '''1''' [[https://youtu.be/Ar8U0fnnllc?list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM Запись]] || [[https://github.com/Combo-Breaker/nlp_course_2022/tree/main/1 Материалы]] Регулярные выражения. Preprocessing. Простые векторные модели. || 09.11.22 || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''2''' || [[ | + | | style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=BzoPKBnhoPs&list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM Запись]] || [[https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb Ноутбук]] Векторные представления слов: Genism, GloVe, fastText. Обучение своей word2vec//fastText модели. Дообучение. || 16.11.22 || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''3''' || [[ | + | | style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=KZNhpHFOkMQ&list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM Запись]] || [[https://github.com/Combo-Breaker/nlp_course_2022/blob/main/3/3_classification.ipynb Ноутбук]] Классификация текста с использованием FastText и CNN |
+ | || 23.11.22 || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''4''' || [[ | + | | style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=FGK8J7amtNQ&list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM Запись]] || [[https://github.com/Combo-Breaker/nlp_course_2022/blob/main/4/4_Language_models.ipynb Ноутбук]] Языковые модели и генерация текста|| 30.11.22 || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''5''' || [[ | + | | style="background:#eaecf0;" | '''5''' [[https://www.youtube.com/watch?v=5Pb4v7PKtxk&list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM Запись]] || [[https://github.com/Combo-Breaker/nlp_course_2022/blob/main/5/5_seq2seq.ipynb Ноутбук]] seq2seq-модели, механизм внимания || 07.12.22 || || |
|- | |- | ||
| style="background:#eaecf0;" | '''6''' || [[ Запись]] || 14.12.22 || || | | style="background:#eaecf0;" | '''6''' || [[ Запись]] || 14.12.22 || || | ||
|- | |- | ||
|} | |} | ||
− | |||
==Формула оценивания== | ==Формула оценивания== | ||
Строка 49: | Строка 49: | ||
Оценка = 0.4*О<sub>тесты на онлайн-платформе</sub> + 0.3*О<sub>ДЗ-1</sub> + 0.3*О<sub>ДЗ-2</sub> | Оценка = 0.4*О<sub>тесты на онлайн-платформе</sub> + 0.3*О<sub>ДЗ-1</sub> + 0.3*О<sub>ДЗ-2</sub> | ||
+ | Обязательные только тесты по разделам 2-8 (включительно). В оценку входят только итоговые тесты. | ||
+ | |||
+ | [https://forms.gle/fH5dYSPVhWmFeWMHA Форма для сдачи скриншота с результатами тестов на платформе] | ||
== Домашние задания == | == Домашние задания == | ||
− | * | + | * [https://www.kaggle.com/competitions/toxic-comments-classification-2/overview Kaggle-соревнование "Toxic comments classification"], дедлайн - '''17.12.22 23:59''' | Для сдачи нужно прислать ноутбук на impecopeco@gmail.com (в теме указать ФИО и ник на Kaggle) |
− | * | + | * [https://colab.research.google.com/drive/1Owyafq0pY5Pvfpw1yOgnb7PfyT6FZvxa?usp=sharing NER], дедлайн - '''27.12.2022 в 23:59''' | Инвайт в Энитаск: ''BqXqcTy'' |
== Литература == | == Литература == | ||
− | * | + | * Jurafsky, Martin. Speech and Language Processing - [https://web.stanford.edu/~jurafsky/slp3/ online book] |
− | * | + | * Rothman. Transformers for Natural Language Processing |
− | * | + | * [https://habr.com/ru/company/ods/blog/487172/ Материалы NLP курса от DeepPavlov] |
− | * | + | * [https://github.com/yandexdataschool/nlp_course Репозиторий курса NLP в ШАДе] |
Текущая версия на 18:09, 8 января 2023
Содержание
О курсе
Занятия проводятся в [Zoom] по средам в 19:00
Онлайн-курс в дополнение к парам: [online-course link]
Контакты
Канал курса в TG: channel link
Чат курса в TG: chat link
Преподаватели: Саркисян Вероника, Аксенов Сергей
Ассистент | Контакты |
---|---|
Илья Никитин | @is_nikitin |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube playlist
Ссылка на GitHub с материалами курса: [GitHub repository]
Занятие | Тема | Дата | Материалы для самоподготовки к семинарам | Дополнительные материалы |
---|---|---|---|---|
1 [Запись] | [Материалы] Регулярные выражения. Preprocessing. Простые векторные модели. | 09.11.22 | ||
2 [Запись] | [Ноутбук] Векторные представления слов: Genism, GloVe, fastText. Обучение своей word2vec//fastText модели. Дообучение. | 16.11.22 | ||
3 [Запись] | [Ноутбук] Классификация текста с использованием FastText и CNN | 23.11.22 | ||
4 [Запись] | [Ноутбук] Языковые модели и генерация текста | 30.11.22 | ||
5 [Запись] | [Ноутбук] seq2seq-модели, механизм внимания | 07.12.22 | ||
6 | Запись | 14.12.22 |
Формула оценивания
Оценка = 0.4*Отесты на онлайн-платформе + 0.3*ОДЗ-1 + 0.3*ОДЗ-2
Обязательные только тесты по разделам 2-8 (включительно). В оценку входят только итоговые тесты.
Форма для сдачи скриншота с результатами тестов на платформе
Домашние задания
- Kaggle-соревнование "Toxic comments classification", дедлайн - 17.12.22 23:59 | Для сдачи нужно прислать ноутбук на impecopeco@gmail.com (в теме указать ФИО и ник на Kaggle)
- NER, дедлайн - 27.12.2022 в 23:59 | Инвайт в Энитаск: BqXqcTy
Литература
- Jurafsky, Martin. Speech and Language Processing - online book
- Rothman. Transformers for Natural Language Processing
- Материалы NLP курса от DeepPavlov
- Репозиторий курса NLP в ШАДе