МОВС Автоматический анализ текстов (2022) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(init fill)
 
м (add course materials)
 
(не показаны 3 промежуточные версии этого же участника)
Строка 1: Строка 1:
 
==О курсе==
 
==О курсе==
  
Занятия проводятся в [[ Zoom]] '''по средам в 19:00'''
+
Занятия проводятся в [[https://us06web.zoom.us/j/84613884677?pwd=dXVEdGJZUXlnQTZ5T3U2em5wZjB6dz09 Zoom]] '''по средам в 19:00'''
  
Онлайн-курс в дополнение к парам: [[ online-course link]]
+
Онлайн-курс в дополнение к парам: [[https://edu.hse.ru/enrol/index.php?id=136227 online-course link]]
  
 
==Контакты==
 
==Контакты==
Строка 11: Строка 11:
 
Чат курса в TG: [https://t.me/+tgehrVfy_vZlY2Zi chat link]
 
Чат курса в TG: [https://t.me/+tgehrVfy_vZlY2Zi chat link]
  
Преподаватель:  
+
Преподаватели: Саркисян Вероника, Аксенов Сергей
  
 
{| class="wikitable"
 
{| class="wikitable"
Строка 24: Строка 24:
 
Ссылка на плейлист курса на YouTube: [https://www.youtube.com/playlist?list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM YouTube playlist]
 
Ссылка на плейлист курса на YouTube: [https://www.youtube.com/playlist?list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM YouTube playlist]
  
Ссылка на GitHub с материалами курса: [[ GitHub repository]]
+
Ссылка на GitHub с материалами курса: [[https://github.com/Combo-Breaker/nlp_course_2022 GitHub repository]]
  
 
{| class="wikitable"
 
{| class="wikitable"
Строка 30: Строка 30:
 
  ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
 
  ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
 
|-
 
|-
| style="background:#eaecf0;" | '''1''' || [[ Запись]] || 09.11.22 || ||  
+
| style="background:#eaecf0;" | '''1''' [[https://youtu.be/Ar8U0fnnllc?list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM Запись]] || [[https://github.com/Combo-Breaker/nlp_course_2022/tree/main/1 Материалы]] Регулярные выражения. Preprocessing. Простые векторные модели. || 09.11.22 || ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''2''' || [[ Запись]] || 16.11.22 || ||  
+
| style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=BzoPKBnhoPs&list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM Запись]] || [[https://github.com/Combo-Breaker/nlp_course_2022/blob/main/2/2_embeddings.ipynb Ноутбук]] Векторные представления слов: Genism, GloVe, fastText. Обучение своей word2vec//fastText модели. Дообучение. || 16.11.22 || ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' || [[ Запись]] || 23.11.22 || ||
+
| style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=KZNhpHFOkMQ&list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM Запись]] || [[https://github.com/Combo-Breaker/nlp_course_2022/blob/main/3/3_classification.ipynb Ноутбук]] Классификация текста с использованием FastText и CNN
 +
|| 23.11.22 || ||
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' || [[ Запись]] || 30.11.22 || ||  
+
| style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=FGK8J7amtNQ&list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM Запись]] || [[https://github.com/Combo-Breaker/nlp_course_2022/blob/main/4/4_Language_models.ipynb Ноутбук]] Языковые модели и генерация текста|| 30.11.22 || ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' || [[ Запись]] || 07.12.22 || ||  
+
| style="background:#eaecf0;" | '''5''' [[https://www.youtube.com/watch?v=5Pb4v7PKtxk&list=PLmA-1xX7IuzCwbhYd-koCgMOKsafG4eLM Запись]] || [[https://github.com/Combo-Breaker/nlp_course_2022/blob/main/5/5_seq2seq.ipynb Ноутбук]] seq2seq-модели, механизм внимания || 07.12.22 || ||  
 
|-
 
|-
 
| style="background:#eaecf0;" | '''6''' || [[ Запись]] || 14.12.22 || ||  
 
| style="background:#eaecf0;" | '''6''' || [[ Запись]] || 14.12.22 || ||  
 
|-
 
|-
 
|}
 
|}
 
  
 
==Формула оценивания==
 
==Формула оценивания==
Строка 49: Строка 49:
 
Оценка = 0.4*О<sub>тесты на онлайн-платформе</sub> + 0.3*О<sub>ДЗ-1</sub> + 0.3*О<sub>ДЗ-2</sub>
 
Оценка = 0.4*О<sub>тесты на онлайн-платформе</sub> + 0.3*О<sub>ДЗ-1</sub> + 0.3*О<sub>ДЗ-2</sub>
  
 +
Обязательные только тесты по разделам 2-8 (включительно). В оценку входят только итоговые тесты.
 +
 +
[https://forms.gle/fH5dYSPVhWmFeWMHA Форма для сдачи скриншота с результатами тестов на платформе]
  
 
== Домашние задания ==
 
== Домашние задания ==
* Раз
+
* [https://www.kaggle.com/competitions/toxic-comments-classification-2/overview Kaggle-соревнование "Toxic comments classification"], дедлайн - '''17.12.22 23:59''' | Для сдачи нужно прислать ноутбук на impecopeco@gmail.com (в теме указать ФИО и ник на Kaggle)
* Два
+
* [https://colab.research.google.com/drive/1Owyafq0pY5Pvfpw1yOgnb7PfyT6FZvxa?usp=sharing NER], дедлайн - '''27.12.2022 в 23:59''' | Инвайт в Энитаск: ''BqXqcTy''
  
 
== Литература ==
 
== Литература ==
* Раз
+
* Jurafsky, Martin. Speech and Language Processing - [https://web.stanford.edu/~jurafsky/slp3/ online book]
* Два
+
* Rothman. Transformers for Natural Language Processing
*
+
* [https://habr.com/ru/company/ods/blog/487172/ Материалы NLP курса от DeepPavlov]
* M
+
* [https://github.com/yandexdataschool/nlp_course Репозиторий курса NLP в ШАДе]

Текущая версия на 18:09, 8 января 2023

О курсе

Занятия проводятся в [Zoom] по средам в 19:00

Онлайн-курс в дополнение к парам: [online-course link]

Контакты

Канал курса в TG: channel link

Чат курса в TG: chat link

Преподаватели: Саркисян Вероника, Аксенов Сергей

Ассистент Контакты
Илья Никитин @is_nikitin

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube playlist

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие Тема Дата Материалы для самоподготовки к семинарам Дополнительные материалы
1 [Запись] [Материалы] Регулярные выражения. Preprocessing. Простые векторные модели. 09.11.22
2 [Запись] [Ноутбук] Векторные представления слов: Genism, GloVe, fastText. Обучение своей word2vec//fastText модели. Дообучение. 16.11.22
3 [Запись] [Ноутбук] Классификация текста с использованием FastText и CNN 23.11.22
4 [Запись] [Ноутбук] Языковые модели и генерация текста 30.11.22
5 [Запись] [Ноутбук] seq2seq-модели, механизм внимания 07.12.22
6 Запись 14.12.22

Формула оценивания

Оценка = 0.4*Отесты на онлайн-платформе + 0.3*ОДЗ-1 + 0.3*ОДЗ-2

Обязательные только тесты по разделам 2-8 (включительно). В оценку входят только итоговые тесты.

Форма для сдачи скриншота с результатами тестов на платформе

Домашние задания

Литература