Обработка и анализ больших массивов данных (МОиВС, осень21, 2022) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (add playlist link)
м (first upd. Sync with Github readme)
Строка 1: Строка 1:
 
==О курсе==
 
==О курсе==
  
Занятия проводятся в [ Zoom] по ... в ...
+
Занятия проводятся в [https://us06web.zoom.us/j/84811522468?pwd=aWFQSHJUdzFOYm5ETSthMlhTcEVrZz09 Zoom] '''по пятницам в 19:00'''
  
 
==Контакты==
 
==Контакты==
Строка 9: Строка 9:
 
Чат курса в TG: [https://t.me/+5GtB_oOuSA45Y2Vi chat link]
 
Чат курса в TG: [https://t.me/+5GtB_oOuSA45Y2Vi chat link]
  
'''Преподаватель''': Бардуков Анатолий
+
'''Преподаватели''': Бардуков Анатолий (TG: [https://t.me/sindq @sindq]), Свиридов Иван, Соозарь Мария
 
+
{| class="wikitable"
+
|-
+
! Преподаватель !! Контакты
+
|-
+
| style="background:#eaecf0;" |  ||[https://t.me/ Telegram]
+
|-
+
| style="background:#eaecf0;" |  ||[https://t.me/ Telegram]
+
|-
+
| style="background:#eaecf0;" |  ||[https://t.me/ Telegram]
+
|}
+
  
 
==Материалы курса==
 
==Материалы курса==
 
Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD
 
Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD
  
Ссылка на GitHub с материалами курса: [[ GitHub]]
+
Ссылка на GitHub с материалами курса: [[https://github.com/Sindbag/mlhl-bigdata GitHub]]
  
 
{| class="wikitable"
 
{| class="wikitable"
Строка 31: Строка 20:
 
  ! Занятие !! Тема !! Дата !! Преподаватель !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
 
  ! Занятие !! Тема !! Дата !! Преподаватель !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
 
|-
 
|-
| style="background:#eaecf0;" | '''1''' ||  || || || ||  
+
| style="background:#eaecf0;" | '''1''' || Введение в распределенные системы. Bash & Docker || Анатолий Бардуков || 12.09.22 || ||
 +
|-
 +
| style="background:#eaecf0;" | '''2''' || SQL, NoSQL, MPP-format. Знакомство с видами БД, синтаксис запросов || Иван Свиридов || 16.09.22|| ||
 +
|-
 +
| style="background:#eaecf0;" | '''3''' || Hadoop || Иван Свиридов || 30.09.22 || ||
 +
|-
 +
| style="background:#eaecf0;" | '''4''' || YARN package manager, HDFS, MapReduce || Анатолий Бардуков || 07.10.22 || ||
 +
|-
 +
| style="background:#eaecf0;" | '''5''' || Spark RDD || Мария Соозарь || 14.10.22 || ||
 +
|-
 +
| style="background:#eaecf0;" | '''6''' || Spark DataFrame + Spark SQL ||  || 21.10.22 || ||
 +
|-
 +
|
 +
|-
 +
| style="background:#eaecf0;" | '''7''' || Spark ML + handcrafted ML on Spark || || || ||
 
|-
 
|-
| style="background:#eaecf0;" | '''2''' || || || || ||
+
| style="background:#eaecf0;" | '''8''' || MLOps (model -> Docker -> prod + balancer), MLFlow || || || ||
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' || || || || ||
+
| style="background:#eaecf0;" | '''9''' || Distributed Learning. Quantization, Distillation and Prunning || || || ||
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' || || || || ||
+
| style="background:#eaecf0;" | '''10''' || Approximate answer searching: LSH + HNSW || || || ||
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' || || || || ||
+
| style="background:#eaecf0;" | '''11''' || Streaming (Spark + Kafka) || || || ||
 
|-
 
|-
| style="background:#eaecf0;" | '''6''' || || || || ||
+
| style="background:#eaecf0;" | '''12''' || Flink  || || || ||
 
|-
 
|-
 
|}
 
|}
Строка 47: Строка 50:
 
==Формула оценивания==
 
==Формула оценивания==
  
Оценка = 0.3*тесты + 0.7*ДЗ
+
min(10, 0.6 ДЗ + 0.4 проект + 0.3 бонусы)
  
В начале занятия - тест (4-5 несложных вопросов) по теме предыдущего занятия.
+
Лист с оценками: https://docs.google.com/spreadsheets/d/158tztQ-jFFErWMk7k3INnSs8tjDTWP9j1SBE-uxFfMw/edit?usp=sharing
  
 
== Домашние задания ==
 
== Домашние задания ==
  
 
== Литература ==
 
== Литература ==

Версия 13:56, 18 октября 2022

О курсе

Занятия проводятся в Zoom по пятницам в 19:00

Контакты

Канал курса в TG: channel link

Чат курса в TG: chat link

Преподаватели: Бардуков Анатолий (TG: @sindq), Свиридов Иван, Соозарь Мария

Материалы курса

Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD

Ссылка на GitHub с материалами курса: [GitHub]

Занятие Тема Дата Преподаватель Материалы для самоподготовки к семинарам Дополнительные материалы
1 Введение в распределенные системы. Bash & Docker Анатолий Бардуков 12.09.22
2 SQL, NoSQL, MPP-format. Знакомство с видами БД, синтаксис запросов Иван Свиридов 16.09.22
3 Hadoop Иван Свиридов 30.09.22
4 YARN package manager, HDFS, MapReduce Анатолий Бардуков 07.10.22
5 Spark RDD Мария Соозарь 14.10.22
6 Spark DataFrame + Spark SQL 21.10.22
7 Spark ML + handcrafted ML on Spark
8 MLOps (model -> Docker -> prod + balancer), MLFlow
9 Distributed Learning. Quantization, Distillation and Prunning
10 Approximate answer searching: LSH + HNSW
11 Streaming (Spark + Kafka)
12 Flink

Формула оценивания

min(10, 0.6 ДЗ + 0.4 проект + 0.3 бонусы)

Лист с оценками: https://docs.google.com/spreadsheets/d/158tztQ-jFFErWMk7k3INnSs8tjDTWP9j1SBE-uxFfMw/edit?usp=sharing

Домашние задания

Литература