Обработка и анализ больших массивов данных (МОиВС, осень21, 2022) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (add recordings links)
м (add videos' links)
Строка 34: Строка 34:
 
|
 
|
 
|-
 
|-
| style="background:#eaecf0;" | '''7''' || Spark ML + handcrafted ML on Spark || || || ||
+
| style="background:#eaecf0;" | '''7''' [[https://www.youtube.com/watch?v=uVI5F9lvDx4&list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD Запись]] || Spark ML + handcrafted ML on Spark || 11.11.22 || Анатолий Бардуков || ||
 
|-
 
|-
| style="background:#eaecf0;" | '''8''' || MLOps (model -> Docker -> prod + balancer), MLFlow || || || ||
+
| style="background:#eaecf0;" | '''8''' [[https://www.youtube.com/watch?v=Uzad_U5L4wg&list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD Запись]] || MLOps (model -> Docker -> prod + balancer), MLFlow || 16.11.22 || Анатолий Бардуков || ||
 
|-
 
|-
| style="background:#eaecf0;" | '''9''' || Distributed Learning. Quantization, Distillation and Prunning || || || ||
+
| style="background:#eaecf0;" | '''9''' [[ Запись]] || Distributed Learning. Quantization, Distillation and Prunning || 18.11.22 || Анатолий Бардуков || ||
 
|-
 
|-
| style="background:#eaecf0;" | '''10''' || Approximate answer searching: LSH + HNSW || || || ||
+
| style="background:#eaecf0;" | '''10''' [[ Запись]] || Approximate answer searching: LSH + HNSW || 23.11.22 || Иван Свиридов || ||
 
|-
 
|-
| style="background:#eaecf0;" | '''11''' || Streaming (Spark + Kafka) || || || ||
+
| style="background:#eaecf0;" | '''11''' [[ Запись]] || Streaming (Spark + Kafka) || 25.11.22 || || ||
 
|-
 
|-
 
| style="background:#eaecf0;" | '''12''' || Flink  || || || ||
 
| style="background:#eaecf0;" | '''12''' || Flink  || || || ||

Версия 13:10, 17 ноября 2022

О курсе

Занятия проводятся в Zoom по пятницам в 19:00

Контакты

Канал курса в TG: channel link

Чат курса в TG: chat link

Преподаватели: Бардуков Анатолий (TG: @sindq), Свиридов Иван, Соозарь Мария

Материалы курса

Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD

Ссылка на GitHub с материалами курса: [GitHub]

Занятие Тема Дата Преподаватель Материалы для самоподготовки к семинарам Дополнительные материалы
1 [Запись] Введение в распределенные системы. Bash & Docker 12.09.22 Анатолий Бардуков
2 [Запись] SQL, NoSQL, MPP-format. Знакомство с видами БД, синтаксис запросов 16.09.22 Иван Свиридов
3 [Запись] Hadoop 30.09.22 Иван Свиридов
4 [Запись] YARN package manager, HDFS, MapReduce 07.10.22 Анатолий Бардуков
5 [Запись] Spark RDD 14.10.22 Мария Соозарь
6 [Запись] Spark DataFrame + Spark SQL 21.10.22 Анатолий Бардуков
7 [Запись] Spark ML + handcrafted ML on Spark 11.11.22 Анатолий Бардуков
8 [Запись] MLOps (model -> Docker -> prod + balancer), MLFlow 16.11.22 Анатолий Бардуков
9 Запись Distributed Learning. Quantization, Distillation and Prunning 18.11.22 Анатолий Бардуков
10 Запись Approximate answer searching: LSH + HNSW 23.11.22 Иван Свиридов
11 Запись Streaming (Spark + Kafka) 25.11.22
12 Flink
13 ETL-process (Airflow), Data Warehouse (WDH)
14 Vertica
15 Data Vault

Формула оценивания

min(10, 0.6 ДЗ + 0.4 проект + 0.3 бонусы)

Лист с оценками: https://docs.google.com/spreadsheets/d/158tztQ-jFFErWMk7k3INnSs8tjDTWP9j1SBE-uxFfMw/edit?usp=sharing

Домашние задания

В папках занятий на Гитхабе есть Docker'ы с заданиями для запуска

Базовый подход к сдаче заданий нижеследующий:

1. запустить Docker-контейнер по выбранной теме

docker run -d -p <local>:<container> sindq/lsml-w<N>[-<task>]-ru

2. решить задания в контейнере, в результате чего вы получите некоторый файл с решением (в контейнере)

3. сделать специфический запрос в грейдер (параметры - задание, ваш идентификатор (аккаунт в тг), номер задания, решение (тело post запроса))

curl -F @filename <IP>/<COURSE>/<USER>/w<N>/<task>

4. оценку автоматически сохранится в документ с оценками (сохраняется не лучшая, а последняя попытка, комментарии к ячейке будут содержать доп информацию)

Бонусные задания

Каждое защищённое задание даёт 1 балл от итоговой оценки.

По своей сути они похожи на архитектурные собеседования, у вас будет 25 минут на презентацию вашего решения (обычно даётся 1 час, но и решается задание на месте)

Процесс сдачи

Устная защита решения, прорабатываемого вами самостоятельно, выглядит так:

  • выбираете тему
  • придумываете решение, примерные критерии будут описаны в самом задании
  • договариваетесь о дате созвона с кем-то из преподавателей
  • звонок длится ~40 минут (15 минут закладываем на вопросы, постановку и общение на смежные темы)
  • получаете оценку :)

Литература

  • «Hadoop: The Definitive Guide», Tom White
  • «Spark для профессионалов», Сэнди Риза, Ури Лезерсон, Шон Оуэн и Джош Уиллс
  • Та самая "книжка с кабанчиком" «Designing Data-Intensive Applications» by Martin Kleppman
  • «Big Data: Principles and Best Practices Of Scalable Real-Time Data Systems» by Nathan Marz and James Warren