Обработка и анализ больших массивов данных (МОиВС, осень21, 2022)
Содержание
О курсе
Занятия проводятся в Zoom по пятницам в 19:00
Контакты
Канал курса в TG: channel link
Чат курса в TG: chat link
Преподаватели: Бардуков Анатолий (TG: @sindq), Свиридов Иван, Соозарь Мария
Материалы курса
Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD
Ссылка на GitHub с материалами курса: [GitHub]
Занятие | Тема | Дата | Преподаватель | Материалы для самоподготовки к семинарам | Дополнительные материалы |
---|---|---|---|---|---|
1 | Введение в распределенные системы. Bash & Docker | 12.09.22 | Анатолий Бардуков | ||
2 | SQL, NoSQL, MPP-format. Знакомство с видами БД, синтаксис запросов | 16.09.22 | Иван Свиридов | ||
3 | Hadoop | 30.09.22 | Иван Свиридов | ||
4 | YARN package manager, HDFS, MapReduce | 07.10.22 | Анатолий Бардуков | ||
5 | Spark RDD | 14.10.22 | Мария Соозарь | ||
6 | Spark DataFrame + Spark SQL | 21.10.22 | |||
7 | Spark ML + handcrafted ML on Spark | ||||
8 | MLOps (model -> Docker -> prod + balancer), MLFlow | ||||
9 | Distributed Learning. Quantization, Distillation and Prunning | ||||
10 | Approximate answer searching: LSH + HNSW | ||||
11 | Streaming (Spark + Kafka) | ||||
12 | Flink | ||||
13 | ETL-process (Airflow), Data Warehouse (WDH) | ||||
14 | Vertica | ||||
15 | Data Vault |
Формула оценивания
min(10, 0.6 ДЗ + 0.4 проект + 0.3 бонусы)
Лист с оценками: https://docs.google.com/spreadsheets/d/158tztQ-jFFErWMk7k3INnSs8tjDTWP9j1SBE-uxFfMw/edit?usp=sharing
Домашние задания
В папках занятий на Гитхабе есть Docker'ы с заданиями для запуска
Базовый подход к сдаче заданий нижеследующий:
1. запустить Docker-контейнер по выбранной теме
docker run -d -p <local>:<container> sindq/lsml-w<N>[-<task>]-ru
2. решить задания в контейнере, в результате чего вы получите некоторый файл с решением (в контейнере)
3. сделать специфический запрос в грейдер (параметры - задание, ваш идентификатор (аккаунт в тг), номер задания, решение (тело post запроса))
curl -F @filename <IP>/<COURSE>/<USER>/w<N>/<task>
4. оценку автоматически сохранится в документ с оценками (сохраняется не лучшая, а последняя попытка, комментарии к ячейке будут содержать доп информацию)
Бонусные задания
Каждое защищённое задание даёт 1 балл от итоговой оценки.
По своей сути они похожи на архитектурные собеседования, у вас будет 25 минут на презентацию вашего решения (обычно даётся 1 час, но и решается задание на месте)
Процесс сдачи
Устная защита решения, прорабатываемого вами самостоятельно, выглядит так:
- выбираете тему
- придумываете решение, примерные критерии будут описаны в самом задании
- договариваетесь о дате созвона с кем-то из преподавателей
- звонок длится ~40 минут (15 минут закладываем на вопросы, постановку и общение на смежные темы)
- получаете оценку :)