Обработка и анализ больших массивов данных (МОиВС, осень21, 2022) — различия между версиями

Версия 18:52, 3 ноября 2022

Содержание

1 О курсе
2 Контакты
3 Материалы курса
4 Формула оценивания
5 Домашние задания
- 5.1 Бонусные задания
  - 5.1.1 Процесс сдачи
6 Литература

О курсе

Занятия проводятся в Zoom по пятницам в 19:00

Контакты

Канал курса в TG: channel link

Чат курса в TG: chat link

Преподаватели: Бардуков Анатолий (TG: @sindq), Свиридов Иван, Соозарь Мария

Материалы курса

Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD

Ссылка на GitHub с материалами курса: [GitHub]

Занятие	Тема	Дата	Преподаватель
1 [Запись]	Введение в распределенные системы. Bash & Docker	12.09.22	Анатолий Бардуков
2 [Запись]	SQL, NoSQL, MPP-format. Знакомство с видами БД, синтаксис запросов	16.09.22	Иван Свиридов
3 [Запись]	Hadoop	30.09.22	Иван Свиридов
4 [Запись]	YARN package manager, HDFS, MapReduce	07.10.22	Анатолий Бардуков
5 [Запись]	Spark RDD	14.10.22	Мария Соозарь
6 [Запись]	Spark DataFrame + Spark SQL	21.10.22	Анатолий Бардуков

7	Spark ML + handcrafted ML on Spark
8	MLOps (model -> Docker -> prod + balancer), MLFlow
9	Distributed Learning. Quantization, Distillation and Prunning
10	Approximate answer searching: LSH + HNSW
11	Streaming (Spark + Kafka)
12	Flink
13	ETL-process (Airflow), Data Warehouse (WDH)
14	Vertica
15	Data Vault

Формула оценивания

min(10, 0.6 ДЗ + 0.4 проект + 0.3 бонусы)

Лист с оценками: https://docs.google.com/spreadsheets/d/158tztQ-jFFErWMk7k3INnSs8tjDTWP9j1SBE-uxFfMw/edit?usp=sharing

Домашние задания

В папках занятий на Гитхабе есть Docker'ы с заданиями для запуска

Базовый подход к сдаче заданий нижеследующий:

1. запустить Docker-контейнер по выбранной теме

docker run -d -p <local>:<container> sindq/lsml-w<N>[-<task>]-ru

2. решить задания в контейнере, в результате чего вы получите некоторый файл с решением (в контейнере)

3. сделать специфический запрос в грейдер (параметры - задание, ваш идентификатор (аккаунт в тг), номер задания, решение (тело post запроса))

curl -F @filename <IP>/<COURSE>/<USER>/w<N>/<task>

4. оценку автоматически сохранится в документ с оценками (сохраняется не лучшая, а последняя попытка, комментарии к ячейке будут содержать доп информацию)

Бонусные задания

Каждое защищённое задание даёт 1 балл от итоговой оценки.

По своей сути они похожи на архитектурные собеседования, у вас будет 25 минут на презентацию вашего решения (обычно даётся 1 час, но и решается задание на месте)

Процесс сдачи

Устная защита решения, прорабатываемого вами самостоятельно, выглядит так:

выбираете тему
придумываете решение, примерные критерии будут описаны в самом задании
договариваетесь о дате созвона с кем-то из преподавателей
звонок длится ~40 минут (15 минут закладываем на вопросы, постановку и общение на смежные темы)
получаете оценку :)

Литература

«Hadoop: The Definitive Guide», Tom White
«Spark для профессионалов», Сэнди Риза, Ури Лезерсон, Шон Оуэн и Джош Уиллс
Та самая "книжка с кабанчиком" «Designing Data-Intensive Applications» by Martin Kleppman
«Big Data: Principles and Best Practices Of Scalable Real-Time Data Systems» by Nathan Marz and James Warren

@@ Строка 20: / Строка 20: @@
   ! Занятие !! Тема !! Дата !! Преподаватель !! Материалы для самоподготовки к семинарам !! Дополнительные материалы
 |-
-| style="background:#eaecf0;" | '''1''' || Введение в распределенные системы. Bash & Docker || 12.09.22 || Анатолий Бардуков  ||
+| style="background:#eaecf0;" | '''1''' [[https://www.youtube.com/watch?v=GfIYKt0BgB0&list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD Запись]] || Введение в распределенные системы. Bash & Docker || 12.09.22 || Анатолий Бардуков  ||
 |-
-| style="background:#eaecf0;" | '''2''' || SQL, NoSQL, MPP-format. Знакомство с видами БД, синтаксис запросов || 16.09.22 || Иван Свиридов|| ||
+| style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=x4BMfe8-75k&list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD Запись]] || SQL, NoSQL, MPP-format. Знакомство с видами БД, синтаксис запросов || 16.09.22 || Иван Свиридов|| ||
 |-
-| style="background:#eaecf0;" | '''3''' || Hadoop || 30.09.22 || Иван Свиридов || ||
+| style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=N7M1i7Wlvms&list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD Запись]] || Hadoop || 30.09.22 || Иван Свиридов || ||
 |-
-| style="background:#eaecf0;" | '''4''' || YARN package manager, HDFS, MapReduce || 07.10.22 || Анатолий Бардуков || ||
+| style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=_8TeUlJSJEQ&list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD Запись]] || YARN package manager, HDFS, MapReduce || 07.10.22 || Анатолий Бардуков || ||
 |-
-| style="background:#eaecf0;" | '''5''' || Spark RDD || 14.10.22 || Мария Соозарь || ||
+| style="background:#eaecf0;" | '''5''' [[https://www.youtube.com/watch?v=zMkAo7u9KQc&list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD Запись]] || Spark RDD || 14.10.22 || Мария Соозарь || ||
 |-
-| style="background:#eaecf0;" | '''6''' || Spark DataFrame + Spark SQL || 21.10.22 ||  || ||
+| style="background:#eaecf0;" | '''6''' [[https://www.youtube.com/watch?v=Xn3cCUP5LTE&list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD Запись]] || Spark DataFrame + Spark SQL || 21.10.22 || Анатолий Бардуков || ||
 |-
 |

Обработка и анализ больших массивов данных (МОиВС, осень21, 2022) — различия между версиями

Версия 18:52, 3 ноября 2022

Содержание

О курсе

Контакты

Материалы курса

Формула оценивания

Домашние задания

Бонусные задания

Процесс сдачи

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты