МОВС Обработка и анализ больших массивов данных, BigData (ММОВС22, 5-6 модули) — различия между версиями
м (small fix lecture 8) |
м (small fix 9 lecture) |
||
Строка 47: | Строка 47: | ||
| style="background:#eaecf0;" | '''8''' [[https://www.youtube.com/watch?v=aU526n01bpo&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData_7_Spark.pptx&name=HSE20232024_BigData_7_Spark.pptx&nosw=1 Слайды]] Spark Batch || 16.10.23 || | | style="background:#eaecf0;" | '''8''' [[https://www.youtube.com/watch?v=aU526n01bpo&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData_7_Spark.pptx&name=HSE20232024_BigData_7_Spark.pptx&nosw=1 Слайды]] Spark Batch || 16.10.23 || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''9''' [[https://www.youtube.com/watch?v=fVY_hcu5tYo&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || | + | | style="background:#eaecf0;" | '''9''' [[https://www.youtube.com/watch?v=fVY_hcu5tYo&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || Логическая архитектура баз данных || 23.10.23 || |
|- | |- | ||
| Конец пятого модуля | | | Конец пятого модуля | |
Версия 20:33, 30 ноября 2023
Содержание
О курсе
На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям.
Так как наш курс длится всего два модуля, а тема бигдаты настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов.
Занятия проводятся в Zoom по понедельникам в 19:40. Семинары по проектной части курса - в некоторые четверги также в 19:40
Контакты
Чат курса в TG: https://t.me/+jjXJ4m1O8shiNTcy
Преподаватель: Максим Стаценко
Ассистент | Telegram |
---|---|
Андрей Дядюнов | @mr_dyadyunov |
Андрей Бабынин | @maninoffice |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Ссылка на GitHub с материалами курса: GitHub repository
Яндекс.Диск с материалами курса: https://disk.yandex.ru/d/9QZ_6UIZvwvzhg
Занятие | Тема | Дата | Доп. материалы |
---|---|---|---|
1 [Запись] | [Слайды] Вводная: что есть бигдата, что будет на курсе | 04.09.23 | На занятии упомянались: "Dama DMBOK2", статья "BigData is Dead". После -- Видео Димы Аношина про 2 типа инженеров данных |
2 [Запись] | [Слайды] HDFS: принципы и основы. Основные компоненты Hadoop | 11.09.23 | |
3 [Запись] | Ноутбук MapReduce over Python: Азы | 18.09.23 | Доклад "Многоликая pandas", Павел Филонов |
4 [Запись] | Ноутбук MapReduce over Python: Join / Group By | 25.09.23 | |
5 [Запись] | [Слайды] Hive | 29.09.23 | |
6 [Запись] | [Слайды] YARN | 02.10.23 | |
7 [Запись] | [Слайды] Parquet/ORC колоночный формат | 05.10.23 | |
8 [Запись] | [Слайды] Spark Batch | 16.10.23 | |
9 [Запись] | Логическая архитектура баз данных | 23.10.23 | |
10 [Запись] | ClickHouse | 06.11.23 | |
11 [Запись] | SparkStreaming | 09.11.23 | |
12 [Запись] | Spark | 13.11.23 | |
13 [Запись] | Kafka | 16.11.23 | |
14 [Запись] | Kafka, продолжение | 20.11.23 | |
15 Запись | Ноутбук Логические архитектуры таблиц | 23.11.23 | |
16 Запись | Ноутбук DQ + DataLineage, DWH over S3 | 27.11.23 | |
17 Запись | Ноутбук Key-Value хранилища: HBase, Cassandra | 30.11.23 | |
18 Запись | Ноутбук Проблемы очень больших данных | 04.12.23 | |
19 Запись | Ноутбук Защиты проектов | 07.12.23 | |
20 Запись | Ноутбук Защиты проектов | 11.12.23 |
Записи консультаций
Формула оценивания
Оценка = 0.3*ОПроект + 0.7*ОДЗ
Домашние задания
Инвайт в Anytask: JWlwe2m
- Контест "Map & Reduce", Дедлайн: 08.10 (Вс), 23:59 GMT+3
- Контест "MapReduce Python", Дедлайн: 15.10 (Вс), 23:59 GMT+3
- Контест "Hive", Дедлайн: 23.10 (Пон.), 23:59 GMT+3
- Контест "ClickHouse", Дедлайн: 12.11 (Вс.), 23:59 GMT+3
- Контест Spark-1, Дедлайн: 17.12 (Вс)б 23:59 GMT+3
Проект
Результат проекта: имеющая практический смысл система, которая:
- производит регулярную загрузку данных в хранилище;
- обрабатывает эти данные в хранилище;
- имеет какой-то интерфейс к обработанным данным.
+ Документация к системе, в которой описаны:
- компоненты системы;
- причины использования тех или иных решений;
- назначение системы.
На этапе приёмки проекта будут проверяться и оцениваться:
- практическая полезность (лучше согласовать с преподавателем и договориться заранее) и работоспособность системы [0 - 3 балла]
- наличие регулярной загрузки новых данных в хранилище (Apache Spark Streaming // AirFlow) [0 - 2 балла]
- наличие регулярной обработки данных после их загрузки (AirFlow) [0 - 3 балла]
- наличие UI (web-интерфейс // Telegram Bot // дашборд в DataLens) [0 - 2 балла]
Литература
- «Hadoop: The Definitive Guide», Tom White
- «Spark для профессионалов», Сэнди Риза, Ури Лезерсон, Шон Оуэн и Джош Уиллс
- Та самая "книжка с кабанчиком" «Designing Data-Intensive Applications» by Martin Kleppman
- «Big Data: Principles and Best Practices Of Scalable Real-Time Data Systems» by Nathan Marz and James Warren