МОВС Обработка и анализ больших массивов данных, BigData (ММОВС22, 5-6 модули) — различия между версиями
м (add formula) |
м (UPD curriculum table) |
||
Строка 29: | Строка 29: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! Занятие !! Тема !! Дата !! | + | ! Занятие !! Тема !! Дата !! Доп. материалы |
|- | |- | ||
− | | style="background:#eaecf0;" | '''1''' [[https://www.youtube.com/watch?v=k_9GUcKctsg&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData.pptx&name=HSE20232024_BigData.pptx&nosw=1 Слайды]] Вводная: что есть бигдата, что будет на курсе || 04.09.23 | + | | style="background:#eaecf0;" | '''1''' [[https://www.youtube.com/watch?v=k_9GUcKctsg&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData.pptx&name=HSE20232024_BigData.pptx&nosw=1 Слайды]] Вводная: что есть бигдата, что будет на курсе || 04.09.23 || На занятии упомянались: "Dama DMBOK2", статья [https://motherduck.com/blog/big-data-is-dead/ "BigData is Dead"].<br/> После -- [https://youtu.be/3OwMq341zQs?si=6zHJR-Cw7M3UJ4ic Видео Димы Аношина] про 2 типа инженеров данных |
|- | |- | ||
− | | style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=pdBoAajgNUU&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData_2_hdfs.pptx&name=HSE20232024_BigData_2_hdfs.pptx&nosw=1 Слайды]] HDFS: принципы и основы. Основные компоненты Hadoop || 11.09.23 | + | | style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=pdBoAajgNUU&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData_2_hdfs.pptx&name=HSE20232024_BigData_2_hdfs.pptx&nosw=1 Слайды]] HDFS: принципы и основы. Основные компоненты Hadoop || 11.09.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=6hsGxGgvKts&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] MapReduce over Python: Азы || 18.09.23 | + | | style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=6hsGxGgvKts&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] MapReduce over Python: Азы || 18.09.23 || [https://youtu.be/PGkDiS-XKlE?si=9kdueo_z5eC7lFNA Доклад "Многоликая pandas"], Павел Филонов |
|- | |- | ||
− | | style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=eqhZ_ktxSBw&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] MapReduce over Python: Join / Group By || 25.09.23 | + | | style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=eqhZ_ktxSBw&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] MapReduce over Python: Join / Group By || 25.09.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''5''' [[https://www.youtube.com/watch?v=EDbjI3cs-r4&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData_5_hive.pptx&name=HSE20232024_BigData_5_hive.pptx&nosw=1 Слайды]] Hive || 29.09.23 | + | | style="background:#eaecf0;" | '''5''' [[https://www.youtube.com/watch?v=EDbjI3cs-r4&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData_5_hive.pptx&name=HSE20232024_BigData_5_hive.pptx&nosw=1 Слайды]] Hive || 29.09.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''6''' [[https://www.youtube.com/watch?v=mf3J3TI6mNI&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData_5_yarn.pptx&name=HSE20232024_BigData_5_yarn.pptx&nosw=1 Слайды]] YARN|| 02.10.23 | + | | style="background:#eaecf0;" | '''6''' [[https://www.youtube.com/watch?v=mf3J3TI6mNI&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData_5_yarn.pptx&name=HSE20232024_BigData_5_yarn.pptx&nosw=1 Слайды]] YARN|| 02.10.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ | + | | style="background:#eaecf0;" | '''7''' [[https://www.youtube.com/watch?v=Qlt0Qb177B8&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[https://docs.yandex.ru/docs/view?url=ya-disk-public%3A%2F%2FDK4yZQ4%2B4BKxPG8NpPT3antMZuUv6wdHFvLpaGwZSMpfT7O%2FAl68xlJk3QmmbNZ0q%2FJ6bpmRyOJonT3VoXnDag%3D%3D%3A%2FHSE20232024_BigData_6_parquet.pptx&name=HSE20232024_BigData_6_parquet.pptx&nosw=1 Слайды]] Parquet/ORC колоночный формат|| 05.10.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Spark Batch + Zeppelin || | + | | style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Spark Batch + Zeppelin || 12.10.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''9''' [[ Запись]] || [[ Ноутбук]] Green Plum || | + | | style="background:#eaecf0;" | '''9''' [[ Запись]] || [[ Ноутбук]] Green Plum || 16.10.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''10''' [[ Запись]] || [[ Ноутбук]] BI || | + | | style="background:#eaecf0;" | '''10''' [[ Запись]] || [[ Ноутбук]] BI || 19.10.23 || |
|- | |- | ||
− | | | + | | style="background:#eaecf0;" | '''11''' [[ Запись]] || [[ Ноутбук]] AirFlow || 23.10.23 || |
|- | |- | ||
− | | | + | | Конец пятого модуля | |
|- | |- | ||
− | | style="background:#eaecf0;" | '''12''' [[ Запись]] || [[ Ноутбук]] ClickHouse || | + | | style="background:#eaecf0;" | '''12''' [[ Запись]] || [[ Ноутбук]] ClickHouse || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''13''' [[ Запись]] || [[ Ноутбук]] Kafka || | + | | style="background:#eaecf0;" | '''13''' [[ Запись]] || [[ Ноутбук]] Kafka || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''14''' [[ Запись]] || [[ Ноутбук]] SparkStreaming || | + | | style="background:#eaecf0;" | '''14''' [[ Запись]] || [[ Ноутбук]] SparkStreaming || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''15''' [[ Запись]] || [[ Ноутбук]] Логические архитектуры таблиц || | + | | style="background:#eaecf0;" | '''15''' [[ Запись]] || [[ Ноутбук]] Логические архитектуры таблиц || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''16''' [[ Запись]] || [[ Ноутбук]] DQ + DataLineage, DWH over S3 || | + | | style="background:#eaecf0;" | '''16''' [[ Запись]] || [[ Ноутбук]] DQ + DataLineage, DWH over S3 || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''17''' [[ Запись]] || [[ Ноутбук]] | + | | style="background:#eaecf0;" | '''17''' [[ Запись]] || [[ Ноутбук]] ''Key-Value хранилища: HBase, Cassandra'' || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''18''' [[ Запись]] || [[ Ноутбук]] | + | | style="background:#eaecf0;" | '''18''' [[ Запись]] || [[ Ноутбук]] ''Проблемы очень больших данных'' || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''19''' [[ Запись]] || [[ Ноутбук]] Защиты проектов || | + | | style="background:#eaecf0;" | '''19''' [[ Запись]] || [[ Ноутбук]] Защиты проектов || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''20''' [[ Запись]] || [[ Ноутбук]] Защиты проектов || | + | | style="background:#eaecf0;" | '''20''' [[ Запись]] || [[ Ноутбук]] Защиты проектов || || |
|- | |- | ||
|} | |} |
Версия 10:04, 12 октября 2023
Содержание
О курсе
На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям.
Так как наш курс длится всего два модуля, а тема бигдаты настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов.
Занятия проводятся в Zoom по понедельникам в 19:40. Семинары по проектной части курса - в некоторые четверги также в 19:40
Контакты
Чат курса в TG: https://t.me/+jjXJ4m1O8shiNTcy
Преподаватель: Максим Стаценко
Ассистент | Telegram |
---|---|
Андрей Дядюнов | @mr_dyadyunov |
Андрей Бабынин | @maninoffice |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Ссылка на GitHub с материалами курса: GitHub repository
Яндекс.Диск с материалами курса: https://disk.yandex.ru/d/9QZ_6UIZvwvzhg
Занятие | Тема | Дата | Доп. материалы |
---|---|---|---|
1 [Запись] | [Слайды] Вводная: что есть бигдата, что будет на курсе | 04.09.23 | На занятии упомянались: "Dama DMBOK2", статья "BigData is Dead". После -- Видео Димы Аношина про 2 типа инженеров данных |
2 [Запись] | [Слайды] HDFS: принципы и основы. Основные компоненты Hadoop | 11.09.23 | |
3 [Запись] | Ноутбук MapReduce over Python: Азы | 18.09.23 | Доклад "Многоликая pandas", Павел Филонов |
4 [Запись] | Ноутбук MapReduce over Python: Join / Group By | 25.09.23 | |
5 [Запись] | [Слайды] Hive | 29.09.23 | |
6 [Запись] | [Слайды] YARN | 02.10.23 | |
7 [Запись] | [Слайды] Parquet/ORC колоночный формат | 05.10.23 | |
8 Запись | Ноутбук Spark Batch + Zeppelin | 12.10.23 | |
9 Запись | Ноутбук Green Plum | 16.10.23 | |
10 Запись | Ноутбук BI | 19.10.23 | |
11 Запись | Ноутбук AirFlow | 23.10.23 | |
12 Запись | Ноутбук ClickHouse | ||
13 Запись | Ноутбук Kafka | ||
14 Запись | Ноутбук SparkStreaming | ||
15 Запись | Ноутбук Логические архитектуры таблиц | ||
16 Запись | Ноутбук DQ + DataLineage, DWH over S3 | ||
17 Запись | Ноутбук Key-Value хранилища: HBase, Cassandra | ||
18 Запись | Ноутбук Проблемы очень больших данных | ||
19 Запись | Ноутбук Защиты проектов | ||
20 Запись | Ноутбук Защиты проектов |
Записи консультаций
Формула оценивания
Оценка = 0.3*ОПроект + 0.7*ОДЗ
Домашние задания
Инвайт в Anytask: JWlwe2m
- Контест "Map & Reduce", Дедлайн: 08.10 (Вс), 23:59 GMT+3
- Контест "MapReduce Python", Дедлайн: 15.10 (Вс), 23:59 GMT+3
Литература
- «Hadoop: The Definitive Guide», Tom White
- «Spark для профессионалов», Сэнди Риза, Ури Лезерсон, Шон Оуэн и Джош Уиллс
- Та самая "книжка с кабанчиком" «Designing Data-Intensive Applications» by Martin Kleppman
- «Big Data: Principles and Best Practices Of Scalable Real-Time Data Systems» by Nathan Marz and James Warren