МОВС Обработка и анализ больших массивов данных, BigData (ММОВС22, 5-6 модули) — различия между версиями
м (UPD after sem4) |
м (UPD seminars' dates) |
||
Строка 35: | Строка 35: | ||
| style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=pdBoAajgNUU&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] HDFS: принципы и основы. Основные компоненты Hadoop || 11.09.23 || || | | style="background:#eaecf0;" | '''2''' [[https://www.youtube.com/watch?v=pdBoAajgNUU&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] HDFS: принципы и основы. Основные компоненты Hadoop || 11.09.23 || || | ||
|- | |- | ||
− | | style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=6hsGxGgvKts&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] MapReduce over Python: Азы || | + | | style="background:#eaecf0;" | '''3''' [[https://www.youtube.com/watch?v=6hsGxGgvKts&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] MapReduce over Python: Азы || 18.09.23 || || [https://youtu.be/PGkDiS-XKlE?si=9kdueo_z5eC7lFNA Доклад "Многоликая pandas"], Павел Филонов |
|- | |- | ||
− | | style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=eqhZ_ktxSBw&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] MapReduce over Python: Join / Group By || | + | | style="background:#eaecf0;" | '''4''' [[https://www.youtube.com/watch?v=eqhZ_ktxSBw&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] MapReduce over Python: Join / Group By || 25.09.23 || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Hive || | + | | style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Hive || 29.09.23 || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''6''' [[ Запись]] || [[ Ноутбук]] YARN|| | + | | style="background:#eaecf0;" | '''6''' [[ Запись]] || [[ Ноутбук]] YARN|| 02.10.23 || || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ Ноутбук]] Parquet/ORC колоночный формат|| | + | | style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ Ноутбук]] Parquet/ORC колоночный формат|| 05.10.23 || || |
|- | |- | ||
| style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Spark Batch + Zeppelin || 09.10.23 || || | | style="background:#eaecf0;" | '''8''' [[ Запись]] || [[ Ноутбук]] Spark Batch + Zeppelin || 09.10.23 || || |
Версия 01:41, 29 сентября 2023
Содержание
О курсе
На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям.
Так как наш курс длится всего два модуля, а тема бигдаты настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов.
Занятия проводятся в Zoom по понедельникам в 19:40. Семинары по проектной части курса - в некоторые четверги также в 19:40
Контакты
Чат курса в TG: https://t.me/+jjXJ4m1O8shiNTcy
Преподаватель: Максим Стаценко
Ассистент | Telegram |
---|---|
Андрей Дядюнов | @mr_dyadyunov |
Андрей Бабынин | @maninoffice |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Ссылка на GitHub с материалами курса: GitHub repository
Яндекс.Диск с материалами курса: https://disk.yandex.ru/d/9QZ_6UIZvwvzhg
Занятие | Тема | Дата | Материалы для самоподготовки к семинарам | Дополнительные материалы |
---|---|---|---|---|
1 [Запись] | [Слайды] Вводная: что есть бигдата, что будет на курсе | 04.09.23 | На занятии упомянались: "Dama DMBOK2", статья "BigData is Dead". После -- Видео Димы Аношина про 2 типа инженеров данных | |
2 [Запись] | Ноутбук HDFS: принципы и основы. Основные компоненты Hadoop | 11.09.23 | ||
3 [Запись] | Ноутбук MapReduce over Python: Азы | 18.09.23 | Доклад "Многоликая pandas", Павел Филонов | |
4 [Запись] | Ноутбук MapReduce over Python: Join / Group By | 25.09.23 | ||
5 Запись | Ноутбук Hive | 29.09.23 | ||
6 Запись | Ноутбук YARN | 02.10.23 | ||
7 Запись | Ноутбук Parquet/ORC колоночный формат | 05.10.23 | ||
8 Запись | Ноутбук Spark Batch + Zeppelin | 09.10.23 | ||
9 Запись | Ноутбук Green Plum | 12.10.23 | ||
10 Запись | Ноутбук BI | 16.10.23 | ||
11 Запись | Ноутбук AirFlow | |||
12 Запись | Ноутбук ClickHouse | |||
13 Запись | Ноутбук Kafka | |||
14 Запись | Ноутбук SparkStreaming | |||
15 Запись | Ноутбук Логические архитектуры таблиц | |||
16 Запись | Ноутбук DQ + DataLineage, DWH over S3 | |||
17 Запись | Ноутбук Консультация | |||
18 Запись | Ноутбук Экзамен | |||
19 Запись | Ноутбук Защиты проектов | |||
20 Запись | Ноутбук Защиты проектов |
Записи консультаций
Формула оценивания
Оценка = ...<вес 1>...*О...<форма контроля 1>... + ...<вес 2>...*О...<форма контроля 2>... + ...<вес 3>...*О...<форма контроля 3>...
Домашние задания
Инвайт в Anytask: JWlwe2m
- Контест "Map & Reduce", Дедлайн: 08.10 (Вс), 23:59 GMT+3
Литература
- «Hadoop: The Definitive Guide», Tom White
- «Spark для профессионалов», Сэнди Риза, Ури Лезерсон, Шон Оуэн и Джош Уиллс
- Та самая "книжка с кабанчиком" «Designing Data-Intensive Applications» by Martin Kleppman
- «Big Data: Principles and Best Practices Of Scalable Real-Time Data Systems» by Nathan Marz and James Warren