МОВС Обработка и анализ больших массивов данных, BigData (ММОВС22, 5-6 модули)
Содержание
О курсе
На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям.
Так как наш курс длится всего два модуля, а тема бигдаты настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов.
Занятия проводятся в Zoom по понедельникам в 19:40. Семинары по проектной части курса - в некоторые четверги также в 19:40
Контакты
Чат курса в TG: https://t.me/+jjXJ4m1O8shiNTcy
Преподаватель: Максим Стаценко
Ассистент | Telegram |
---|---|
Андрей Дядюнов | @mr_dyadyunov |
Андрей Бабынин | @maninoffice |
Материалы курса
Ссылка на плейлист курса на YouTube: YouTube-playlist
Ссылка на GitHub с материалами курса: GitHub repository
Яндекс.Диск с материалами курса: https://disk.yandex.ru/d/9QZ_6UIZvwvzhg
Занятие | Тема | Дата | Доп. материалы |
---|---|---|---|
1 [Запись] | [Слайды] Вводная: что есть бигдата, что будет на курсе | 04.09.23 | На занятии упомянались: "Dama DMBOK2", статья "BigData is Dead". После -- Видео Димы Аношина про 2 типа инженеров данных |
2 [Запись] | [Слайды] HDFS: принципы и основы. Основные компоненты Hadoop | 11.09.23 | |
3 [Запись] | Ноутбук MapReduce over Python: Азы | 18.09.23 | Доклад "Многоликая pandas", Павел Филонов |
4 [Запись] | Ноутбук MapReduce over Python: Join / Group By | 25.09.23 | |
5 [Запись] | [Слайды] Hive | 29.09.23 | |
6 [Запись] | [Слайды] YARN | 02.10.23 | |
7 [Запись] | [Слайды] Parquet/ORC колоночный формат | 05.10.23 | |
8 Запись | Ноутбук Spark Batch + Zeppelin | 12.10.23 | |
9 Запись | Ноутбук Green Plum | 16.10.23 | |
10 Запись | Ноутбук BI | 19.10.23 | |
11 Запись | Ноутбук AirFlow | 23.10.23 | |
12 Запись | Ноутбук ClickHouse | ||
13 Запись | Ноутбук Kafka | ||
14 Запись | Ноутбук SparkStreaming | ||
15 Запись | Ноутбук Логические архитектуры таблиц | ||
16 Запись | Ноутбук DQ + DataLineage, DWH over S3 | ||
17 Запись | Ноутбук Key-Value хранилища: HBase, Cassandra | ||
18 Запись | Ноутбук Проблемы очень больших данных | ||
19 Запись | Ноутбук Защиты проектов | ||
20 Запись | Ноутбук Защиты проектов |
Записи консультаций
Формула оценивания
Оценка = 0.3*ОПроект + 0.7*ОДЗ
Домашние задания
Инвайт в Anytask: JWlwe2m
- Контест "Map & Reduce", Дедлайн: 08.10 (Вс), 23:59 GMT+3
- Контест "MapReduce Python", Дедлайн: 15.10 (Вс), 23:59 GMT+3
Литература
- «Hadoop: The Definitive Guide», Tom White
- «Spark для профессионалов», Сэнди Риза, Ури Лезерсон, Шон Оуэн и Джош Уиллс
- Та самая "книжка с кабанчиком" «Designing Data-Intensive Applications» by Martin Kleppman
- «Big Data: Principles and Best Practices Of Scalable Real-Time Data Systems» by Nathan Marz and James Warren