МОВС Обработка и анализ больших массивов данных, BigData (ММОВС22, 5-6 модули)

Содержание

1 О курсе
2 Контакты
3 Материалы курса
- 3.1 Записи консультаций
4 Формула оценивания
5 Домашние задания
6 Проект
7 Литература

О курсе

На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям.
Так как наш курс длится всего два модуля, а тема бигдаты настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов.

Занятия проводятся в Zoom по понедельникам в 19:40. Семинары по проектной части курса - в некоторые четверги также в 19:40

Контакты

Чат курса в TG: https://t.me/+jjXJ4m1O8shiNTcy

Преподаватель: Максим Стаценко

Ассистент	Telegram
Андрей Дядюнов	@mr_dyadyunov
Андрей Бабынин	@maninoffice

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: GitHub repository

Яндекс.Диск с материалами курса: https://disk.yandex.ru/d/9QZ_6UIZvwvzhg

Занятие	Тема	Дата	Доп. материалы
1 [Запись]	[Слайды] Вводная: что есть бигдата, что будет на курсе	04.09.23	На занятии упомянались: "Dama DMBOK2", статья "BigData is Dead". После -- Видео Димы Аношина про 2 типа инженеров данных
2 [Запись]	[Слайды] HDFS: принципы и основы. Основные компоненты Hadoop	11.09.23
3 [Запись]	Ноутбук MapReduce over Python: Азы	18.09.23	Доклад "Многоликая pandas", Павел Филонов
4 [Запись]	Ноутбук MapReduce over Python: Join / Group By	25.09.23
5 [Запись]	[Слайды] Hive	29.09.23
6 [Запись]	[Слайды] YARN	02.10.23
7 [Запись]	[Слайды] Parquet/ORC колоночный формат	05.10.23
8 [Запись]	[Слайды] Spark Batch + Zeppelin	16.10.23
9 [Запись]	Ноутбук Объектная модель	23.10.23

10 [Запись]	Ноутбук Green Plum, BI
11 Запись	Ноутбук AirFlow
12 Запись	Ноутбук ClickHouse
13 Запись	Ноутбук Kafka
14 Запись	Ноутбук SparkStreaming
15 Запись	Ноутбук Логические архитектуры таблиц
16 Запись	Ноутбук DQ + DataLineage, DWH over S3
17 Запись	Ноутбук Key-Value хранилища: HBase, Cassandra
18 Запись	Ноутбук Проблемы очень больших данных
19 Запись	Ноутбук Защиты проектов
20 Запись	Ноутбук Защиты проектов

Записи консультаций

Формула оценивания

Оценка = 0.3*О_Проект + 0.7*О_ДЗ

Домашние задания

Инвайт в Anytask: JWlwe2m

Контест "Map & Reduce", Дедлайн: 08.10 (Вс), 23:59 GMT+3
Контест "MapReduce Python", Дедлайн: 15.10 (Вс), 23:59 GMT+3
Контест "Hive", Дедлайн: 23.10 (Пон.), 23:59 GMT+3
[1], Дедлайн: 12.10 (Вс.), 23:59 GMT+3

Проект

Результат проекта: имеющая практический смысл система, которая:

производит регулярную загрузку данных в хранилище;
обрабатывает эти данные в хранилище;
имеет какой-то интерфейс к обработанным данным.

+ Документация к системе, в которой описаны:

компоненты системы;
причины использования тех или иных решений;
назначение системы.

На этапе приёмки проекта будут проверяться и оцениваться:

практическая полезность (лучше согласовать с преподавателем и договориться заранее) и работоспособность системы [0 - 3 балла]
наличие регулярной загрузки новых данных в хранилище (Apache Spark Streaming // AirFlow) [0 - 2 балла]
наличие регулярной обработки данных после их загрузки (AirFlow) [0 - 3 балла]
наличие UI (web-интерфейс // Telegram Bot // дашборд в DataLens) [0 - 2 балла]

Литература

«Hadoop: The Definitive Guide», Tom White
«Spark для профессионалов», Сэнди Риза, Ури Лезерсон, Шон Оуэн и Джош Уиллс
Та самая "книжка с кабанчиком" «Designing Data-Intensive Applications» by Martin Kleppman
«Big Data: Principles and Best Practices Of Scalable Real-Time Data Systems» by Nathan Marz and James Warren

МОВС Обработка и анализ больших массивов данных, BigData (ММОВС22, 5-6 модули)

Содержание

О курсе

Контакты

Материалы курса

Записи консультаций

Формула оценивания

Домашние задания

Проект

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты