МОВС Обработка и анализ больших массивов данных, BigData (ММОВС22, 5-6 модули)

Содержание

1 О курсе
2 Контакты
3 Материалы курса
- 3.1 Записи консультаций
4 Формула оценивания
5 Домашние задания
6 Проект
7 Литература

О курсе

На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям.
Так как наш курс длится всего два модуля, а тема бигдаты настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов.

Занятия проводятся в Zoom по понедельникам в 19:40. Семинары по проектной части курса - в некоторые четверги также в 19:40

Контакты

Чат курса в TG: https://t.me/+jjXJ4m1O8shiNTcy

Преподаватель: Максим Стаценко

Ассистент	Telegram
Андрей Дядюнов	@mr_dyadyunov
Андрей Бабынин	@maninoffice

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: GitHub repository

Яндекс.Диск с материалами курса: https://disk.yandex.ru/d/9QZ_6UIZvwvzhg

Занятие	Тема	Дата	Доп. материалы
1 Запись	Слайды Вводная: что есть бигдата, что будет на курсе	04.09.23	На занятии упомянались: "Dama DMBOK2", статья "BigData is Dead". После -- Видео Димы Аношина про 2 типа инженеров данных
2 Запись	Слайды HDFS: принципы и основы. Основные компоненты Hadoop	11.09.23
3 Запись	MapReduce over Python: Азы	18.09.23	Доклад "Многоликая pandas", Павел Филонов
4 Запись	MapReduce over Python: Join / Group By	25.09.23
5 Запись	Слайды Hive	29.09.23
6 Запись	Слайды YARN	02.10.23
7 Запись	Слайды Parquet/ORC колоночный формат	05.10.23
8 Запись	Слайды Spark Batch	16.10.23
9 Запись	Логическая архитектура баз данных	23.10.23

10 Запись	GreenPlum, ClickHouse	06.11.23
11 Запись	SparkStreaming	09.11.23
12 Запись	Spark	13.11.23
13 Запись	Kafka	16.11.23
14 Запись	Kafka, продолжение	20.11.23
15 Запись	Apache Spark Streaming	23.11.23
16 Запись	BI-инструменты	27.11.23
17 Запись	DataMesh	30.11.23
18 Запись	Многопоточность	11.12.23
19 Запись	Консультация по проекту	14.12.23
20 Запись	Разбор шаблона проекта	18.12.23

Записи консультаций

Формула оценивания

Оценка = 0.3*О_Проект + 0.7*О_ДЗ

Домашние задания

Инвайт в Anytask: JWlwe2m

Контест "Map & Reduce", Дедлайн: 08.10 (Вс), 23:59 GMT+3
Контест "MapReduce Python", Дедлайн: 15.10 (Вс), 23:59 GMT+3
Контест "Hive", Дедлайн: 23.10 (Пон.), 23:59 GMT+3
Контест "ClickHouse", Дедлайн: 12.11 (Вс.), 23:59 GMT+3
Контест Spark-1, Дедлайн: 17.12 (Вс), 23:59 GMT+3
Контест Spark-2, Дедлайн: 10.01 (Cр), 23:59 GMT+3

Проект

Результат проекта: имеющая практический смысл система, которая:

производит регулярную загрузку данных в хранилище;
обрабатывает эти данные в хранилище;
имеет какой-то интерфейс к обработанным данным.

+ Документация к системе, в которой описаны:

компоненты системы;
причины использования тех или иных решений;
назначение системы.

На этапе приёмки проекта будут проверяться и оцениваться:

практическая полезность (лучше согласовать с преподавателем и договориться заранее) и работоспособность системы [0 - 3 балла]
наличие регулярной загрузки новых данных в хранилище (Apache Spark Streaming // AirFlow) [0 - 2 балла]
наличие регулярной обработки данных после их загрузки (AirFlow) [0 - 3 балла]
наличие UI (web-интерфейс // Telegram Bot // дашборд в DataLens) [0 - 2 балла]

Литература

«Hadoop: The Definitive Guide», Tom White
«Spark для профессионалов», Сэнди Риза, Ури Лезерсон, Шон Оуэн и Джош Уиллс
Та самая "книжка с кабанчиком" «Designing Data-Intensive Applications» by Martin Kleppman
«Big Data: Principles and Best Practices Of Scalable Real-Time Data Systems» by Nathan Marz and James Warren

МОВС Обработка и анализ больших массивов данных, BigData (ММОВС22, 5-6 модули)

Содержание

О курсе

Контакты

Материалы курса

Записи консультаций

Формула оценивания

Домашние задания

Проект

Литература

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты