МОВС Обработка и анализ больших массивов данных, BigData (ММОВС22, 5-6 модули) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (UPD after sem9)
Строка 51: Строка 51:
 
| Конец пятого модуля |
 
| Конец пятого модуля |
 
|-
 
|-
| style="background:#eaecf0;" | '''10''' [[ Запись]] || [[ Ноутбук]] Green Plum, BI || ||
+
| style="background:#eaecf0;" | '''10''' [[https://www.youtube.com/watch?v=U_3V6CK02G4&list=PLmA-1xX7IuzAkhOWHn5n-Rh3Y1NoruOQ_ Запись]] || [[ Ноутбук]] Green Plum, BI || ||
 
|-
 
|-
 
| style="background:#eaecf0;" | '''11''' [[ Запись]] || [[ Ноутбук]] AirFlow ||  ||  
 
| style="background:#eaecf0;" | '''11''' [[ Запись]] || [[ Ноутбук]] AirFlow ||  ||  
Строка 87: Строка 87:
 
# [https://contest.yandex.ru/contest/53118/enter Контест "MapReduce Python"], '''Дедлайн: 15.10 (Вс), 23:59 GMT+3'''
 
# [https://contest.yandex.ru/contest/53118/enter Контест "MapReduce Python"], '''Дедлайн: 15.10 (Вс), 23:59 GMT+3'''
 
# [https://contest.yandex.ru/contest/53927/enter Контест "Hive"], '''Дедлайн: 23.10 (Пон.), 23:59 GMT+3'''
 
# [https://contest.yandex.ru/contest/53927/enter Контест "Hive"], '''Дедлайн: 23.10 (Пон.), 23:59 GMT+3'''
#
+
# [https://contest.yandex.ru/contest/55559], '''Дедлайн: 12.10 (Вс.), 23:59 GMT+3'''
 
#
 
#
 
#
 
#

Версия 14:27, 9 ноября 2023

О курсе

На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям.
Так как наш курс длится всего два модуля, а тема бигдаты настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов.


Занятия проводятся в Zoom по понедельникам в 19:40. Семинары по проектной части курса - в некоторые четверги также в 19:40

Контакты

Чат курса в TG: https://t.me/+jjXJ4m1O8shiNTcy

Преподаватель: Максим Стаценко

Ассистент Telegram
Андрей Дядюнов @mr_dyadyunov
Андрей Бабынин @maninoffice

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: GitHub repository

Яндекс.Диск с материалами курса: https://disk.yandex.ru/d/9QZ_6UIZvwvzhg

Занятие Тема Дата Доп. материалы
1 [Запись] [Слайды] Вводная: что есть бигдата, что будет на курсе 04.09.23 На занятии упомянались: "Dama DMBOK2", статья "BigData is Dead".
После -- Видео Димы Аношина про 2 типа инженеров данных
2 [Запись] [Слайды] HDFS: принципы и основы. Основные компоненты Hadoop 11.09.23
3 [Запись] Ноутбук MapReduce over Python: Азы 18.09.23 Доклад "Многоликая pandas", Павел Филонов
4 [Запись] Ноутбук MapReduce over Python: Join / Group By 25.09.23
5 [Запись] [Слайды] Hive 29.09.23
6 [Запись] [Слайды] YARN 02.10.23
7 [Запись] [Слайды] Parquet/ORC колоночный формат 05.10.23
8 [Запись] [Слайды] Spark Batch + Zeppelin 16.10.23
9 [Запись] Ноутбук Объектная модель 23.10.23
10 [Запись] Ноутбук Green Plum, BI
11 Запись Ноутбук AirFlow
12 Запись Ноутбук ClickHouse
13 Запись Ноутбук Kafka
14 Запись Ноутбук SparkStreaming
15 Запись Ноутбук Логические архитектуры таблиц
16 Запись Ноутбук DQ + DataLineage, DWH over S3
17 Запись Ноутбук Key-Value хранилища: HBase, Cassandra
18 Запись Ноутбук Проблемы очень больших данных
19 Запись Ноутбук Защиты проектов
20 Запись Ноутбук Защиты проектов

Записи консультаций

Формула оценивания

Оценка = 0.3*ОПроект + 0.7*ОДЗ

Домашние задания

Инвайт в Anytask: JWlwe2m

  1. Контест "Map & Reduce", Дедлайн: 08.10 (Вс), 23:59 GMT+3
  2. Контест "MapReduce Python", Дедлайн: 15.10 (Вс), 23:59 GMT+3
  3. Контест "Hive", Дедлайн: 23.10 (Пон.), 23:59 GMT+3
  4. [1], Дедлайн: 12.10 (Вс.), 23:59 GMT+3

Проект

Результат проекта: имеющая практический смысл система, которая:

  • производит регулярную загрузку данных в хранилище;
  • обрабатывает эти данные в хранилище;
  • имеет какой-то интерфейс к обработанным данным.

+ Документация к системе, в которой описаны:

  • компоненты системы;
  • причины использования тех или иных решений;
  • назначение системы.

На этапе приёмки проекта будут проверяться и оцениваться:

  1. практическая полезность (лучше согласовать с преподавателем и договориться заранее) и работоспособность системы [0 - 3 балла]
  2. наличие регулярной загрузки новых данных в хранилище (Apache Spark Streaming // AirFlow) [0 - 2 балла]
  3. наличие регулярной обработки данных после их загрузки (AirFlow) [0 - 3 балла]
  4. наличие UI (web-интерфейс // Telegram Bot // дашборд в DataLens) [0 - 2 балла]

Литература

  • «Hadoop: The Definitive Guide», Tom White
  • «Spark для профессионалов», Сэнди Риза, Ури Лезерсон, Шон Оуэн и Джош Уиллс
  • Та самая "книжка с кабанчиком" «Designing Data-Intensive Applications» by Martin Kleppman
  • «Big Data: Principles and Best Practices Of Scalable Real-Time Data Systems» by Nathan Marz and James Warren