МОВС Обработка и анализ больших массивов данных, BigData (ММОВС22, 5-6 модули)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

На нашем курсе мы поговорим про то, что такое большие данные, где хранить их, как их обрабатывать, как можно с ними работать и как давать доступ к данным другим людям.
Так как наш курс длится всего два модуля, а тема бигдаты настолько широка, что для ее глубокого изучения не хватит и двух лет, то мы разберем только самый необходимый теоретический минимум, а остальное время посвятим принципам работы популярных инструментов.


Занятия проводятся в Zoom по понедельникам в 19:40. Семинары по проектной части курса - в некоторые четверги также в 19:40

Контакты

Чат курса в TG: https://t.me/+jjXJ4m1O8shiNTcy

Преподаватель: Максим Стаценко

Ассистент Telegram
Андрей Дядюнов @mr_dyadyunov
Андрей Бабынин @maninoffice

Материалы курса

Ссылка на плейлист курса на YouTube: YouTube-playlist

Ссылка на GitHub с материалами курса: GitHub repository

Занятие Тема Дата Материалы для самоподготовки к семинарам Дополнительные материалы
1 Запись Слайды Вводная: что есть бигдата, что будет на курсе 04.09.23 На занятии упомянались: "Dama DMBOK2", статья "BigData is Dead".
После -- Видео Димы Аношина про 2 типа инженеров данных
2 Запись Ноутбук HDFS: принципы и основы. Основные компоненты Hadoop 11.09.23
3 Запись Ноутбук MapReduce over Python: Азы 14.09.23
4 Запись Ноутбук MapReduce over Python: Join / Group By 18.09.23
5 Запись Ноутбук Hive 25.09.23
6 Запись Ноутбук YARN 28.09.23
7 Запись Ноутбук Parquet/ORC колоночный формат 02.10.23
8 Запись Ноутбук Spark Batch + Zeppelin 09.10.23
9 Запись Ноутбук Green Plum 12.10.23
10 Запись Ноутбук BI 16.10.23
11 Запись Ноутбук AirFlow
12 Запись Ноутбук ClickHouse
13 Запись Ноутбук Kafka
14 Запись Ноутбук SparkStreaming
15 Запись Ноутбук Логические архитектуры таблиц
16 Запись Ноутбук DQ + DataLineage, DWH over S3
17 Запись Ноутбук Консультация
18 Запись Ноутбук Экзамен
19 Запись Ноутбук Защиты проектов
20 Запись Ноутбук Защиты проектов

Записи консультаций

Формула оценивания

Оценка = ...<вес 1>...*О...<форма контроля 1>... + ...<вес 2>...*О...<форма контроля 2>... + ...<вес 3>...*О...<форма контроля 3>...


Домашние задания

Инвайт в Anytask: JWlwe2m

Литература

  • «Hadoop: The Definitive Guide», Tom White
  • «Spark для профессионалов», Сэнди Риза, Ури Лезерсон, Шон Оуэн и Джош Уиллс
  • Та самая "книжка с кабанчиком" «Designing Data-Intensive Applications» by Martin Kleppman
  • «Big Data: Principles and Best Practices Of Scalable Real-Time Data Systems» by Nathan Marz and James Warren