МОВС Обработка и анализ больших массивов данных, BigData (ММОВС23, 5-6 модули)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс читается в 1-2 модулях 2024/2025 учебного года.

Для чего нужны платформы данных? Как бы это очевидно ни звучало, они нужны для принятия решений на основе данных. У бизнеса может быть бесконечное количество запросов: как изменить цену товаров, в каком месте разместить магазин, кому показать рекламу, куда сдвинуть кнопку на сайте и т.д. Эти задачи могут решаться с помощью аналитики, построения дашбордов, сбора метрик, построения ML-моделей и т.д. Само по себе решение таких задач нетривиально, однако, это лишь верхушка айсберга.

Прежде, чем проводить какую-либо аналитику, данные нужно найти, загрузить в хранилище, проверить их качество, агрегировать, и на любом из этапов может возникнуть огромное количество проблем. Здесь и появляются платформы данных, которые предоставляют инфраструктуру и инструменты для загрузки, обработки, проверки и анализа данных, что в конечном счете значительно упрощает и ускоряет решение любых задач, связанных с данными.

В рамках курса вы познакомитесь с основными концепциями платформ данных, посмотрите из чего они состоят, какие бывают реализации, и запустите собственную платформу данных. Кроме того, на собранной платформе попрактикуетесь с организацией полного цикла работы с данными: от загрузки из источника до работы аналитика с этими данными. Вы узнаете, что такое Big Data, Data Warehouse, Data Lake, Data Governance, а также познакомитесь с технологиями, которые позволяют реализовать эти методологии и концепции. Особое внимание в курсе будет уделено таким технологиям, как Hadoop и Spark. Вы изучите компоненты Hadoop, архитектуру кластера и HDFS, научитесь развертывать Hadoop и выполнять базовые операции. Также вы изучите архитектуру и назначение Spark и научитесь работать с Spark DataFrame API и Spark SQL API.

Контакты

Преподаватели:

  • Саттар Гюльмамедов — PO DataOps ETL
  • Максим Бартенев — СТО DataOps Platform Центра Big Data МТС

Материалы курса

Ссылка на курс на MTS Link

Занятие Тема Практическое задание
1 Причины появления инструментов обработки больших данных. Какие задачи они решают
2 Компоненты Hadoop и архитектура кластера
3 HDFS (Hadoop Distributed Filesystem)
4 Развертывание Hadoop и базовые операции ФС Развертывание Hadoop
5 Парадигма MapReduce
6 YARN Развертывание кластера YARN и выполнение распределенного MapReduce
7 Форматы файлов
8 Другие проекты экосистемы Hadoop
9 Hive: назначение, структура, компоненты
10 Развертывание Hive и операции с ним Развертывание Hive
11 HiveQL и организация данных
12 Сравнение с традиционными RDBMS
13 Spark, архитектура и назначение
14 Развертывание кластера Spark Развертывание кластера Spark
15 Spark DataFrame API
16 Spark SQL API
17 Взаимодействие между компонентами Hadoop
18 Средства организации ETL-процессов
19 DBT, Prefect, NiFi Развертывание Airflow, реализация ETL процесса с его применением
20 Сравнение различных инструментов ETL
21 Способы организации хранилищ: DataLake DataWarehouse, Lakehouse
22 Greenplum Работа с Greenplum
23 Clickhouse
24 Kafka
25 DQ Работа с DQ
26 DataGov
27 BI Работа с BI

Формула оценивания

Оценка = Средний балл по всем практическим заданиям

Литература

  • «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим», Виктор Майер-Шенбергер, Кеннет Кукьер
  • «Работа с данными в любой сфере. Как выйти на новый уровень, используя аналитику», Кирилл Еременко
  • «Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking» by Foster Provost and Tom Fawcett
  • «Data Virtualization for Business Intelligence Systems: Revolutionizing Data Integration for Data Warehouses» by Rick van der Lans
  • «Большие данные в действии», Мартин Клеппманн
  • «Мастерство визуализации данных», Ольга Базалева
  • «The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling» by Ralph Kimball and Margy Ross
  • «Information Dashboard Design: Displaying Data for At-a-Glance Monitoring» by Stephen Few