МОВС Обработка и анализ больших массивов данных, BigData (ММОВС23, 5-6 модули)
О курсе
Курс читается в 1-2 модулях 2024/2025 учебного года.
Для чего нужны платформы данных? Как бы это очевидно ни звучало, они нужны для принятия решений на основе данных. У бизнеса может быть бесконечное количество запросов: как изменить цену товаров, в каком месте разместить магазин, кому показать рекламу, куда сдвинуть кнопку на сайте и т.д. Эти задачи могут решаться с помощью аналитики, построения дашбордов, сбора метрик, построения ML-моделей и т.д. Само по себе решение таких задач нетривиально, однако, это лишь верхушка айсберга.
Прежде, чем проводить какую-либо аналитику, данные нужно найти, загрузить в хранилище, проверить их качество, агрегировать, и на любом из этапов может возникнуть огромное количество проблем. Здесь и появляются платформы данных, которые предоставляют инфраструктуру и инструменты для загрузки, обработки, проверки и анализа данных, что в конечном счете значительно упрощает и ускоряет решение любых задач, связанных с данными.
В рамках курса вы познакомитесь с основными концепциями платформ данных, посмотрите из чего они состоят, какие бывают реализации, и запустите собственную платформу данных. Кроме того, на собранной платформе попрактикуетесь с организацией полного цикла работы с данными: от загрузки из источника до работы аналитика с этими данными. Вы узнаете, что такое Big Data, Data Warehouse, Data Lake, Data Governance, а также познакомитесь с технологиями, которые позволяют реализовать эти методологии и концепции. Особое внимание в курсе будет уделено таким технологиям, как Hadoop и Spark. Вы изучите компоненты Hadoop, архитектуру кластера и HDFS, научитесь развертывать Hadoop и выполнять базовые операции. Также вы изучите архитектуру и назначение Spark и научитесь работать с Spark DataFrame API и Spark SQL API.
Контакты
Преподаватели:
- Саттар Гюльмамедов — PO DataOps ETL
- Максим Бартенев — СТО DataOps Platform Центра Big Data МТС
Материалы курса
Ссылка на курс на MTS Link
| Занятие | Тема | Практическое задание |
|---|---|---|
| 1 | Причины появления инструментов обработки больших данных. Какие задачи они решают | |
| 2 | Компоненты Hadoop и архитектура кластера | |
| 3 | HDFS (Hadoop Distributed Filesystem) | |
| 4 | Развертывание Hadoop и базовые операции ФС | Развертывание Hadoop |
| 5 | Парадигма MapReduce | |
| 6 | YARN | Развертывание кластера YARN и выполнение распределенного MapReduce |
| 7 | Форматы файлов | |
| 8 | Другие проекты экосистемы Hadoop | |
| 9 | Hive: назначение, структура, компоненты | |
| 10 | Развертывание Hive и операции с ним | Развертывание Hive |
| 11 | HiveQL и организация данных | |
| 12 | Сравнение с традиционными RDBMS | |
| 13 | Spark, архитектура и назначение | |
| 14 | Развертывание кластера Spark | Развертывание кластера Spark |
| 15 | Spark DataFrame API | |
| 16 | Spark SQL API | |
| 17 | Взаимодействие между компонентами Hadoop | |
| 18 | Средства организации ETL-процессов | |
| 19 | DBT, Prefect, NiFi | Развертывание Airflow, реализация ETL процесса с его применением |
| 20 | Сравнение различных инструментов ETL | |
| 21 | Способы организации хранилищ: DataLake DataWarehouse, Lakehouse | |
| 22 | Greenplum | Работа с Greenplum |
| 23 | Clickhouse | |
| 24 | Kafka | |
| 25 | DQ | Работа с DQ |
| 26 | DataGov | |
| 27 | BI | Работа с BI |
Формула оценивания
Оценка = Средний балл по всем практическим заданиям
Литература
- «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим», Виктор Майер-Шенбергер, Кеннет Кукьер
- «Работа с данными в любой сфере. Как выйти на новый уровень, используя аналитику», Кирилл Еременко
- «Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking» by Foster Provost and Tom Fawcett
- «Data Virtualization for Business Intelligence Systems: Revolutionizing Data Integration for Data Warehouses» by Rick van der Lans
- «Большие данные в действии», Мартин Клеппманн
- «Мастерство визуализации данных», Ольга Базалева
- «The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling» by Ralph Kimball and Margy Ross
- «Information Dashboard Design: Displaying Data for At-a-Glance Monitoring» by Stephen Few