Обработка и анализ больших массивов данных (МОиВС, осень21, 2022)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Занятия проводятся в Zoom по пятницам в 19:00

Контакты

Канал курса в TG: channel link

Чат курса в TG: chat link

Преподаватели: Бардуков Анатолий (TG: @sindq), Свиридов Иван, Соозарь Мария

Материалы курса

Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzAcOe1hOaDW8Jj4mVaLOoDD

Ссылка на GitHub с материалами курса: [GitHub]

Занятие Тема Дата Преподаватель Материалы для самоподготовки к семинарам Дополнительные материалы
1 Введение в распределенные системы. Bash & Docker Анатолий Бардуков 12.09.22
2 SQL, NoSQL, MPP-format. Знакомство с видами БД, синтаксис запросов Иван Свиридов 16.09.22
3 Hadoop Иван Свиридов 30.09.22
4 YARN package manager, HDFS, MapReduce Анатолий Бардуков 07.10.22
5 Spark RDD Мария Соозарь 14.10.22
6 Spark DataFrame + Spark SQL 21.10.22
7 Spark ML + handcrafted ML on Spark
8 MLOps (model -> Docker -> prod + balancer), MLFlow
9 Distributed Learning. Quantization, Distillation and Prunning
10 Approximate answer searching: LSH + HNSW
11 Streaming (Spark + Kafka)
12 Flink

Формула оценивания

min(10, 0.6 ДЗ + 0.4 проект + 0.3 бонусы)

Лист с оценками: https://docs.google.com/spreadsheets/d/158tztQ-jFFErWMk7k3INnSs8tjDTWP9j1SBE-uxFfMw/edit?usp=sharing

Домашние задания

Литература