ОАБМД-2025
Содержание
О курсе
- Курс "Обработка и анализ больших массивов данных" (Processing and analysis of large data sets) читается для студентов 2-го курса магистратуры ФКН ВШЭ в 1-2 модулях.
- Форма контроля: экзамен, выставляется по накопу.
Команда курса
- Преподаватель: Ивченко Олег
- Ассистенты:
- Павлов Дмитрий Александрович (Яндекс)
- Струнова Анастасия Сергеевна (Т-Банк)
- Чавдарь Дмитрий
- Амбарян Рудольф Андраникович (Яндекс)
- Наумов Владислав Олегович (AI VK)
- Стешенко Александр Владимирович (Яндекс)
- Кочурова Ирина Дмитриевна (ИПМ РАН им. М.В. Келдыша)
- Шукла Ритупарн (Сбер)
- Сахаров Александр Александрович (Ozon)
- Тельбаева Таншолпан (Innoforce group, Казахстан)
- Иванов Дмитрий Александрович (Luzin Research Institute, (Huawei))
Важные ссылки
- План курса
- Чат курса
- Таблица с оценками
- Коды семинаров (доступ только после регистрации на gitlab.atp-fivt.org)
- Слайды презентаций
Формы контроля
Курс предполагает 3 формы контроля:
- Домашние задания: 9 баллов. Расчет: (сумма баллов за каждую ДЗ) / 2.
- Тесты: 2 балла. Расчет: (баллы за тесты * их веса) / 6.
- Бонусы: 1,5 балла. Расчет: бонус / 10.
Итоговая оценка вычисляется по принципу: ЕСЛИ(блокирущие != 0, ТО MIN((ДЗ + Тесты + Бонус) / 10; 10), ИНАЧЕ 0).
Домашние задания
- Условия домашек (доступ только после регистрации на gitlab.atp-fivt.org)
- Инструкция по работе с тестирующей системой
- Статус проверки домашек
На курсе 6 домашних заданий, из которых 2 блокирующие. Все ДЗ кроме последней сдаются в 2 этапа:
- Прохождение CI-тестов
- Code review
По каждой домашке существуют дедлайны. До дедлайна важно пройти 1й этап сдачи.
- После мягкого дедлайна оценка снижается на 50%.
- После жесткого дедлайна сдавать можно только блокирующие ДЗ с оценкой не выше 25%.
- Окончательный дедлайн, после которого не принимаем уже ничего: 8.01.2026, 23:59.
Тесты
Состоится 6 контрольных, которые будут проводиться с помощью Google форм, их можно заполнять с компьютера или телефона. На контрольных нельзя пользоваться IDE и интернетом. Код писать не потребуется.
| Название КР | Дата | Длительность |
|---|---|---|
| ОАБМД - 2025. HDFS & MapReduce | 19.10.2025, 18:00 | 15 мин. |
| ОАБМД - 2025. SQL over BigData | 15.11.2025, 16:00 | 15 мин. |
| ОАБМД - 2025. Spark | 22.11.2025, 16:00 | 10 мин. |
| ОАБМД - 2025. Векторные часы | 29.11.2025, 16:00 | 10 мин. |
| ОАБМД - 2025. Spark streaming, Kafka & NoSQL | 13.12.2025, 16:00 | 20 мин. |
| ОАБМД - 2025. Финальный тест | 20.12.2025, 16:00 | 15 мин. |
В случае если вы не сможете написать КР в указанную дату по технической или другой уважительной причине, просьба заполнить форму на дописывание. Дописывание состоится 20.12.2025 во время последнего занятия. Помимо Google форм, на дописывании будет использована система прокторинга http://exams.mipt.ru/. По ссылке доступна инструкция пользователя. Желательно зарегистрироваться в системе прокторинга заранее если вы планируете идти на дописывание.
Бонусы
Бонус начисляется за:
- активное участие в семинарах,
- помощь коллегам в чате курса.
Возможно получить до 1,5 баллов. Количество студентов, которым может быть начислен бонус, неограничено.
Список рекомендуемых материалов
Основная литература
- Tom White, Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale, Publisher: O'Reilly, Media Release Date: April 2015
- Karau, H., Konwinski, A., Wendell, P., & Zaharia, M, Learning Spark: Lightning-Fast Big Data Analysis
- Holden Karau et al. Learning Spark. Lightning-fast Data Analytics. Preview Edition. O’Reilly, 2015.
Дополнительная литература
- Chuck Lam. Hadoop in Action. New York: Manning Publications co.
- Alex Holmes , "Hadoop in Practice"
- Martin Fowler, "NoSQL"
- Eric Redmond, Jim R. Wilson, "Seven Databases in Seven Weeks"
- Jonathan Leibiusky, "Getting Started with Storm"
- Donald Miner, Adam Shook. MapReduce Design Patterns. O’Reilly.
- Arun C. Murthy et al. Apache Hadoop YARN. Addison-Wesley.
- Spark Core Programming. TutorialsPoint, 2015.
- Dario Simonassi, Gabriel Eisbruch, Jonathan Leibiusky. Getting Started with Storm. O’Reilly.
- Edward Capriolo, Dean Wampler, and Jason Rutherglen. Programming Hive. O’Reilly.
- Lars George. HBase: The Definitive Guide. O’Reilly.
- Eben Hewitt. Cassandra: The Definitive Guide. O’Reilly.