ОАБМД-2025

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

  • Курс "Обработка и анализ больших массивов данных" (Processing and analysis of large data sets) читается для студентов 2-го курса магистратуры ФКН ВШЭ в 1-2 модулях.
  • Форма контроля: экзамен, выставляется по накопу.

Команда курса

  • Преподаватель: Ивченко Олег (основной), Затикян Изабелла (модуль по Airflow).
  • Ассистенты:
    • Павлов Дмитрий Александрович
    • Струнова Анастасия Сергеевна
    • Чавдарь Дмитрий
    • Амбарян Рудольф Андраникович
    • Наумов Владислав Олегович
    • Дмитрий Сергеевич Качаев
    • Стешенко Александр Владимирович
    • Кочурова Ирина Дмитриевна

Важные ссылки

Формы контроля

Курс предполагает 3 формы контроля:

  • Домашние задания: 9 баллов
  • Тесты: 2 балла
  • Бонусы: 1,5 балла

Итоговая оценка вычисляется по принципу MIN(ДЗ+Тесты+бонусы, 10).

Домашние задания

На курсе 6 домашних заданий, из которых 2 блокирующие. Все ДЗ кроме последней сдаются в 2 этапа:

  • Прохождение CI-тестов
  • Code review

По каждой домашке существуют дедлайны. До дедлайна важно пройти 1й этап сдачи.

  • После мягкого дедлайна оценка снижается на 50%.
  • После жесткого дедлайна сдавать можно только блокирующие ДЗ с оценкой не выше 25%.

Тесты

Состоится 6 контрольных, которые будут проводиться с помощью Google форм, их можно заполнять с компьютера или телефона. На контрольных нельзя пользоваться IDE и интернетом. Код писать не потребуется.

Название КР Дата Длительность
ОАБМД - 2025. HDFS & MapReduce 19.10.2025 15 мин.
ОАБМД - 2025. SQL over BigData 09.11.2025 15 мин.
ОАБМД - 2025. Spark 23.11.2025 10 мин.
ОАБМД - 2025. Векторные часы 30.11.2025 10 мин.
ОАБМД - 2025. Spark streaming, Kafka & NoSQL 14.12.2025 20 мин.
ОАБМД - 2025. Финальный тест 21.12.2025 15 мин.

В случае если вы не сможете написать КР в указанную дату по технической или другой уважительной причине, просьба заполнить форму на дописывание. Дописывание состоится 20.12.2025 во время последнего занятия. Помимо Google форм, на дописывании будет использована система прокторинга http://exams.mipt.ru/. По ссылке доступна инструкция пользователя. Желательно зарегистрироваться в системе прокторинга заранее если вы планируете идти на дописывание.

Бонусы

Бонус начисляется за:

  • активное участие в семинарах,
  • помощь коллегам в чате курса.

Возможно получить до 1,5 баллов. Количество студентов, которым может быть начислен бонус, неограничено.

Список рекомендуемых материалов

Основная литература

  1. Tom White, Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale, Publisher: O'Reilly, Media Release Date: April 2015
  2. Karau, H., Konwinski, A., Wendell, P., & Zaharia, M, Learning Spark: Lightning-Fast Big Data Analysis
  3. Holden Karau et al. Learning Spark. Lightning-fast Data Analytics. Preview Edition. O’Reilly, 2015.

Дополнительная литература

  1. Chuck Lam. Hadoop in Action. New York: Manning Publications co.
  2. Alex Holmes , "Hadoop in Practice"
  3. Martin Fowler, "NoSQL"
  4. Eric Redmond, Jim R. Wilson, "Seven Databases in Seven Weeks"
  5. Jonathan Leibiusky, "Getting Started with Storm"
  6. Donald Miner, Adam Shook. MapReduce Design Patterns. O’Reilly.
  7. Arun C. Murthy et al. Apache Hadoop YARN. Addison-Wesley.
  8. Spark Core Programming. TutorialsPoint, 2015.
  9. Dario Simonassi, Gabriel Eisbruch, Jonathan Leibiusky. Getting Started with Storm. O’Reilly.
  10. Edward Capriolo, Dean Wampler, and Jason Rutherglen. Programming Hive. O’Reilly.
  11. Lars George. HBase: The Definitive Guide. O’Reilly.
  12. Eben Hewitt. Cassandra: The Definitive Guide. O’Reilly.