ОАБМД-2025

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

  • Курс "Обработка и анализ больших массивов данных" читается для студентов 2-го курса магистратуры ФКН ВШЭ в 1-2 модулях.
  • Форма контроля: экзамен, выставляется по накопу.

Команда курса

  • Преподаватель: Ивченко Олег (основной), Затикян Изабелла (модуль по Airflow).
  • Ассистенты: TBD

Важные ссылки

Формы контроля

Курс предполагает 3 формы контроля:

  • Домашние задания: 9 баллов
  • Тесты: 2 балла
  • Бонусы: 1,5 балла

Итоговая оценка вычисляется по принципу MIN(ДЗ+Тесты+бонусы, 10).

Домашние задания

На курсе 6 домашних заданий, из которых 2 блокирующие. Все ДЗ кроме последней сдаются в 2 этапа:

  • Прохождение CI-тестов
  • Code review

По каждой домашке существуют дедлайны. До дедлайна важно пройти 1й этап сдачи.

  • После мягкого дедлайна оценка снижается на 50%.
  • После жесткого дедлайна сдавать можно только блокирующие ДЗ с оценкой не выше 25%.

Тесты

Состоится 6 контрольных, которые будут проводиться с помощью Google форм и системы прокторинга http://exams.mipt.ru/. По ссылке доступна инструкция пользователя. На контрольных нельзя пользоваться IDE и интернетом. Код писать не потребуется.

Название события на http://exams.mipt.ru/ Дата Длительность
МИСОБОД - 2025. HDFS & MapReduce TBD 15 мин.
МИСОБОД - 2025. SQL over BigData TBD 15 мин.
МиСОБОД - 2025. Spark TBD 10 мин.
МиСОБОД - 2025. Spark streaming, Kafka & NoSQL TBD 20 мин.
МиСОБОД - 2025. Векторные часы TBD 10 мин.
МиСОБОД - 2025. Финальный тест TBD 15 мин.

В случае если вы не сможете написать КР в указанную дату по технической или другой уважительной причине, просьба заполнить форму на дописывание. Дописывание состоится TBD во время занятия.

Бонусы

Бонус начисляется за:

  • активное участие в семинарах,
  • помощь коллегам в чате курса.

Возможно получить до 1,5 баллов. Количество студентов, которым может быть начислен бонус, неограничено.

Список рекомендуемых материалов

Основная литература

  1. Tom White, Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale, Publisher: O'Reilly, Media Release Date: April 2015
  2. Karau, H., Konwinski, A., Wendell, P., & Zaharia, M, Learning Spark: Lightning-Fast Big Data Analysis
  3. Holden Karau et al. Learning Spark. Lightning-fast Data Analytics. Preview Edition. O’Reilly, 2015.

Дополнительная литература

  1. Chuck Lam. Hadoop in Action. New York: Manning Publications co.
  2. Alex Holmes , "Hadoop in Practice"
  3. Martin Fowler, "NoSQL"
  4. Eric Redmond, Jim R. Wilson, "Seven Databases in Seven Weeks"
  5. Jonathan Leibiusky, "Getting Started with Storm"
  6. Donald Miner, Adam Shook. MapReduce Design Patterns. O’Reilly.
  7. Arun C. Murthy et al. Apache Hadoop YARN. Addison-Wesley.
  8. Spark Core Programming. TutorialsPoint, 2015.
  9. Dario Simonassi, Gabriel Eisbruch, Jonathan Leibiusky. Getting Started with Storm. O’Reilly.
  10. Edward Capriolo, Dean Wampler, and Jason Rutherglen. Programming Hive. O’Reilly.
  11. Lars George. HBase: The Definitive Guide. O’Reilly.
  12. Eben Hewitt. Cassandra: The Definitive Guide. O’Reilly.