ОАБМД-2025 — различия между версиями
VeLKerr (обсуждение | вклад) (→Домашние задания) |
VeLKerr (обсуждение | вклад) (→Важные ссылки) |
||
| (не показано 8 промежуточных версии этого же участника) | |||
| Строка 10: | Строка 10: | ||
** Амбарян Рудольф Андраникович (Яндекс) | ** Амбарян Рудольф Андраникович (Яндекс) | ||
** Наумов Владислав Олегович (AI VK) | ** Наумов Владислав Олегович (AI VK) | ||
| − | ** Стешенко Александр Владимирович | + | ** Стешенко Александр Владимирович (Яндекс) |
| − | ** Кочурова Ирина Дмитриевна | + | ** Кочурова Ирина Дмитриевна (ИПМ РАН им. М.В. Келдыша) |
** Шукла Ритупарн (Сбер) | ** Шукла Ритупарн (Сбер) | ||
** Сахаров Александр Александрович (Ozon) | ** Сахаров Александр Александрович (Ozon) | ||
| Строка 20: | Строка 20: | ||
* [https://docs.google.com/spreadsheets/d/e/2PACX-1vS-d6xvT0354Jvsp_YvOGIejJ8-yPuw6ChNeS6LjFlPmUhTUIFqIcAbYuRi5LtN1YQDkQmy2E-3i2iG/pubhtml?gid=0&single=true План курса] | * [https://docs.google.com/spreadsheets/d/e/2PACX-1vS-d6xvT0354Jvsp_YvOGIejJ8-yPuw6ChNeS6LjFlPmUhTUIFqIcAbYuRi5LtN1YQDkQmy2E-3i2iG/pubhtml?gid=0&single=true План курса] | ||
* [https://t.me/+Gp-TPCunPDxiNTUy Чат курса] | * [https://t.me/+Gp-TPCunPDxiNTUy Чат курса] | ||
| − | * [https://docs.google.com/spreadsheets/d/ | + | * [https://docs.google.com/spreadsheets/d/1ZswkdcRfmBtOYPxg8oJP-r43lQNXSEbob41spZ6WeA8/edit?gid=0#gid=0 '''Таблица с оценками'''] |
* [https://gitlab.atp-fivt.org/hse/palds-2025/-/tree/master/materials Коды семинаров] ''(доступ только после регистрации на gitlab.atp-fivt.org)'' | * [https://gitlab.atp-fivt.org/hse/palds-2025/-/tree/master/materials Коды семинаров] ''(доступ только после регистрации на gitlab.atp-fivt.org)'' | ||
* [https://drive.google.com/drive/folders/1qaElablB5ER1y07xXkPXfQcHIxzdfGZB?usp=sharing Слайды презентаций] | * [https://drive.google.com/drive/folders/1qaElablB5ER1y07xXkPXfQcHIxzdfGZB?usp=sharing Слайды презентаций] | ||
| Строка 26: | Строка 26: | ||
= Формы контроля = | = Формы контроля = | ||
Курс предполагает 3 формы контроля: | Курс предполагает 3 формы контроля: | ||
| − | * Домашние задания: 9 баллов | + | * Домашние задания: 9 баллов. '''Расчет:''' (сумма баллов за каждую ДЗ) / 2. |
| − | * Тесты: 2 балла | + | * Тесты: 2 балла. '''Расчет:''' (баллы за тесты * их веса) / 6. |
| − | * Бонусы: 1,5 балла | + | * Бонусы: 1,5 балла. '''Расчет:''' бонус / 10. |
| − | Итоговая оценка вычисляется по принципу ''MIN(ДЗ+Тесты+ | + | '''Итоговая оценка вычисляется по принципу:''' '''ЕСЛИ'''(блокирущие != 0, '''ТО''' MIN((ДЗ + Тесты + Бонус) / 10; 10), '''ИНАЧЕ''' 0). |
== Домашние задания == | == Домашние задания == | ||
* [https://gitlab.atp-fivt.org/hse/palds-2025/-/tree/master/homeworks Условия домашек] ''(доступ только после регистрации на gitlab.atp-fivt.org)'' | * [https://gitlab.atp-fivt.org/hse/palds-2025/-/tree/master/homeworks Условия домашек] ''(доступ только после регистрации на gitlab.atp-fivt.org)'' | ||
| − | * [https://docs.google.com/presentation/d/1eDxnTeBWSB1OrA3BwEUa2vJAJm3_OJMuoRxyA13RzTY | + | * [https://docs.google.com/presentation/d/1eDxnTeBWSB1OrA3BwEUa2vJAJm3_OJMuoRxyA13RzTY Инструкция по работе с тестирующей системой] |
| − | * [https://docs.google.com/spreadsheets/d/ | + | * [https://docs.google.com/spreadsheets/d/1yNTa-D6ePOsvA652HZy1fNeiNOHuGSNFvB5X4iSy46I Статус проверки домашек] |
На курсе 6 домашних заданий, из которых 2 блокирующие. Все ДЗ ''кроме последней'' сдаются в 2 этапа: | На курсе 6 домашних заданий, из которых 2 блокирующие. Все ДЗ ''кроме последней'' сдаются в 2 этапа: | ||
* Прохождение CI-тестов | * Прохождение CI-тестов | ||
| Строка 41: | Строка 41: | ||
* После мягкого дедлайна оценка снижается на 50%. | * После мягкого дедлайна оценка снижается на 50%. | ||
* После жесткого дедлайна сдавать можно только блокирующие ДЗ с оценкой не выше 25%. | * После жесткого дедлайна сдавать можно только блокирующие ДЗ с оценкой не выше 25%. | ||
| + | * Окончательный дедлайн, после которого не принимаем уже ничего: '''8.01.2026, 23:59'''. | ||
== Тесты == | == Тесты == | ||
Текущая версия на 03:54, 30 ноября 2025
Содержание
О курсе
- Курс "Обработка и анализ больших массивов данных" (Processing and analysis of large data sets) читается для студентов 2-го курса магистратуры ФКН ВШЭ в 1-2 модулях.
- Форма контроля: экзамен, выставляется по накопу.
Команда курса
- Преподаватель: Ивченко Олег
- Ассистенты:
- Павлов Дмитрий Александрович (Яндекс)
- Струнова Анастасия Сергеевна (Т-Банк)
- Чавдарь Дмитрий
- Амбарян Рудольф Андраникович (Яндекс)
- Наумов Владислав Олегович (AI VK)
- Стешенко Александр Владимирович (Яндекс)
- Кочурова Ирина Дмитриевна (ИПМ РАН им. М.В. Келдыша)
- Шукла Ритупарн (Сбер)
- Сахаров Александр Александрович (Ozon)
- Тельбаева Таншолпан (Innoforce group, Казахстан)
- Иванов Дмитрий Александрович (Luzin Research Institute, (Huawei))
Важные ссылки
- План курса
- Чат курса
- Таблица с оценками
- Коды семинаров (доступ только после регистрации на gitlab.atp-fivt.org)
- Слайды презентаций
Формы контроля
Курс предполагает 3 формы контроля:
- Домашние задания: 9 баллов. Расчет: (сумма баллов за каждую ДЗ) / 2.
- Тесты: 2 балла. Расчет: (баллы за тесты * их веса) / 6.
- Бонусы: 1,5 балла. Расчет: бонус / 10.
Итоговая оценка вычисляется по принципу: ЕСЛИ(блокирущие != 0, ТО MIN((ДЗ + Тесты + Бонус) / 10; 10), ИНАЧЕ 0).
Домашние задания
- Условия домашек (доступ только после регистрации на gitlab.atp-fivt.org)
- Инструкция по работе с тестирующей системой
- Статус проверки домашек
На курсе 6 домашних заданий, из которых 2 блокирующие. Все ДЗ кроме последней сдаются в 2 этапа:
- Прохождение CI-тестов
- Code review
По каждой домашке существуют дедлайны. До дедлайна важно пройти 1й этап сдачи.
- После мягкого дедлайна оценка снижается на 50%.
- После жесткого дедлайна сдавать можно только блокирующие ДЗ с оценкой не выше 25%.
- Окончательный дедлайн, после которого не принимаем уже ничего: 8.01.2026, 23:59.
Тесты
Состоится 6 контрольных, которые будут проводиться с помощью Google форм, их можно заполнять с компьютера или телефона. На контрольных нельзя пользоваться IDE и интернетом. Код писать не потребуется.
| Название КР | Дата | Длительность |
|---|---|---|
| ОАБМД - 2025. HDFS & MapReduce | 19.10.2025, 18:00 | 15 мин. |
| ОАБМД - 2025. SQL over BigData | 15.11.2025, 16:00 | 15 мин. |
| ОАБМД - 2025. Spark | 22.11.2025, 16:00 | 10 мин. |
| ОАБМД - 2025. Векторные часы | 29.11.2025, 16:00 | 10 мин. |
| ОАБМД - 2025. Spark streaming, Kafka & NoSQL | 13.12.2025, 16:00 | 20 мин. |
| ОАБМД - 2025. Финальный тест | 20.12.2025, 16:00 | 15 мин. |
В случае если вы не сможете написать КР в указанную дату по технической или другой уважительной причине, просьба заполнить форму на дописывание. Дописывание состоится 20.12.2025 во время последнего занятия. Помимо Google форм, на дописывании будет использована система прокторинга http://exams.mipt.ru/. По ссылке доступна инструкция пользователя. Желательно зарегистрироваться в системе прокторинга заранее если вы планируете идти на дописывание.
Бонусы
Бонус начисляется за:
- активное участие в семинарах,
- помощь коллегам в чате курса.
Возможно получить до 1,5 баллов. Количество студентов, которым может быть начислен бонус, неограничено.
Список рекомендуемых материалов
Основная литература
- Tom White, Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale, Publisher: O'Reilly, Media Release Date: April 2015
- Karau, H., Konwinski, A., Wendell, P., & Zaharia, M, Learning Spark: Lightning-Fast Big Data Analysis
- Holden Karau et al. Learning Spark. Lightning-fast Data Analytics. Preview Edition. O’Reilly, 2015.
Дополнительная литература
- Chuck Lam. Hadoop in Action. New York: Manning Publications co.
- Alex Holmes , "Hadoop in Practice"
- Martin Fowler, "NoSQL"
- Eric Redmond, Jim R. Wilson, "Seven Databases in Seven Weeks"
- Jonathan Leibiusky, "Getting Started with Storm"
- Donald Miner, Adam Shook. MapReduce Design Patterns. O’Reilly.
- Arun C. Murthy et al. Apache Hadoop YARN. Addison-Wesley.
- Spark Core Programming. TutorialsPoint, 2015.
- Dario Simonassi, Gabriel Eisbruch, Jonathan Leibiusky. Getting Started with Storm. O’Reilly.
- Edward Capriolo, Dean Wampler, and Jason Rutherglen. Programming Hive. O’Reilly.
- Lars George. HBase: The Definitive Guide. O’Reilly.
- Eben Hewitt. Cassandra: The Definitive Guide. O’Reilly.