Основы обработки больших данных 2020
Содержание
О курсе
Курс читается для студентов 4-го курса ПМИ ФКН ВШЭ в 3 модуле. Проводится с 2017 года.
Лектор: Зимовнов Андрей Вадимович
Лекции, которые вы смотрите в онлайне бесплатно, вот тут: https://www.coursera.org/learn/big-data-essentials
Вебинары
- Вебинар 1. Базовый спарк + скринкаст в колаб на простых примерах
- Вебинар 2. SQL + Spark SQL + скринкаст в колаб на логах
- Вебинар 3. Hashing trick и большие линейные модели + скринкаст в колаб на датасете с оф. сайта
Канал в telegram для объявлений:
Вебинары
Группа | Преподаватель | Время | Аудитория |
---|---|---|---|
МОП 161 | Бардуков Анатолий Андреевич | Четверг 12:10-13:30 | M302 |
МОП 162 | Космачев Алексей Дмитриевич | Среда 10:30-11:50 | D208 |
Ассистенты: Анвардинов Шариф Ринатович
Консультации
Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.
При необходимости, можно писать на почту или в Telegram:
Анатолий - @sindb
Алексей - @adkosm
Шариф - @shedx
Правила выставления оценок
Оценка за курс выставляется по оценке за практическое домашнее задание.
Правила сдачи заданий
Присылайте jupyter notebook, если сдаёте несколько раз в названии указывайте дату версии.
Для сдачи: https://www.dropbox.com/request/n4WtzIbtObuLE8kCwbLU
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
Лекции
Слайды тут: https://github.com/ZEMUSHKA/lsml_hse_lectures
Домашнее задание по курсу Big Data Essentials
bit.ly/BDEHOME Подробное описание и помощь в настройке окружения в колабе
Суть задания: с помощью Spark SQL посчитать различные статистики по данным (5 баллов), собрать датасет для VW и запустить обучение (5 баллов).
Дата выдачи - 18 февраля Дедлайн - 14 марта Для сдачи: *тут будет ссылка на дропбокс*
При необходимости, можно писать на почту или в Telegram: Анатолий - @sindb, sindbag@gmail.com Алексей - @adkosm
Экзамен
Дата: ?
Место: ?
Вопросы к экзамену: ?
Полезные материалы
Книги
- Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
- Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
- Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
- Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.