Основы обработки больших данных 2020

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс читается для студентов 4-го курса ПМИ ФКН ВШЭ в 3 модуле. Проводится с 2017 года.

Лектор: Зимовнов Андрей Вадимович

Лекции, которые вы смотрите в онлайне бесплатно, вот тут: https://www.coursera.org/learn/big-data-essentials


Вебинары

  • Вебинар 1. Базовый спарк + скринкаст в колаб на простых примерах
  • Вебинар 2. SQL + Spark SQL + скринкаст в колаб на логах
  • Вебинар 3. Hashing trick и большие линейные модели + скринкаст в колаб на датасете с оф. сайта

Канал в telegram для объявлений:


Вебинары

Группа Преподаватель Время Аудитория
МОП 161 Бардуков Анатолий Андреевич Четверг 12:10-13:30 M302
МОП 162 Космачев Алексей Дмитриевич Среда 10:30-11:50 D208

Ассистенты: Анвардинов Шариф Ринатович

Консультации

Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.

При необходимости, можно писать на почту или в Telegram:

Анатолий - @sindb

Алексей - @adkosm

Шариф - @shedx

Правила выставления оценок

Оценка за курс выставляется по оценке за практическое домашнее задание.

Правила сдачи заданий

Присылайте jupyter notebook, если сдаёте несколько раз в названии указывайте дату версии. Для сдачи: https://www.dropbox.com/request/n4WtzIbtObuLE8kCwbLU

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

Лекции

Слайды тут: https://github.com/ZEMUSHKA/lsml_hse_lectures

Домашнее задание по курсу Big Data Essentials

bit.ly/BDEHOME Подробное описание и помощь в настройке окружения в колабе

Суть задания: с помощью Spark SQL посчитать различные статистики по данным (5 баллов), собрать датасет для VW и запустить обучение (5 баллов).

Дата выдачи - 18 февраля Дедлайн - 14 марта Для сдачи: *тут будет ссылка на дропбокс*

При необходимости, можно писать на почту или в Telegram: Анатолий - @sindb, sindbag@gmail.com Алексей - @adkosm

Экзамен

Дата: ?

Место: ?

Вопросы к экзамену: ?

Полезные материалы

Книги

  1. Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
  2. Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
  3. Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
  4. Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.