Основы обработки больших данных 2020 — различия между версиями
Kris ros (обсуждение | вклад) (Новая страница: «ИНФО ЗДЕСЬ») |
A (обсуждение | вклад) (→Практическое домашнее задание) |
||
(не показано 18 промежуточных версии 3 участников) | |||
Строка 1: | Строка 1: | ||
− | + | == О курсе == | |
+ | |||
+ | Курс читается для студентов 4-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 3 модуле. | ||
+ | |||
+ | '''Лектор:''' [https://www.hse.ru/org/persons/175396509 Зимовнов Андрей Вадимович] | ||
+ | |||
+ | Лекции, которые вы смотрите в онлайне бесплатно, вот тут: https://www.coursera.org/learn/big-data-essentials | ||
+ | |||
+ | Канал в telegram для объявлений: | ||
+ | |||
+ | |||
+ | === Вебинары === | ||
+ | |||
+ | Все вебинары начинаются в 19:30. | ||
+ | |||
+ | *'''Вебинар 1.''' 4 февраля — "Базовый спарк + скринкаст в колаб на простых примерах" Зимовнов Андрей Вадимович | ||
+ | *'''Вебинар 2.''' 18 февраля — "SQL + Spark SQL + скринкаст в колаб на логах" Бардуков Анатолий Андреевич | ||
+ | *'''Вебинар 3.''' 3 марта — "Hashing trick и большие линейные модели + скринкаст в колаб на датасете с оф. сайта" Космачев Алексей Дмитриевич | ||
+ | |||
+ | Ассистенты: Анвардинов Шариф Ринатович | ||
+ | |||
+ | === Консультации === | ||
+ | |||
+ | Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций. | ||
+ | |||
+ | При необходимости, можно писать на почту или в Telegram: | ||
+ | |||
+ | Анатолий - @sindb | ||
+ | |||
+ | Алексей - @adkosm | ||
+ | |||
+ | Шариф - @shedx | ||
+ | |||
+ | === Правила выставления оценок === | ||
+ | |||
+ | Оценка за курс выставляется по оценке за практическое домашнее задание. | ||
+ | |||
+ | === Правила сдачи заданий === | ||
+ | |||
+ | Присылайте jupyter notebook, если сдаёте несколько раз в названии указывайте дату версии. | ||
+ | |||
+ | Для сдачи: https://www.dropbox.com/request/n4WtzIbtObuLE8kCwbLU | ||
+ | |||
+ | При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента. | ||
+ | |||
+ | Возможна сдача после срока, штраф: -1 балл за день просрочки | ||
+ | |||
+ | == Практическое домашнее задание == | ||
+ | |||
+ | Суть задания: | ||
+ | с помощью Spark SQL посчитать различные статистики по данным, собрать датасет для VW и запустить обучение. | ||
+ | |||
+ | По ссылке найдёте подробное описание, разбалловку и помощь в настройке окружения в колабе https://bit.ly/BDEHOME | ||
+ | |||
+ | Уменьшенный датасет доступен здесь: https://sindhdphdistorage.blob.core.windows.net/bdesome/zipfile.zip | ||
+ | |||
+ | Дата выдачи - '''18 февраля''' | ||
+ | |||
+ | Дедлайн - '''14 марта 23:59''' | ||
+ | |||
+ | Возможна сдача после срока, штраф: -1 балл за день просрочки | ||
+ | |||
+ | == Экзамен == | ||
+ | |||
+ | Дата: - | ||
+ | |||
+ | == Полезные материалы == | ||
+ | ===Книги=== | ||
+ | # Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011. | ||
+ | # Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014. | ||
+ | # Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016. | ||
+ | # Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015. |
Текущая версия на 20:15, 14 марта 2020
Содержание
О курсе
Курс читается для студентов 4-го курса ПМИ ФКН ВШЭ в 3 модуле.
Лектор: Зимовнов Андрей Вадимович
Лекции, которые вы смотрите в онлайне бесплатно, вот тут: https://www.coursera.org/learn/big-data-essentials
Канал в telegram для объявлений:
Вебинары
Все вебинары начинаются в 19:30.
- Вебинар 1. 4 февраля — "Базовый спарк + скринкаст в колаб на простых примерах" Зимовнов Андрей Вадимович
- Вебинар 2. 18 февраля — "SQL + Spark SQL + скринкаст в колаб на логах" Бардуков Анатолий Андреевич
- Вебинар 3. 3 марта — "Hashing trick и большие линейные модели + скринкаст в колаб на датасете с оф. сайта" Космачев Алексей Дмитриевич
Ассистенты: Анвардинов Шариф Ринатович
Консультации
Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.
При необходимости, можно писать на почту или в Telegram:
Анатолий - @sindb
Алексей - @adkosm
Шариф - @shedx
Правила выставления оценок
Оценка за курс выставляется по оценке за практическое домашнее задание.
Правила сдачи заданий
Присылайте jupyter notebook, если сдаёте несколько раз в названии указывайте дату версии.
Для сдачи: https://www.dropbox.com/request/n4WtzIbtObuLE8kCwbLU
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
Возможна сдача после срока, штраф: -1 балл за день просрочки
Практическое домашнее задание
Суть задания: с помощью Spark SQL посчитать различные статистики по данным, собрать датасет для VW и запустить обучение.
По ссылке найдёте подробное описание, разбалловку и помощь в настройке окружения в колабе https://bit.ly/BDEHOME
Уменьшенный датасет доступен здесь: https://sindhdphdistorage.blob.core.windows.net/bdesome/zipfile.zip
Дата выдачи - 18 февраля
Дедлайн - 14 марта 23:59
Возможна сдача после срока, штраф: -1 балл за день просрочки
Экзамен
Дата: -
Полезные материалы
Книги
- Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
- Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
- Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
- Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.