Основы обработки больших данных 2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Практическое домашнее задание)
 
(не показано 16 промежуточных версии 3 участников)
Строка 1: Строка 1:
 
== О курсе ==
 
== О курсе ==
  
Курс читается для студентов 4-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 3 модуле. Проводится с 2017 года.
+
Курс читается для студентов 4-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] в 3 модуле.
  
 
'''Лектор:''' [https://www.hse.ru/org/persons/175396509 Зимовнов Андрей Вадимович]
 
'''Лектор:''' [https://www.hse.ru/org/persons/175396509 Зимовнов Андрей Вадимович]
Строка 7: Строка 7:
 
Лекции, которые вы смотрите в онлайне бесплатно, вот тут: https://www.coursera.org/learn/big-data-essentials
 
Лекции, которые вы смотрите в онлайне бесплатно, вот тут: https://www.coursera.org/learn/big-data-essentials
  
 +
Канал в telegram для объявлений:
  
  
 
=== Вебинары ===
 
=== Вебинары ===
  
* Вебинар 1. Базовый спарк + скринкаст в колаб на простых примерах
+
Все вебинары начинаются в 19:30.
* Вебинар 2. SQL + Spark SQL + скринкаст в колаб на логах
+
* Вебинар 3. Hashing trick и большие линейные модели + скринкаст в колаб на датасете с оф. сайта
+
  
Канал в telegram для объявлений:
+
*'''Вебинар 1.''' 4 февраля — "Базовый спарк + скринкаст в колаб на простых примерах" Зимовнов Андрей Вадимович
 
+
*'''Вебинар 2.''' 18 февраля — "SQL + Spark SQL + скринкаст в колаб на логах" Бардуков Анатолий Андреевич
 
+
*'''Вебинар 3.''' 3 марта — "Hashing trick и большие линейные модели + скринкаст в колаб на датасете с оф. сайта" Космачев Алексей Дмитриевич
== Вебинары ==
+
 
+
{| class="wikitable"
+
|-
+
! Группа !! Преподаватель !! Время !! Аудитория
+
|-
+
| МОП 161 || Бардуков Анатолий Андреевич || Четверг 12:10-13:30 || M302
+
|-
+
| МОП 162 || Космачев Алексей Дмитриевич || Среда 10:30-11:50 || D208
+
|-
+
|}
+
  
 
Ассистенты: Анвардинов Шариф Ринатович
 
Ассистенты: Анвардинов Шариф Ринатович
Строка 46: Строка 34:
 
=== Правила выставления оценок ===
 
=== Правила выставления оценок ===
  
В курсе предусмотрено несколько форм контроля знания:
+
Оценка за курс выставляется по оценке за практическое домашнее задание.
* Самостоятельные задания, выдаваемые на каждом семинаре. Дедлайн на сдачу заданий - 2 недели с момента проведения семинара. Не включая день семинара через две недели.
+
* Практическое домашнее задание (будет выдано ориентировочно на 3 семинаре).
+
* Письменный экзамен.
+
 
+
Итоговая оценка вычисляется:
+
 
+
 
+
 
+
  
 
=== Правила сдачи заданий ===
 
=== Правила сдачи заданий ===
  
На все домашние задания каждому студенту отводится ~500$ для работы в облаке Azure.
+
Присылайте jupyter notebook, если сдаёте несколько раз в названии указывайте дату версии.
Важно останавливать\удалять ресурсы, создаваемые в облаке, так как в противном случае финансов может не хватить для выполнения всех заданий. Полезно при этом овладеть навыком сохранения промежуточных данных в облачном хранилище - это позволит максимально быстро выполнять задания с минимальными финансовыми затратами.
+
  
Дедлайн на самостоятельные задачи, которые выдаются на семинаре - 2 недели со дня семинара. Не включая день семинара через две недели.
+
Для сдачи: https://www.dropbox.com/request/n4WtzIbtObuLE8kCwbLU
 
+
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.
+
  
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
  
== Лекции ==
+
Возможна сдача после срока, штраф: -1 балл за день просрочки
Слайды тут: https://github.com/ZEMUSHKA/lsml_hse_lectures
+
  
Домашнее задание по курсу Big Data Essentials
+
== Практическое домашнее задание ==
 
+
bit.ly/BDEHOME
+
Подробное описание и помощь в настройке окружения в колабе
+
  
 
Суть задания:
 
Суть задания:
с помощью Spark SQL посчитать различные статистики по данным (5 баллов), собрать датасет для VW и запустить обучение (5 баллов).
+
с помощью Spark SQL посчитать различные статистики по данным, собрать датасет для VW и запустить обучение.
  
Дата выдачи - 18 февраля
+
По ссылке найдёте подробное описание, разбалловку и помощь в настройке окружения в колабе https://bit.ly/BDEHOME
Дедлайн - 14 марта
+
Для сдачи: *тут будет ссылка на дропбокс*
+
  
При необходимости, можно писать на почту или в Telegram:
+
Уменьшенный датасет доступен здесь: https://sindhdphdistorage.blob.core.windows.net/bdesome/zipfile.zip
Анатолий - @sindb, sindbag@gmail.com
+
Алексей - @adkosm
+
  
== Экзамен ==
+
Дата выдачи - '''18 февраля'''
  
Дата: ?
+
Дедлайн - '''14 марта 23:59'''
  
Место: ?
+
Возможна сдача после срока, штраф: -1 балл за день просрочки
 +
 
 +
== Экзамен ==
  
Вопросы к экзамену: ?
+
Дата: -
  
 
== Полезные материалы ==
 
== Полезные материалы ==

Текущая версия на 20:15, 14 марта 2020

О курсе

Курс читается для студентов 4-го курса ПМИ ФКН ВШЭ в 3 модуле.

Лектор: Зимовнов Андрей Вадимович

Лекции, которые вы смотрите в онлайне бесплатно, вот тут: https://www.coursera.org/learn/big-data-essentials

Канал в telegram для объявлений:


Вебинары

Все вебинары начинаются в 19:30.

  • Вебинар 1. 4 февраля — "Базовый спарк + скринкаст в колаб на простых примерах" Зимовнов Андрей Вадимович
  • Вебинар 2. 18 февраля — "SQL + Spark SQL + скринкаст в колаб на логах" Бардуков Анатолий Андреевич
  • Вебинар 3. 3 марта — "Hashing trick и большие линейные модели + скринкаст в колаб на датасете с оф. сайта" Космачев Алексей Дмитриевич

Ассистенты: Анвардинов Шариф Ринатович

Консультации

Консультации с преподавателями и учебными ассистентами (если иное не оговорено на странице семинаров конкретной группы) по курсу проводятся по предварительной договорённости ввиду невостребованности регулярных консультаций.

При необходимости, можно писать на почту или в Telegram:

Анатолий - @sindb

Алексей - @adkosm

Шариф - @shedx

Правила выставления оценок

Оценка за курс выставляется по оценке за практическое домашнее задание.

Правила сдачи заданий

Присылайте jupyter notebook, если сдаёте несколько раз в названии указывайте дату версии.

Для сдачи: https://www.dropbox.com/request/n4WtzIbtObuLE8kCwbLU

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

Возможна сдача после срока, штраф: -1 балл за день просрочки

Практическое домашнее задание

Суть задания: с помощью Spark SQL посчитать различные статистики по данным, собрать датасет для VW и запустить обучение.

По ссылке найдёте подробное описание, разбалловку и помощь в настройке окружения в колабе https://bit.ly/BDEHOME

Уменьшенный датасет доступен здесь: https://sindhdphdistorage.blob.core.windows.net/bdesome/zipfile.zip

Дата выдачи - 18 февраля

Дедлайн - 14 марта 23:59

Возможна сдача после срока, штраф: -1 балл за день просрочки

Экзамен

Дата: -

Полезные материалы

Книги

  1. Ron Bekkerman, Mikhail Bilenko, John Langford. Scaling up Machine Learning: Parallel and Distributed Approaches, Cambridge University Press, 2011.
  2. Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets, Cambridge University Press, 2014.
  3. Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning (Adaptive Computation and Machine Learning series), The MIT Press, 2016.
  4. Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills. Advanced Analytics with Spark: Patterns for Learning from Data at Scale, O'Reilly Media, 2015.