Машинное обучение на больших данных 145 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Azure, Spark (10.04))
(Семинары)
Строка 1: Строка 1:
 +
 
=== Семинары ===
 
=== Семинары ===
 +
 +
==== Бустинг (24.04) ====
 +
 +
Нужно обучить на данных модели для градиентного бустинга из Spark.Mllib и xgboost (опционально еще sklearn) и сравнить их время работы и качество. Вот данные: [https://www.dropbox.com/s/5yw1q7sjhw8sp5n/train.txt.zip?dl=0 train], [https://www.dropbox.com/s/w0dqf59ad7wci35/test.txt.zip?dl=0 test].
  
 
==== Azure, Spark (10.04) ====
 
==== Azure, Spark (10.04) ====

Версия 23:21, 23 апреля 2017

Семинары

Бустинг (24.04)

Нужно обучить на данных модели для градиентного бустинга из Spark.Mllib и xgboost (опционально еще sklearn) и сравнить их время работы и качество. Вот данные: train, test.

Azure, Spark (10.04)

Полезные ссылки

Задачи на Spark (map-reduce):

  1. Формат таблицы: (название города, (температура, день)). Найдите среднюю температуру по каждому городу.
  2. Формат таблицы: (название города, (температура, день)). Для каждого дня выведите список городов, где температура была выше средней в этот день.
  3. Формат таблицы: (ID человека, рост человека). Построить гистограмму средних значений роста при бутстрепе с числом выборок N.
  4. Формат таблицы: (ID, вектор). Посчитать косинус угла между всеми парами векторов. Известно, что у векторов очень большая размерность, но они являются разреженными.
  5. Формат таблицы: (ID вершины, список ID соседей вершины). Для вершины с заданным номером найти кратчайшие расстояния до всех остальных вершин.

Vowpal Wabbit, Azure (03.04)

Задание на Vowpal Wabbit:

  • Скачайте данные, разберитесь с форматом, конвертируйте его в формат VW
  • Обучите линейную модель на обучающих данных, проверьте на тестовых
  • Обучите модель с логистической функцией потерь
  • (доп.) Обучите нелинейную модель и добейтесь с ее помощью более высокого качества

Данные для обучения, данные для тестирования, формат данных

По Azure:

  • На семинаре вы получили логин вида studentN и пароль к нему.
  • Залогиньтесь на portal.azure.com с логином studentN@zimovnovgmail.onmicrosoft.com . Там пока ничего делать не нужно.
  • Установите себе Azure CLI. Если его не получается установить, установите хотя бы генератор ssh-ключей: ssh-keygen для Unix или см. тут для Windows. На семинаре будем разбираться.
  • Установите какую-нибудь утилиту для ssh-подключений: ssh для Unix или, например, PuTTY для Windows.