Машинное обучение на больших данных 145 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Семинары)
(Семинары)
 
Строка 1: Строка 1:
  
 
=== Семинары ===
 
=== Семинары ===
 +
 +
==== Сверточные сети, продолжение (29.05) ====
 +
 +
[https://www.dropbox.com/s/sgqmzena6a5miw1/test02.pdf?dl=0 Проверочная]
  
 
==== Сверточные сети (22.05) ====
 
==== Сверточные сети (22.05) ====

Текущая версия на 13:39, 29 мая 2017

Семинары

Сверточные сети, продолжение (29.05)

Проверочная

Сверточные сети (22.05)

Tensorflow (15.05)

Для работы с Tensorflow нужно поднять машину с GPU (см. инструкцию на гитхабе). Там же уже лежат примеры кода на Tensorflow. На семинаре разбирались с синтаксисом и реализовывали логистическую регрессию и двухслойную нейронную сеть с L2-регуляризацией.

Бустинг (24.04)

Нужно обучить на данных модели для градиентного бустинга из Spark.Mllib и xgboost (опционально еще sklearn) и сравнить их время работы и качество. Вот данные: train, test.

Spark Mllib (17.04)

Полезнцые ссылки:

Проверочная.

Azure, Spark (10.04)

Полезные ссылки

Задачи на Spark (map-reduce):

  1. Формат таблицы: (название города, (температура, день)). Найдите среднюю температуру по каждому городу.
  2. Формат таблицы: (название города, (температура, день)). Для каждого дня выведите список городов, где температура была выше средней в этот день.
  3. Формат таблицы: (ID человека, рост человека). Построить гистограмму средних значений роста при бутстрепе с числом выборок N.
  4. Формат таблицы: (ID, вектор). Посчитать косинус угла между всеми парами векторов. Известно, что у векторов очень большая размерность, но они являются разреженными.
  5. Формат таблицы: (ID вершины, список ID соседей вершины). Для вершины с заданным номером найти кратчайшие расстояния до всех остальных вершин.

Vowpal Wabbit, Azure (03.04)

Задание на Vowpal Wabbit:

  • Скачайте данные, разберитесь с форматом, конвертируйте его в формат VW
  • Обучите линейную модель на обучающих данных, проверьте на тестовых
  • Обучите модель с логистической функцией потерь
  • (доп.) Обучите нелинейную модель и добейтесь с ее помощью более высокого качества

Данные для обучения, данные для тестирования, формат данных

По Azure:

  • На семинаре вы получили логин вида studentN и пароль к нему.
  • Залогиньтесь на portal.azure.com с логином studentN@zimovnovgmail.onmicrosoft.com . Там пока ничего делать не нужно.
  • Установите себе Azure CLI. Если его не получается установить, установите хотя бы генератор ssh-ключей: ssh-keygen для Unix или см. тут для Windows. На семинаре будем разбираться.
  • Установите какую-нибудь утилиту для ssh-подключений: ssh для Unix или, например, PuTTY для Windows.