Машинное обучение на больших данных 145
Материал из Wiki - Факультет компьютерных наук
Версия от 13:39, 29 мая 2017; Aumnov (обсуждение | вклад)
Содержание
Семинары
Сверточные сети, продолжение (29.05)
Сверточные сети (22.05)
Tensorflow (15.05)
Для работы с Tensorflow нужно поднять машину с GPU (см. инструкцию на гитхабе). Там же уже лежат примеры кода на Tensorflow. На семинаре разбирались с синтаксисом и реализовывали логистическую регрессию и двухслойную нейронную сеть с L2-регуляризацией.
Бустинг (24.04)
Нужно обучить на данных модели для градиентного бустинга из Spark.Mllib и xgboost (опционально еще sklearn) и сравнить их время работы и качество. Вот данные: train, test.
Spark Mllib (17.04)
Полезнцые ссылки:
Azure, Spark (10.04)
Полезные ссылки
Задачи на Spark (map-reduce):
- Формат таблицы: (название города, (температура, день)). Найдите среднюю температуру по каждому городу.
- Формат таблицы: (название города, (температура, день)). Для каждого дня выведите список городов, где температура была выше средней в этот день.
- Формат таблицы: (ID человека, рост человека). Построить гистограмму средних значений роста при бутстрепе с числом выборок N.
- Формат таблицы: (ID, вектор). Посчитать косинус угла между всеми парами векторов. Известно, что у векторов очень большая размерность, но они являются разреженными.
- Формат таблицы: (ID вершины, список ID соседей вершины). Для вершины с заданным номером найти кратчайшие расстояния до всех остальных вершин.
Vowpal Wabbit, Azure (03.04)
Задание на Vowpal Wabbit:
- Скачайте данные, разберитесь с форматом, конвертируйте его в формат VW
- Обучите линейную модель на обучающих данных, проверьте на тестовых
- Обучите модель с логистической функцией потерь
- (доп.) Обучите нелинейную модель и добейтесь с ее помощью более высокого качества
Данные для обучения, данные для тестирования, формат данных
По Azure:
- На семинаре вы получили логин вида studentN и пароль к нему.
- Залогиньтесь на portal.azure.com с логином studentN@zimovnovgmail.onmicrosoft.com . Там пока ничего делать не нужно.
- Установите себе Azure CLI. Если его не получается установить, установите хотя бы генератор ssh-ключей: ssh-keygen для Unix или см. тут для Windows. На семинаре будем разбираться.
- Установите какую-нибудь утилиту для ssh-подключений: ssh для Unix или, например, PuTTY для Windows.