Машинное обучение на больших данных 145 — различия между версиями
Материал из Wiki - Факультет компьютерных наук
Aumnov (обсуждение | вклад) |
Aumnov (обсуждение | вклад) (→Azure, Spark (10.04)) |
||
Строка 13: | Строка 13: | ||
# Формат таблицы: (название города, (температура, день)). Для каждого дня выведите список городов, где температура была выше средней в этот день. | # Формат таблицы: (название города, (температура, день)). Для каждого дня выведите список городов, где температура была выше средней в этот день. | ||
# Формат таблицы: (ID человека, рост человека). Построить гистограмму средних значений роста при бутстрепе с числом выборок N. | # Формат таблицы: (ID человека, рост человека). Построить гистограмму средних значений роста при бутстрепе с числом выборок N. | ||
− | # Формат таблицы: (ID, вектор). Посчитать косинус угла между всеми парами векторов. Известно, что у векторов очень большая | + | # Формат таблицы: (ID, вектор). Посчитать косинус угла между всеми парами векторов. Известно, что у векторов очень большая размерность, но они являются разреженными. |
# Формат таблицы: (ID вершины, список ID соседей вершины). Для вершины с заданным номером найти кратчайшие расстояния до всех остальных вершин. | # Формат таблицы: (ID вершины, список ID соседей вершины). Для вершины с заданным номером найти кратчайшие расстояния до всех остальных вершин. | ||
Версия 13:44, 10 апреля 2017
Семинары
Azure, Spark (10.04)
Полезные ссылки
Задачи на Spark (map-reduce):
- Формат таблицы: (название города, (температура, день)). Найдите среднюю температуру по каждому городу.
- Формат таблицы: (название города, (температура, день)). Для каждого дня выведите список городов, где температура была выше средней в этот день.
- Формат таблицы: (ID человека, рост человека). Построить гистограмму средних значений роста при бутстрепе с числом выборок N.
- Формат таблицы: (ID, вектор). Посчитать косинус угла между всеми парами векторов. Известно, что у векторов очень большая размерность, но они являются разреженными.
- Формат таблицы: (ID вершины, список ID соседей вершины). Для вершины с заданным номером найти кратчайшие расстояния до всех остальных вершин.
Vowpal Wabbit, Azure (03.04)
Задание на Vowpal Wabbit:
- Скачайте данные, разберитесь с форматом, конвертируйте его в формат VW
- Обучите линейную модель на обучающих данных, проверьте на тестовых
- Обучите модель с логистической функцией потерь
- (доп.) Обучите нелинейную модель и добейтесь с ее помощью более высокого качества
Данные для обучения, данные для тестирования, формат данных
По Azure:
- На семинаре вы получили логин вида studentN и пароль к нему.
- Залогиньтесь на portal.azure.com с логином studentN@zimovnovgmail.onmicrosoft.com . Там пока ничего делать не нужно.
- Установите себе Azure CLI. Если его не получается установить, установите хотя бы генератор ssh-ключей: ssh-keygen для Unix или см. тут для Windows. На семинаре будем разбираться.
- Установите какую-нибудь утилиту для ssh-подключений: ssh для Unix или, например, PuTTY для Windows.