Построение прогноза по новым товарам (командный проект)

Материал из Wiki - Факультет компьютерных наук
Версия от 15:49, 12 октября 2017; GalinaKaleeva (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Компания SAS
Учебный семестр Осень 2017
Учебный курс 3-й курс
Максимальное количество студентов, выбравших проект: 2-3



Что это за проект?

Ключевой вопрос при появлении нового товара в ритейл сети – а в каком магазине он будет более быстро продаваться? Для того чтобы ответить, куда везти товар, а куда не стоит, требуется спрогнозировать спрос на этот товар в каждом магазине, НЕ зная истории продаж товара. В рамках проекта предлагается решить задачу прогнозирования спроса по новым товарам с помощью методов Machine Learning.

Требования к разработке готовой системы

Система прогнозирования спроса по новым товарам должна уметь

1) получать на вход данные о новых товарах в заранее оговоренном формате;

2) разбивать имеющиеся данные на train\validate\test подвыборки;

3) строить финальный алгоритм прогнозирования спроса (решающее правило) на базе таких алгоритмов как LinearRegression, RandomForest, GradientBoosting и др; при этом обязательным элементом на пути построения решения будет:

a. автоматическая фильтрация данных;
b. автоматическое извлечение признаков;
c. автоматическая генерация новых признаков;

4) выдавать оценку по точности полученных алгоритмов на test выборке, а также другие статистики и отчёты о настройке финального алгоритма.

Все алгоритмы и структуры данных, с которыми работают данные алгоритмы, должны быть реализованы на платформе SAS.

Почему данное решение необходимо?

До сих пор проблема предсказания спроса на новые товары является белым пятном для большинства ритейл компаний. В данном проекте предлагается разработать подход с помощью методов машинного обучения, претендующий на универсальность: т.е. будет разработан фреймворк для построения прогнозов по новым товарам независящий от природы данных.

Наличие данного фреймворка позволит процесс построение качественного прогноза по новым товарам.

Чему научатся студенты? Что самое интересное в проекте?

Студенты смогут освоить и закрепить язык SAS и решения, написанные на SAS.

Для решения задач проекта студента погрузятся в специфику проблемы прогнозирования новых товаров в ритейл компаниях, осознают экономическое обоснование данной задачи. Обязательными элементами проекта является анализ реальных данных, реализация алгоритмов по отбору признаков, построения workflow для обучения алгоритма прогнозирования.

Наиболее занимательная (творческая) часть – это изучение реальных данных и построение прогноза для них. Для более живого понимания важности данного прогноза для ритейл компаний, студентам будет демонстрироваться отчет о том, сколько денег сэкономит их система благодаря более точному прогнозу.

Организация работы (Как студенты будут работать в команде?)

Команда из 2-3 человек. По ходу реализации системы работы будут распараллелены, чтобы каждый получил опыт и в анализе данных, и в разработке и в тестировании системы.

Встречи будут проходит 1 раз в 2 недели.

Компоненеты (Из каких частей состоит проект?)

1. Изучение данных, изучение задачи прогнозирования новых товаров.

2. Анализ данных, написание фреймворка фильтрации данных.

3. Написание фреймворка для выявление наиболее значимых факторов.

4. Фреймворк по построение финального алгоритма, обучение алгоритмов, оценка точности построенного алгоритма.

5. Тестирование системы на реальных данных

Какие будут использоваться технологии?

Для реализации проекта студентам потребуется освоить ПО SAS. Будут использоваться следующие продукты:

1) SAS BASE и SAS Enterprise Guide – для анализа данных и разработки алгоритмов.

2) SAS Enterprise Miner и SAS Forecast Server.

Какие начальные требования?

Навыки анализа данных. Навыки программирования (C, С++, C#, Python, R и др.) и знание SQL-like языков.

Темы вводных занятий

1. Постановка задачи прогнозирования спроса, план работа по проекту, погружение в ритейл.

2. План проекта.

3. Типовые задачи при построении решение методами машинного обучения.

Критерии оценки

8-10 – разработана полноценная система для построения прогноза, создано её описание, система позволяет значительно улучшить базовый результат (тривиальный прогноз*).

6-7 – разработана система для построения прогноза, система не ухудшает базовый результат (тривиальный прогноз).

4-5 – проведение анализа данных, выявление зависимостей и закономерностей. Разработка архитектуры и верхнеуровневое описание алгоритмов.

(*) Тривиальный прогноз строится алгоритмом типа decision stump (на базе одного признака).

Похожие проекты

TBA

Контактная информация

Алексей Романенко