Сервис по работе с геоданными (командный проект)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Компания Яндекс.Недвижимость
Учебный семестр Осень 2018
Учебный курс 3-й курс
Максимальное количество студентов, выбравших проект: 3-4



Что это за проект?

В работе с объектами недвижимости принципиально важно знать, из чего состоит их окружение (магазинов, парковых зон, автомагистралей): это позволяет точнее предсказывать стоимость, делать рекомендации качественнее. Так как типов факторов огромное количество, необходимо уметь их корректно обрабатывать, хранить и использовать.

В проекте предлагается решить несколько задач:

1. Реализовать масштабируемую систему доступа к хранимым локально и в хранилище геоданным по адресу (== координатам) и подсчета статистик по ним.

2. Научиться обрабатывать пропущенные значения в данных: государственные реестры ведутся не очень качественно, объявлений в городе может быть мало, но признаки в модель передавать нужно. Для этого пропуски предлагается заполнять с помощью различных алгоритмов машинного обучения.

3. Генерировать новые признаки для наполнения системы: по спутниковым снимкам определять типологию застройки, строить нейросетевые представления для целых районов.

Чему научатся студенты? Что самое интересное в проекте?

1. Работа с данными крупного сервиса, реальными открытыми данными.

2. Итоговый сервис должен стабильно работать при ограниченных ресурсах.

3. Обучение сложных моделей, в том числе нейросетевых, на больших объёмах данных.

Организация работы (Как студенты будут работать в команде?)

1. Регулярные встречи с менторами (раз в 1-2 недели).

2. Ревью кода (pep8 будет).

3. Каждый студент поработает как над аналитической частью (анализ данных, построение моделей), так и над инженерными задачами (внедрение моделей, проверка качества). При этом возможно и разделение — кто-то больше занимается работой с моделями, кто-то концентрируется на инфраструктурных вопросах.

Какие будут использоваться технологии?

1. Python 3 как основной язык для инфраструктуры, обучения и сравнения моделей.

2. Docker для развертывания сервиса.

3. Git для совместной работы над кодом.

Какие начальные требования?

1. Понимание основ машинного обучения.

2. Знание Python.

3. Приветствуется опыт промышленной разработки.

Темы вводных занятий

1. Примеры использования различных геоданных в проектах.

2. Обзор различных типов геоданных.

Критерии оценки

Оценки зависят от итогового результата и вклада каждого участника проекта.

Контактная информация

vkokhtev@yandex-team.ru

telegram: @despairazure