Анализ графов и обработка неструктурированных данных в SAS (командный проект)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Компания SAS
Учебный семестр Осень 2017
Учебный курс 3-й курс
Максимальное количество студентов, выбравших проект: 2-3



Что это за проект?

Сбор и предобработка данных являются наиболее трудоёмкими и важными процедурами в процессе решения практических задач по анализу данных. Мы предлагаем проект, в котором инфраструктура SAS используется для построения и анализа связей между объектами. Чтобы решить эту задачу, необходимо собрать из интернета и подготовить большой объём данных. Наша главная цель – получить работоспособную систему, показывающую результаты за приемлемое время.

Чему научатся студенты? Что самое интересное в проекте?

Использовать инфраструктуру SAS для подготовки и анализа данных

Работать с неструктурированными данными и применять к ним методы текстовой аналитики и методы анализа графов.

Решать задачи, имеющие практическое приложение

Организация работы (Как студенты будут работать в команде?)

Основные моменты взаимодействия:

  • Рабочее окружение (ноутбук с дистрибутивом SAS) предоставляется компанией
  • Разработка ведётся командой из 2-3 человек, каждый из которых отвечает за свою часть задачи.
  • Участники проекта могут консультироваться с кураторами (специалисты компании SAS).
  • Каждые 2 недели встречаемся и обсуждаем текущее состояние задач.
  • Удаленная работа, встречаться нечасто, контакты - по электронным каналам связи (почта, вотсап, скайп).

Компоненеты (Из каких частей состоит проект?)

  • Сбор данных из интернета – анализ доступных инструментов, в том числе из доступных в SAS, выбор наиболее подходящего из них. Доработка / настройка этого инструмента.
  • Подготовка данных – работа с методами текстовой аналитики, в том числе из доступных в системе SAS.
  • Построение графа
  • Анализ графа. Разбиение на сообщества, оценка качества разбиения на сообщества.
  • Разведочный анализ полученного массива данных – визуализация полученного графа связей. Настройка / доработка инструментария, который имеется в SAS.

Какие будут использоваться технологии?

Планируется использовать инструментарий платформы SAS, а также открытые инструменты. (например, Python, R, *nix shell)

Какие начальные требования?

  • Начальные знания о программировании, желание изучать новые инструменты (SAS).
  • Представления о задачах интеллектуального анализа данных и опыт их решения

Темы вводных занятий

  • Знакомство с SAS и постановка задачи
  • Анализ графов в SAS
  • Инструменты текстовой аналитики в SAS

Критерии оценки

Минимальные требования (на 4-5):

  • Научились выгружать требуемые данные из интернета (краулинг веб-сайтов).
  • Научились их подготавливать для анализа связей между документами при помощи инструмента для текстовой аналитики

Требования (на 6-7):

  • Сравнили несколько инструментов для выгрузки данных, выбрали для задачи наиболее подходящий
  • Изучили и сравнили несколько инструментов для обработки неструктурированного текста, выбрали из них наиболее подходящий

Требования (на 8-10):

  • Доработка инструмента для визуализации связей
  • Краткий отчёт и извлечение осмысленной информации из решённой задачи.

Более точные требования на 6-10 будут сформулированы на первых занятиях исходя из уровня подготовки участников проекта.

Похожие проекты

Райффайзенбанк Банк, внедрение антифрод системы

Ингосстрах, внедрение антифрод системы

Контактная информация

Мария Воробьёва, старший консультант компании SAS, отдел анализа рисков, Maria.Vorobyeva@sas.com

Дмитрий Звежинский, консультант компании SAS, отдел решений по клиентской аналитике, Dmitry.Zvezhinsky@sas.com