НИС Машинное обучение и приложения/Практическое задание

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

В рамках данного практического задания студентам необходимо решить задачу распознавания цифр от 0 до 9 на изображениях. Задание проводится на базе платформы Kaggle, отправка решений осуществляется на странице задания.

Задание решается в командах до 4 человек. Списки команд с указанием ФИО, групп, почтовых адресов и логинов на Kaggle должны быть отправлены преподавателям до 23:59 21 декабря 2015 г. Данные списки считаются финальными и не могут быть изменены.

Срок выполнения задания: до 23:59 16 января 2016 г (срок продлен). После данного срока решения приниматься не будут.

Срок обнародования тестовой выборки: 7 января 2016 г. После обнародования тестовой выборки каждой команде необходимо отправить решение с классификацией объектов тестовой выборки. Также после данного срока разрешается использовать неразмеченные данные из валидационной выборки для классификации тестовой выборки.

Форма оценивания

Формой оценивания является получение зачета. Необходимые условия получения зачета:

  1. Предоставить решение задачи классификации, достигающее большего значения точности на тестовой выборке чем доступное решение (baseline). Точность вычисляется как отношение правильно классифицированных объектов к общему числу объектов.
  2. Обосновать решение и подготовить отчет о выполненном задании (обязательную структуру отчета см. ниже).

Отчет о выполненном задании

Отчет должен содержать подробное обоснование всех принятых решений при подготовке решения, в частности, содержимого отчета должно быть достаточно для воспроизведения всех результатов.

Обязательные пункты, которые должны в явном виде присутствовать в отчете:

  1. Предобработка данных. Выполнялась ли в каком-либо виде предобработка входных данных (как обучающих, так и входящих в валидационную и тестовую выборки)? Были ли разработаны вами новые признаки?
  2. Конечное решение. Полное описание конечной процедуры обучения и классификации, достаточное для воспроизведения результатов, а также обоснование всех принятых решений при выборе алгоритмов обучения, конкретных значений гиперпараметров и т.д.
  3. Борьба с переобучением. Какие меры были предприняты вами для того, чтобы избежать переобучения?
  4. Использование неразмеченных данных (данный пункт отчета является необязательным, если неразмеченные данные не использовались). Как вы использовали доступ к неразмеченной валидационной выборке после открытия полной тестовой выборки?

Состав решения

Помимо отправленного решения на сайте Kaggle необходимо также предоставить программную реализацию итогового решения. Реализация должна состоять из единого файла с исходным кодом на языке python (либо единого файла ipython notebook), в результаты выполнения которого в директории с обучающей, валидационной и тестовой выборками создается файл “answer.csv” с ответами для тестовой выборки. В случае, если форматом является ipython notebook, ответы для тестовой выборки должны быть получены путем последовательного выполнения ячеек. Разрешается использовать любые общедоступные библиотеки.

Программная реализация решения и отчет должны быть отправлены на почту преподавателя до истечения срока выполнения задания.

Для обучения разрешается использовать только обучающую выборку, а также валидационную после получения доступа к тестовой выборке. Запрещается использовать какие-либо другие данные.

Данные и baseline

Обучающая и валидационная выборки доступны на странице задания. Baseline-решение доступно здесь.