НИС Машинное обучение и приложения/Практическое задание
В рамках данного практического задания студентам необходимо решить задачу распознавания цифр от 0 до 9 на изображениях. Задание проводится на базе платформы Kaggle, отправка решений осуществляется на странице задания.
Задание решается в командах до 4 человек. Списки команд с указанием ФИО, групп, почтовых адресов и логинов на Kaggle должны быть отправлены преподавателям до 23:59 21 декабря 2015 г. Данные списки считаются финальными и не могут быть изменены.
Срок выполнения задания: до 23:59 12 января 2016 г. После данного срока решения приниматься не будут.
Срок обнародования тестовой выборки: до 23:59 3 января 2016 г. После обнародования тестовой выборки каждой команде необходимо отправить решение с классификацией объектов тестовой выборки. Также после данного срока разрешается использовать неразмеченные данные из валидационной выборки для классификации тестовой выборки.
Содержание
[убрать]Форма оценивания
Формой оценивания является получение зачета. Необходимые условия получения зачета:
- Предоставить решение задачи классификации, достигающее большего значения точности на тестовой выборке чем доступное решение (baseline). Точность вычисляется как отношение правильно классифицированных объектов к общему числу объектов.
- Обосновать решение и подготовить отчет о выполненном задании (обязательную структуру отчета см. ниже).
Отчет о выполненном задании
Отчет должен содержать подробное обоснование всех принятых решений при подготовке решения, в частности, содержимого отчета должно быть достаточно для воспроизводства всех результатов.
Обязательные пункты, которые должны в явном виде присутствовать в отчете:
- Предобработка данных. Выполнялась ли в каком-либо виде предобработка входных данных (как обучающих, так и входящих в валидационную и тестовую выборки)? Были ли разработаны вами новые признаки?
- Конечное решение. Полное описание конечной процедуры обучения и классификации, достаточное для воспроизведения результатов, а также обоснование всех принятых решений при выборе алгоритмов обучения, конкретных значений гиперпараметров и т.д.
- Борьба с переобучением. Какие меры были предприняты вами для того, чтобы избежать переобучения?
- Использование неразмеченных данных (данный пункт отчета является необязательным, если неразмеченные данные не использовались). Как вы использовали доступ к неразмеченной валидационной выборке после открытия полной тестовой выборки?
Состав решения
Помимо отправленного решения на сайте Kaggle необходимо также предоставить программную реализацию итогового решения. Реализация должна состоять из единого файла с исходным кодом на языке python (либо единого файла ipython notebook), в результаты выполнения которого в директории с обучающей, валидационной и тестовой выборками создается файл “answer.csv” с ответами для тестовой выборки. В случае, если форматом является ipython notebook, ответы для тестовой выборки должны быть получены путем последовательного выполнения ячеек. Разрешается использовать любые общедоступные библиотеки.
Программная реализация решения и отчет должны быть отправлены на почту преподавателя до истечения срока выполнения задания.
Для обучения разрешается использовать только обучающую выборку, а также валидационную после получения доступа к тестовой выборке. Запрещается использовать какие-либо другие данные.
Данные и baseline
Обучающая и валидационная выборки доступны на странице задания. Baseline-решение доступно здесь.