Введение в анализ данных (майнор ИАД) 2019/2020 — различия между версиями
Esokolov (обсуждение | вклад) (→Лекции) |
Esokolov (обсуждение | вклад) |
||
Строка 106: | Строка 106: | ||
В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста. | В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста. | ||
+ | |||
+ | ===Правила участия и оценивания=== | ||
+ | В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок. | ||
+ | |||
+ | В лидербордах каждого из соревнований присутствуют несколько базовых решений (бейзлайнов), каждое из которых соответствует определённой оценке. Например, для получения оценки не ниже 8 баллов необходимо, чтобы ваше решение на '''приватном''' лидерборде оказалось лучше соответствующего бейзлайна. Далее для студента, преодолевшего бейзлайн на N_1 баллов, но не преодолевшего бейзлайн на N_2 балла, итоговая оценка за соревнование рассчитывается по равномерной сетке среди всех таких студентов в зависимости от места в приватном лидерборде среди них; если быть точными, то по следующей формуле: | ||
+ | |||
+ | N_2 - (N_2 - N_1) * i / M, | ||
+ | |||
+ | где M — количество студентов (из всех студентов, изучающих курс), преодолевших бейзлайн на N_1 баллов, но не преодолевших бейзлайн на N_2 балла; | ||
+ | |||
+ | i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов. | ||
+ | |||
+ | Единственное исключение из формулы — студенты, преодолевшие самый сильный бейзлайн, получают прибавку 1/M к своей оценке. | ||
+ | |||
+ | Чтобы вас не пропустили при проверке решений соревнования, '''необходимо''' использовать следующий формат для имени команды (вкладка Team): | ||
+ | |||
+ | «Имя Фамилия номер_группы» | ||
+ | |||
+ | В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Студенты, попавшие в топ-5 согласно приватному лидерборду, смогут получить дополнительные баллы, если в течение недели после окончания соревнования пришлют в anytask отчет о получении решения, фигурирующего в приватном лидерборде. Если не оговорено иное, использовать любые внешние данные в соревнованиях '''запрещено'''. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными. | ||
+ | |||
+ | === Соревнование 1: Определение категории товара === | ||
+ | |||
+ | '''Соревнование на бонусные баллы, не входит в основную формулу оценки''' | ||
+ | |||
+ | Дата выдачи: 08.04.2020 | ||
+ | |||
+ | Срок окончания соревнования: 16.05.2020 02:59MSK | ||
+ | |||
+ | [https://www.kaggle.com/t/9f493c11e0b24931996e5a8aec870a49 Ссылка на участие в соревновании] | ||
== Контрольная работа == | == Контрольная работа == |
Версия 15:59, 8 апреля 2020
Содержание
О курсе
Курс читается для студентов 2-го курса майнора ИАД в 3-4 модулях.
Проводится с 2015 года.
Лектор: Соколов Евгений Андреевич
Лекции проходят по средам в 10:30 (Покровский бульвар, 11).
Полезные ссылки
Репозиторий с материалами на GitHub
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
Канал в telegram для объявлений: https://t.me/hse_minor_intro_dm_2020
Чат в telegram для флуда: https://t.me/iad_flood
Ссылка на курс в Anytask: https://anytask.org/course/607
Таблица с оценками: https://docs.google.com/spreadsheets/d/1-6qKU3-5p-ZwujKqqp7QIwf1hKyagY00UyKzxZHwHq0/edit?usp=sharing
Семинары
Группа | Преподаватель | Учебный ассистент | Материалы семинаров | Аудитория | ДЗ |
---|---|---|---|---|---|
ИАД-1 | Кохтев Вадим | Ригвава Владимир | |||
ИАД-2 | Филатов Артём, Анастасия Рогачевская | Дмитрий Торилов | |||
ИАД-3 | Козловская Наталья | Юрий Саночкин | D507 | ДЗ-1 | |
ИАД-4 | Ковалев Евгений | Алвандян Нарек | Wiki GitHub Telegram | ||
ИАД-5 | Чиркова Надежда | Левина Александра | GitHub | ||
ИАД-6 | Чесаков Даниил | Ольга Быстрова | GitHub, rd5CNrr - инвайт в anytask |
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
- Практические домашние работы на Python
- Контрольная где-то в середине курса
- Письменный экзамен
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э)
ДЗ — средняя оценка за практические домашние задания
ПР — средняя оценка за письменные проверочные работы на семинарах
КР — оценка за контрольную работу
Э — оценка за экзамен
Округление арифметическое.
Правила сдачи заданий
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Лекция 1 (15.01.2020). Введение в машинное обучение и анализ данных. [Слайды]
Лекция 2 (22.01.2020). Основные постановки задач. Метод k ближайших соседей. Измерение ошибки в задачах классификации. Параметры и гиперпараметры. [Слайды]
Лекция 3 (05.02.2020). Оценка обобщающей способности моделей. Метод k ближайших соседей с весами. Метод k ближайших соседей для задач регрессии. Модель линейной регрессии. [Слайды]
Лекция 4 (12.02.2020). Применимость моделей линейной регрессии. Линейная регрессия в матричной форме. Обучение линейной регрессии через аналитическое решение. Регуляризация. Вычисление важности признаков в линейных моделях. [Слайды]
Лекция 5 (19.02.2020). Градиент. Градиентный спуск. Стохастический градиентный спуск. Функции потерь в задачах регрессии. [Слайды]
Лекция 6 (26.02.2020). Линейная классификация. Обучение через верхние оценки на функцию потерь. Метрики качества классификации: доля верных ответов, точность, полнота. Способы объединения точности и полноты. [Слайды]
Лекция 7 (04.03.2020). Линейная классификация. Оценки качества ранжирования объектов, AUC-ROC и AUC-PRC. Оценивание вероятностей классов. Логистическая регрессия. [Слайды]
Лекция 8 (11.03.2020). Линейная классификация. Метод опорных векторов. Калибровка вероятностей. Многоклассовая классификация. [Слайды]
Лекция 9 (18.03.2020). Решающие деревья. Структура. Критерии информативности для регрессии и классификации. [Слайды] [Запись вебинара]
Лекция 10 (25.03.2020). Решающие деревья. Жадное построение. Счётчики для кодирования категориальных признаков. [Слайды] [Запись вебинара]
Лекция 11 (08.04.2020). Композиции моделей. Бэггинг. Смещение и разброс в бэггинге. Случайный лес. [Слайды] [Запись вебинара]
Семинары
Практические задания
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста.
Правила участия и оценивания
В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.
В лидербордах каждого из соревнований присутствуют несколько базовых решений (бейзлайнов), каждое из которых соответствует определённой оценке. Например, для получения оценки не ниже 8 баллов необходимо, чтобы ваше решение на приватном лидерборде оказалось лучше соответствующего бейзлайна. Далее для студента, преодолевшего бейзлайн на N_1 баллов, но не преодолевшего бейзлайн на N_2 балла, итоговая оценка за соревнование рассчитывается по равномерной сетке среди всех таких студентов в зависимости от места в приватном лидерборде среди них; если быть точными, то по следующей формуле:
N_2 - (N_2 - N_1) * i / M,
где M — количество студентов (из всех студентов, изучающих курс), преодолевших бейзлайн на N_1 баллов, но не преодолевших бейзлайн на N_2 балла;
i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.
Единственное исключение из формулы — студенты, преодолевшие самый сильный бейзлайн, получают прибавку 1/M к своей оценке.
Чтобы вас не пропустили при проверке решений соревнования, необходимо использовать следующий формат для имени команды (вкладка Team):
«Имя Фамилия номер_группы»
В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Студенты, попавшие в топ-5 согласно приватному лидерборду, смогут получить дополнительные баллы, если в течение недели после окончания соревнования пришлют в anytask отчет о получении решения, фигурирующего в приватном лидерборде. Если не оговорено иное, использовать любые внешние данные в соревнованиях запрещено. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными.
Соревнование 1: Определение категории товара
Соревнование на бонусные баллы, не входит в основную формулу оценки
Дата выдачи: 08.04.2020
Срок окончания соревнования: 16.05.2020 02:59MSK
Ссылка на участие в соревновании
Контрольная работа
Вопросы прошлого года: https://docs.google.com/document/d/1kdeA730ItEqgC-4V_-U2gq_EbpX413XmmE9wMj7Wdh8/edit?usp=sharing
Примеры задач:
- Метрические методы, kNN [Примеры задач]
- Линейные методы [Примеры задач]
- Решающие деревья [Примеры задач]
- Метрики качества [Примеры задач]
Экзамен
Вопросы прошлого года: https://docs.google.com/document/d/1IrRO4kbzKieTWDgJ5UhfPECyU2tvq9CZi2mXgQPzf30/edit?usp=sharing
Примеры задач прошлого года (также могут войти задачи из коллоквиума)
Полезные материалы
Курсы по машинному обучению и анализу данных
- Курс по машинному обучению К.В. Воронцова
- Видеозаписи лекций курса Школы Анализа Данных, К.В. Воронцов
- Coursera: Машинное обучение и анализ данных (специализация)
- Coursera: Введение в машинное обучение, К.В. Воронцов
- Coursera: Machine Learning, Andrew Ng
Статьи
- An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples
- A Visual Introduction to Machine Learning
Книги
- Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
- Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
- James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.