Введение в анализ данных — различия между версиями
Esokolov (обсуждение | вклад) |
Esokolov (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
− | + | == О курсе == | |
+ | |||
+ | Курс читается для студентов 2-го курса [https://electives.hse.ru/minor_intel/ майнора ИАД] в 3-4 модулях. | ||
+ | |||
+ | Проводится с 2015 года. | ||
+ | |||
+ | '''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич] | ||
+ | |||
+ | Лекции проходят онлайн по средам в 11:10. | ||
+ | |||
+ | === Полезные ссылки === | ||
+ | |||
+ | [https://www.hse.ru/edu/courses/416021030 Карточка курса и программа] | ||
+ | |||
+ | [https://github.com/hse-ds/iad-intro-ds Репозиторий с материалами на GitHub] | ||
+ | |||
+ | Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com) | ||
+ | |||
+ | Канал в telegram для объявлений: https://t.me/hs_iad_2021 | ||
+ | |||
+ | Чат в telegram для флуда: https://t.me/joinchat/Vuq4Lgi98RG22fQP | ||
+ | |||
+ | Ссылка на курс в Anytask: | ||
+ | |||
+ | Таблица с оценками: | ||
+ | |||
+ | === Семинары === | ||
+ | |||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | ! Группа !! Преподаватель !! Учебные ассистенты !! Zoom-конференция !! Ссылка на чат !! Материалы семинаров !! ДЗ | ||
+ | |- | ||
+ | | ИАД-1 || Илья Косарев || || || || || | ||
+ | |- | ||
+ | | ИАД-2 || Чиркова Надежда || Екатерина Кострыкина, Александра Штарёва || [https://zoom.us/j/97891126155?pwd=bXk0c2oxRm9jWUJuRUJtRDl1elB2QT09 Zoom] || [https://t.me/joinchat/GnnT0omle1UE7HQ1 Чат] || || | ||
+ | |- | ||
+ | | ИАД-3 || Кантонистова Елена || || || || || | ||
+ | |- | ||
+ | | ИАД-4 || Филатов Артём || || || || || | ||
+ | |- | ||
+ | | ИАД-5 || [https://t.me/vsomelyusik Владимир Омелюсик] || Аня Аксенова, Александр Габиташвили || [https://zoom.us/j/95997234634?pwd=SHVjUGM1a2hFTDNnZ1RmMm1xakpTQT09 Zoom] || [https://t.me/joinchat/GRjeFvGs5HBiIm38 Чат] || || | ||
+ | |- | ||
+ | | ИАД-6 || Карпова Ася || || || || || | ||
+ | |- | ||
+ | | ИАД-7 || Таболов Тамерлан || || || || || | ||
+ | |- | ||
+ | |} | ||
+ | |||
+ | === Правила выставления оценок === | ||
+ | |||
+ | В курсе предусмотрено несколько форм контроля знания: | ||
+ | * Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров | ||
+ | * Практические домашние работы на Python | ||
+ | * Контрольная где-то в середине курса | ||
+ | * Письменный экзамен | ||
+ | |||
+ | Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен: | ||
+ | |||
+ | O<sub>итоговая</sub> = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э) | ||
+ | |||
+ | ДЗ — средняя оценка за практические домашние задания | ||
+ | |||
+ | ПР — средняя оценка за письменные проверочные работы на семинарах | ||
+ | |||
+ | КР — оценка за контрольную работу | ||
+ | |||
+ | Э — оценка за экзамен | ||
+ | |||
+ | Округление арифметическое. | ||
+ | |||
+ | === Правила сдачи заданий === | ||
+ | |||
+ | За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее. | ||
+ | |||
+ | При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента. | ||
+ | |||
+ | При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис. | ||
+ | |||
+ | == Лекции == | ||
+ | |||
+ | == Семинары == | ||
+ | |||
+ | == Практические задания == | ||
+ | |||
+ | За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное). | ||
+ | |||
+ | В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста. | ||
+ | |||
+ | == Соревнования == | ||
+ | |||
+ | ===Правила участия и оценивания=== | ||
+ | В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок. | ||
+ | |||
+ | Студент, занявший в соревновании место i, получает оценку | ||
+ | |||
+ | 10 - 10 * (i - 1) / M, | ||
+ | |||
+ | где M — количество студентов, принявших участие в соревновании; | ||
+ | |||
+ | i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов. | ||
+ | |||
+ | Чтобы вас не пропустили при проверке решений соревнования, '''необходимо''' использовать следующий формат для имени команды (вкладка Team): | ||
+ | |||
+ | «Имя Фамилия номер_группы» | ||
+ | |||
+ | В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Если не оговорено иное, использовать любые внешние данные в соревнованиях '''запрещено'''. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными. | ||
+ | |||
+ | == Контрольная работа == | ||
+ | |||
+ | Вопросы для подготовки с прошлого года: https://docs.google.com/document/d/1yuB17EoXyVSxqRslpFTKX97Kriuxn4lgFL5z4kQF9lU/edit?usp=sharing | ||
+ | |||
+ | На контрольной будет 4 вопроса. Два из них — по теории, где нужно будет объяснить одну из тем, разобранных на лекциях, или ответить на вопросы на понимание. Два вопроса — это задачи, примеры приведены ниже. | ||
+ | |||
+ | Примеры задач: | ||
+ | * Метрические методы, kNN [[http://nbviewer.jupyter.org/github/shestakoff/minor_da_2017/blob/master/colloc_knn.ipynb Примеры задач]] | ||
+ | * Линейные методы [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_linear.pdf Примеры задач]] | ||
+ | * Решающие деревья [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_trees.ipynb Примеры задач]] | ||
+ | * Метрики качества [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_metrics.ipynb Примеры задач]] | ||
+ | |||
+ | == Экзамен == | ||
+ | |||
+ | Вопросы: https://docs.google.com/document/d/18kMS1f7NsdGEZy62MgfTGdgSq4P-6DVcnwr1ZJPLAqE/edit?usp=sharing | ||
+ | |||
+ | [https://github.com/esokolov/ml-minor-hse/blob/master/exam-2017/exam_problems_example.pdf Примеры задач прошлого года] (также могут войти задачи из коллоквиума) | ||
+ | |||
+ | ==Полезные материалы== | ||
+ | ===Курсы по машинному обучению и анализу данных=== | ||
+ | * [http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение_%28курс_лекций%2C_К.В.Воронцов%29 Курс по машинному обучению К.В. Воронцова] | ||
+ | * [https://yandexdataschool.ru/edu-process/courses/machine-learning Видеозаписи лекций курса Школы Анализа Данных, К.В. Воронцов] | ||
+ | * [https://www.coursera.org/specializations/machine-learning-data-analysis Coursera: Машинное обучение и анализ данных (специализация)] | ||
+ | * [https://www.coursera.org/learn/introduction-machine-learning Coursera: Введение в машинное обучение, К.В. Воронцов] | ||
+ | * [https://www.coursera.org/learn/machine-learning Coursera: Machine Learning, Andrew Ng] | ||
+ | |||
+ | ===Статьи=== | ||
+ | * [http://www.toptal.com/machine-learning/machine-learning-theory-an-introductory-primer An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples] | ||
+ | * [http://www.r2d3.us/visual-intro-to-machine-learning-part-1/ A Visual Introduction to Machine Learning] | ||
+ | |||
+ | ===Книги=== | ||
+ | * Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014. | ||
+ | * Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010. | ||
+ | * James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013. | ||
+ | |||
+ | == Страницы прошлых лет == | ||
+ | |||
+ | [[Введение_в_анализ_данных_(майнор_ИАД)_2019/2020 | 2019/20 учебный год]] | ||
+ | |||
+ | [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных | 2018/19 учебный год ]] | ||
+ | |||
+ | [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2017-2018 | 2017/18 учебный год ]] | ||
+ | |||
+ | [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2016-2017 | 2016/17 учебный год ]] | ||
+ | |||
+ | [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2015-2016 | 2015/16 учебный год ]] | ||
+ | |||
+ | [[Category:Майнор "Интеллектуальный анализ данных"]] |
Версия 14:24, 20 января 2021
Содержание
О курсе
Курс читается для студентов 2-го курса майнора ИАД в 3-4 модулях.
Проводится с 2015 года.
Лектор: Соколов Евгений Андреевич
Лекции проходят онлайн по средам в 11:10.
Полезные ссылки
Репозиторий с материалами на GitHub
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
Канал в telegram для объявлений: https://t.me/hs_iad_2021
Чат в telegram для флуда: https://t.me/joinchat/Vuq4Lgi98RG22fQP
Ссылка на курс в Anytask:
Таблица с оценками:
Семинары
Группа | Преподаватель | Учебные ассистенты | Zoom-конференция | Ссылка на чат | Материалы семинаров | ДЗ |
---|---|---|---|---|---|---|
ИАД-1 | Илья Косарев | |||||
ИАД-2 | Чиркова Надежда | Екатерина Кострыкина, Александра Штарёва | Zoom | Чат | ||
ИАД-3 | Кантонистова Елена | |||||
ИАД-4 | Филатов Артём | |||||
ИАД-5 | Владимир Омелюсик | Аня Аксенова, Александр Габиташвили | Zoom | Чат | ||
ИАД-6 | Карпова Ася | |||||
ИАД-7 | Таболов Тамерлан |
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
- Практические домашние работы на Python
- Контрольная где-то в середине курса
- Письменный экзамен
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э)
ДЗ — средняя оценка за практические домашние задания
ПР — средняя оценка за письменные проверочные работы на семинарах
КР — оценка за контрольную работу
Э — оценка за экзамен
Округление арифметическое.
Правила сдачи заданий
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Семинары
Практические задания
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста.
Соревнования
Правила участия и оценивания
В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.
Студент, занявший в соревновании место i, получает оценку
10 - 10 * (i - 1) / M,
где M — количество студентов, принявших участие в соревновании;
i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.
Чтобы вас не пропустили при проверке решений соревнования, необходимо использовать следующий формат для имени команды (вкладка Team):
«Имя Фамилия номер_группы»
В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Если не оговорено иное, использовать любые внешние данные в соревнованиях запрещено. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными.
Контрольная работа
Вопросы для подготовки с прошлого года: https://docs.google.com/document/d/1yuB17EoXyVSxqRslpFTKX97Kriuxn4lgFL5z4kQF9lU/edit?usp=sharing
На контрольной будет 4 вопроса. Два из них — по теории, где нужно будет объяснить одну из тем, разобранных на лекциях, или ответить на вопросы на понимание. Два вопроса — это задачи, примеры приведены ниже.
Примеры задач:
- Метрические методы, kNN [Примеры задач]
- Линейные методы [Примеры задач]
- Решающие деревья [Примеры задач]
- Метрики качества [Примеры задач]
Экзамен
Вопросы: https://docs.google.com/document/d/18kMS1f7NsdGEZy62MgfTGdgSq4P-6DVcnwr1ZJPLAqE/edit?usp=sharing
Примеры задач прошлого года (также могут войти задачи из коллоквиума)
Полезные материалы
Курсы по машинному обучению и анализу данных
- Курс по машинному обучению К.В. Воронцова
- Видеозаписи лекций курса Школы Анализа Данных, К.В. Воронцов
- Coursera: Машинное обучение и анализ данных (специализация)
- Coursera: Введение в машинное обучение, К.В. Воронцов
- Coursera: Machine Learning, Andrew Ng
Статьи
- An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples
- A Visual Introduction to Machine Learning
Книги
- Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
- Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
- James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.