Введение в анализ данных (майнор ИАД) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
 
Строка 1: Строка 1:
#перенаправление [[Введение в анализ данных (майнор ИАД) 2019/2020]]
+
== О курсе ==
 +
 
 +
Курс читается для студентов 2-го курса [https://electives.hse.ru/minor_intel/ майнора ИАД] в 3-4 модулях.
 +
 
 +
Проводится с 2015 года.
 +
 
 +
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич]
 +
 
 +
Лекции проходят онлайн по средам в 11:10.
 +
 
 +
=== Полезные ссылки ===
 +
 
 +
[https://www.hse.ru/edu/courses/416021030 Карточка курса и программа]
 +
 
 +
[https://github.com/hse-ds/iad-intro-ds Репозиторий с материалами на GitHub]
 +
 
 +
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
 +
 
 +
Канал в telegram для объявлений: https://t.me/hs_iad_2021
 +
 
 +
Чат в telegram для флуда: https://t.me/iad_flood
 +
 
 +
Ссылка на курс в Anytask:
 +
 
 +
Таблица с оценками:
 +
 
 +
=== Семинары ===
 +
 
 +
{| class="wikitable"
 +
|-
 +
! Группа !! Преподаватель !! Учебные ассистенты !! Zoom-конференция !! Ссылка на чат !! Материалы семинаров !! ДЗ
 +
|-
 +
| ИАД-1 || Илья Косарев  ||  ||  ||    || ||
 +
|-
 +
| ИАД-2 || Чиркова Надежда ||  ||  ||    || ||
 +
|-
 +
| ИАД-3 || Кантонистова Елена  ||  ||  ||  || ||
 +
|-
 +
| ИАД-4 || Филатов Артём ||  ||  ||    || ||
 +
|-
 +
| ИАД-5 || Омелюсик Владимир ||  || ||    || ||
 +
|-
 +
| ИАД-6 || Карпова Ася ||  ||  ||  || ||
 +
|-
 +
| ИАД-7 || Таболов Тамерлан ||  ||  ||  || ||
 +
|-
 +
|}
 +
 
 +
=== Правила выставления оценок ===
 +
 
 +
В курсе предусмотрено несколько форм контроля знания:
 +
* Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
 +
* Практические домашние работы на Python
 +
* Контрольная где-то в середине курса
 +
* Письменный экзамен
 +
 
 +
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
 +
 
 +
O<sub>итоговая</sub> = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э)
 +
 
 +
ДЗ — средняя оценка за практические домашние задания
 +
 
 +
ПР — средняя оценка за письменные проверочные работы на семинарах
 +
 
 +
КР — оценка за контрольную работу
 +
 
 +
Э — оценка за экзамен
 +
 
 +
Округление арифметическое.
 +
 
 +
=== Правила сдачи заданий ===
 +
 
 +
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.
 +
 
 +
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 +
 
 +
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
 +
 
 +
== Лекции ==
 +
 
 +
== Семинары ==
 +
 
 +
== Практические задания ==
 +
 
 +
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
 +
 
 +
В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста.
 +
 
 +
== Соревнования ==
 +
 
 +
===Правила участия и оценивания===
 +
В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.
 +
 
 +
Студент, занявший в соревновании место i, получает оценку
 +
 
 +
10 - 10 * (i - 1)  / M,
 +
 
 +
где M — количество студентов, принявших участие в соревновании;
 +
 
 +
i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.
 +
 
 +
Чтобы вас не пропустили при проверке решений соревнования, '''необходимо''' использовать следующий формат для имени команды (вкладка Team):
 +
 
 +
«Имя Фамилия номер_группы»
 +
 
 +
В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Если не оговорено иное, использовать любые внешние данные в соревнованиях '''запрещено'''. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными.
 +
 
 +
== Контрольная работа ==
 +
 
 +
Вопросы для подготовки с прошлого года: https://docs.google.com/document/d/1yuB17EoXyVSxqRslpFTKX97Kriuxn4lgFL5z4kQF9lU/edit?usp=sharing
 +
 
 +
На контрольной будет 4 вопроса. Два из них — по теории, где нужно будет объяснить одну из тем, разобранных на лекциях, или ответить на вопросы на понимание. Два вопроса — это задачи, примеры приведены ниже.
 +
 
 +
Примеры задач:
 +
* Метрические методы, kNN [[http://nbviewer.jupyter.org/github/shestakoff/minor_da_2017/blob/master/colloc_knn.ipynb Примеры задач]]
 +
* Линейные методы [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_linear.pdf Примеры задач]]
 +
* Решающие деревья [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_trees.ipynb Примеры задач]]
 +
* Метрики качества [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_metrics.ipynb Примеры задач]]
 +
 
 +
== Экзамен ==
 +
 
 +
Вопросы: https://docs.google.com/document/d/18kMS1f7NsdGEZy62MgfTGdgSq4P-6DVcnwr1ZJPLAqE/edit?usp=sharing
 +
 
 +
[https://github.com/esokolov/ml-minor-hse/blob/master/exam-2017/exam_problems_example.pdf Примеры задач прошлого года] (также могут войти задачи из коллоквиума)
 +
 
 +
==Полезные материалы==
 +
===Курсы по машинному обучению и анализу данных===
 +
* [http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение_%28курс_лекций%2C_К.В.Воронцов%29 Курс по машинному обучению К.В. Воронцова]
 +
* [https://yandexdataschool.ru/edu-process/courses/machine-learning Видеозаписи лекций курса Школы Анализа Данных, К.В. Воронцов]
 +
* [https://www.coursera.org/specializations/machine-learning-data-analysis Coursera: Машинное обучение и анализ данных (специализация)]
 +
* [https://www.coursera.org/learn/introduction-machine-learning Coursera: Введение в машинное обучение, К.В. Воронцов]
 +
* [https://www.coursera.org/learn/machine-learning Coursera: Machine Learning, Andrew Ng]
 +
 
 +
===Статьи===
 +
* [http://www.toptal.com/machine-learning/machine-learning-theory-an-introductory-primer An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples]
 +
* [http://www.r2d3.us/visual-intro-to-machine-learning-part-1/ A Visual Introduction to Machine Learning]
 +
 
 +
===Книги===
 +
* Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
 +
* Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
 +
* James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.
 +
 
 +
== Страницы прошлых лет ==
 +
 
 +
[[Введение_в_анализ_данных_(майнор_ИАД)_2019/2020 | 2019/2020 учебный год]]
 +
 
 +
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных | 2018/19 учебный год ]]
 +
 
 +
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2017-2018 | 2017/18 учебный год ]]
 +
 
 +
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2016-2017 | 2016/17 учебный год ]]
 +
 
 +
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2015-2016 | 2015/16 учебный год ]]
 +
 
 +
[[Category:Майнор "Интеллектуальный анализ данных"]]

Версия 16:19, 19 января 2021

О курсе

Курс читается для студентов 2-го курса майнора ИАД в 3-4 модулях.

Проводится с 2015 года.

Лектор: Соколов Евгений Андреевич

Лекции проходят онлайн по средам в 11:10.

Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub

Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)

Канал в telegram для объявлений: https://t.me/hs_iad_2021

Чат в telegram для флуда: https://t.me/iad_flood

Ссылка на курс в Anytask:

Таблица с оценками:

Семинары

Группа Преподаватель Учебные ассистенты Zoom-конференция Ссылка на чат Материалы семинаров ДЗ
ИАД-1 Илья Косарев
ИАД-2 Чиркова Надежда
ИАД-3 Кантонистова Елена
ИАД-4 Филатов Артём
ИАД-5 Омелюсик Владимир
ИАД-6 Карпова Ася
ИАД-7 Таболов Тамерлан

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
  • Практические домашние работы на Python
  • Контрольная где-то в середине курса
  • Письменный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э)

ДЗ — средняя оценка за практические домашние задания

ПР — средняя оценка за письменные проверочные работы на семинарах

КР — оценка за контрольную работу

Э — оценка за экзамен

Округление арифметическое.

Правила сдачи заданий

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Лекции

Семинары

Практические задания

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).

В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста.

Соревнования

Правила участия и оценивания

В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.

Студент, занявший в соревновании место i, получает оценку

10 - 10 * (i - 1) / M,

где M — количество студентов, принявших участие в соревновании;

i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.

Чтобы вас не пропустили при проверке решений соревнования, необходимо использовать следующий формат для имени команды (вкладка Team):

«Имя Фамилия номер_группы»

В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Если не оговорено иное, использовать любые внешние данные в соревнованиях запрещено. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными.

Контрольная работа

Вопросы для подготовки с прошлого года: https://docs.google.com/document/d/1yuB17EoXyVSxqRslpFTKX97Kriuxn4lgFL5z4kQF9lU/edit?usp=sharing

На контрольной будет 4 вопроса. Два из них — по теории, где нужно будет объяснить одну из тем, разобранных на лекциях, или ответить на вопросы на понимание. Два вопроса — это задачи, примеры приведены ниже.

Примеры задач:

Экзамен

Вопросы: https://docs.google.com/document/d/18kMS1f7NsdGEZy62MgfTGdgSq4P-6DVcnwr1ZJPLAqE/edit?usp=sharing

Примеры задач прошлого года (также могут войти задачи из коллоквиума)

Полезные материалы

Курсы по машинному обучению и анализу данных

Статьи

Книги

  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
  • James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.

Страницы прошлых лет

2019/2020 учебный год

2018/19 учебный год

2017/18 учебный год

2016/17 учебный год

2015/16 учебный год