Введение в анализ данных (майнор ИАД) 2019/2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(О курсе)
(Лекции)
(не показаны 34 промежуточные версии 9 участников)
Строка 7: Строка 7:
 
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич]
 
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич]
  
Лекции проходят по средам в 10:30, ауд. R405 (Покровский бульвар, 11).
+
Лекции проходят по средам в 10:30 (Покровский бульвар, 11).
  
 
=== Полезные ссылки ===
 
=== Полезные ссылки ===
Строка 13: Строка 13:
 
[https://www.hse.ru/edu/courses/316531794 Карточка курса и программа]
 
[https://www.hse.ru/edu/courses/316531794 Карточка курса и программа]
  
[https://github.com/esokolov/ml-minor-hse Репозиторий с материалами на GitHub]
+
[https://github.com/hse-ds/iad-intro-ds Репозиторий с материалами на GitHub]
  
 
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
 
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
  
Канал в telegram для объявлений:  
+
Канал в telegram для объявлений: https://t.me/hse_minor_intro_dm_2020
  
Чат в telegram для обсуждений:
+
Чат в telegram для флуда: https://t.me/iad_flood
  
Ссылка на курс в Anytask:  
+
Ссылка на курс в Anytask: https://anytask.org/course/607
  
Таблица с оценками:
+
Таблица с оценками: https://docs.google.com/spreadsheets/d/1-6qKU3-5p-ZwujKqqp7QIwf1hKyagY00UyKzxZHwHq0/edit?usp=sharing
  
 
=== Семинары ===
 
=== Семинары ===
Строка 29: Строка 29:
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! Группа !! Преподаватель !! Учебный ассистент !! Материалы семинаров
+
! Группа !! Преподаватель !! Учебный ассистент !! Материалы семинаров !! Аудитория !! ДЗ
 
|-
 
|-
| ИАД-1 ||  || ||  
+
| ИАД-1 || Кохтев Вадим || Ригвава Владимир ||  ||    ||  
 
|-
 
|-
| ИАД-2 ||  || ||  
+
| ИАД-2 || Филатов Артём, Анастасия Рогачевская || Дмитрий Торилов ||  ||  ||  
 
|-
 
|-
| ИАД-3 ||  || ||  
+
| ИАД-3 || Козловская Наталья ||  Юрий Саночкин || ||  D507  || [https://github.com/hse-ds/iad-intro-ds/blob/hw-01/homeworks/hw1.ipynb ДЗ-1 ]
 
|-
 
|-
| ИАД-4 ||  || ||  
+
| ИАД-4 || Ковалев Евгений || Алвандян Нарек || [http://wiki.cs.hse.ru/%D0%9C%D0%B0%D0%B9%D0%BD%D0%BE%D1%80_%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/%D0%92%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/%D0%98%D0%90%D0%94-4-2020 Wiki] [https://github.com/blacKitten13/minor2020-iad4 GitHub] [https://t-do.ru/joinchat/Cci01RHtt3-8NZO02cbg5A Telegram] ||    ||
 +
|-
 +
| ИАД-5 || Чиркова Надежда ||  Левина Александра || [https://github.com/nadiinchi/iad2020/blob/master/materials/hw_sem1.ipynb GitHub] ||   ||  
 
|-
 
|-
| ИАД-5 || || ||  
+
| ИАД-6 || Чесаков Даниил || Ольга Быстрова || [https://github.com/Danyache/minor2020-iad2 GitHub], rd5CNrr - инвайт в anytask ||   ||  
|-
+
| ИАД-6 || || ||  
+
 
|-
 
|-
 
|}
 
|}
Строка 76: Строка 76:
  
 
== Лекции ==
 
== Лекции ==
 +
 +
Лекция 1 (15.01.2020). Введение в машинное обучение и анализ данных. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture01-intro.pdf Слайды]]
 +
 +
Лекция 2 (22.01.2020). Основные постановки задач. Метод k ближайших соседей. Измерение ошибки в задачах классификации. Параметры и гиперпараметры. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture02-knn.pdf Слайды]]
 +
 +
Лекция 3 (05.02.2020). Оценка обобщающей способности моделей. Метод k ближайших соседей с весами. Метод k ближайших соседей для задач регрессии. Модель линейной регрессии. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture03-knn-linregr.pdf Слайды]]
 +
 +
Лекция 4 (12.02.2020). Применимость моделей линейной регрессии. Линейная регрессия в матричной форме. Обучение линейной регрессии через аналитическое решение. Регуляризация. Вычисление важности признаков в линейных моделях. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture04-linregr.pdf Слайды]]
 +
 +
Лекция 5 (19.02.2020). Градиент. Градиентный спуск. Стохастический градиентный спуск. Функции потерь в задачах регрессии. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture05-linregr.pdf Слайды]]
 +
 +
Лекция 6 (26.02.2020). Линейная классификация. Обучение через верхние оценки на функцию потерь. Метрики качества классификации: доля верных ответов, точность, полнота. Способы объединения точности и полноты. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture06-linclass.pdf Слайды]]
 +
 +
Лекция 7 (04.03.2020). Линейная классификация. Оценки качества ранжирования объектов, AUC-ROC и AUC-PRC. Оценивание вероятностей классов. Логистическая регрессия. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture07-linclass.pdf Слайды]]
 +
 +
Лекция 8 (11.03.2020). Линейная классификация. Метод опорных векторов. Калибровка вероятностей. Многоклассовая классификация. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture08-linclass.pdf Слайды]]
 +
 +
Лекция 9 (18.03.2020). Решающие деревья. Структура. Критерии информативности для регрессии и классификации. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture09-trees.pdf Слайды]] [[https://www.youtube.com/watch?v=9B4gpT_2tUk Запись вебинара]]
 +
 +
Лекция 10 (25.03.2020). Решающие деревья. Жадное построение. Счётчики для кодирования категориальных признаков [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture10-trees.pdf Слайды]] [[https://www.youtube.com/watch?v=7bjSTLKxHIU Запись вебинара]]
  
 
== Семинары ==
 
== Семинары ==
Строка 82: Строка 102:
  
 
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
 
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
 +
 +
В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста.
  
 
== Контрольная работа ==
 
== Контрольная работа ==

Версия 12:10, 25 марта 2020

О курсе

Курс читается для студентов 2-го курса майнора ИАД в 3-4 модулях.

Проводится с 2015 года.

Лектор: Соколов Евгений Андреевич

Лекции проходят по средам в 10:30 (Покровский бульвар, 11).

Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub

Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)

Канал в telegram для объявлений: https://t.me/hse_minor_intro_dm_2020

Чат в telegram для флуда: https://t.me/iad_flood

Ссылка на курс в Anytask: https://anytask.org/course/607

Таблица с оценками: https://docs.google.com/spreadsheets/d/1-6qKU3-5p-ZwujKqqp7QIwf1hKyagY00UyKzxZHwHq0/edit?usp=sharing

Семинары

Группа Преподаватель Учебный ассистент Материалы семинаров Аудитория ДЗ
ИАД-1 Кохтев Вадим Ригвава Владимир
ИАД-2 Филатов Артём, Анастасия Рогачевская Дмитрий Торилов
ИАД-3 Козловская Наталья Юрий Саночкин D507 ДЗ-1
ИАД-4 Ковалев Евгений Алвандян Нарек Wiki GitHub Telegram
ИАД-5 Чиркова Надежда Левина Александра GitHub
ИАД-6 Чесаков Даниил Ольга Быстрова GitHub, rd5CNrr - инвайт в anytask

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
  • Практические домашние работы на Python
  • Контрольная где-то в середине курса
  • Письменный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э)

ДЗ — средняя оценка за практические домашние задания

ПР — средняя оценка за письменные проверочные работы на семинарах

КР — оценка за контрольную работу

Э — оценка за экзамен

Округление арифметическое.

Правила сдачи заданий

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Лекции

Лекция 1 (15.01.2020). Введение в машинное обучение и анализ данных. [Слайды]

Лекция 2 (22.01.2020). Основные постановки задач. Метод k ближайших соседей. Измерение ошибки в задачах классификации. Параметры и гиперпараметры. [Слайды]

Лекция 3 (05.02.2020). Оценка обобщающей способности моделей. Метод k ближайших соседей с весами. Метод k ближайших соседей для задач регрессии. Модель линейной регрессии. [Слайды]

Лекция 4 (12.02.2020). Применимость моделей линейной регрессии. Линейная регрессия в матричной форме. Обучение линейной регрессии через аналитическое решение. Регуляризация. Вычисление важности признаков в линейных моделях. [Слайды]

Лекция 5 (19.02.2020). Градиент. Градиентный спуск. Стохастический градиентный спуск. Функции потерь в задачах регрессии. [Слайды]

Лекция 6 (26.02.2020). Линейная классификация. Обучение через верхние оценки на функцию потерь. Метрики качества классификации: доля верных ответов, точность, полнота. Способы объединения точности и полноты. [Слайды]

Лекция 7 (04.03.2020). Линейная классификация. Оценки качества ранжирования объектов, AUC-ROC и AUC-PRC. Оценивание вероятностей классов. Логистическая регрессия. [Слайды]

Лекция 8 (11.03.2020). Линейная классификация. Метод опорных векторов. Калибровка вероятностей. Многоклассовая классификация. [Слайды]

Лекция 9 (18.03.2020). Решающие деревья. Структура. Критерии информативности для регрессии и классификации. [Слайды] [Запись вебинара]

Лекция 10 (25.03.2020). Решающие деревья. Жадное построение. Счётчики для кодирования категориальных признаков [Слайды] [Запись вебинара]

Семинары

Практические задания

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).

В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста.

Контрольная работа

Вопросы прошлого года: https://docs.google.com/document/d/1kdeA730ItEqgC-4V_-U2gq_EbpX413XmmE9wMj7Wdh8/edit?usp=sharing

Примеры задач:

Экзамен

Вопросы прошлого года: https://docs.google.com/document/d/1IrRO4kbzKieTWDgJ5UhfPECyU2tvq9CZi2mXgQPzf30/edit?usp=sharing

Примеры задач прошлого года (также могут войти задачи из коллоквиума)

Полезные материалы

Курсы по машинному обучению и анализу данных

Статьи

Книги

  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
  • James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.

Страницы прошлых лет

2018/19 учебный год

2017/18 учебный год

2016/17 учебный год

2015/16 учебный год