Введение в анализ данных (майнор ИАД) 2019/2020 — различия между версиями
Esokolov (обсуждение | вклад) (→О курсе) |
Esokolov (обсуждение | вклад) (→Лекции) |
||
(не показаны 43 промежуточные версии 9 участников) | |||
Строка 1: | Строка 1: | ||
== О курсе == | == О курсе == | ||
+ | Курс читается для студентов 2-го курса [https://electives.hse.ru/minor_intel/ майнора ИАД] в 3-4 модулях. | ||
− | + | Проводится с 2015 года. | |
− | + | ||
− | Проводится с | + | |
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич] | '''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич] | ||
− | Лекции проходят по средам в 10:30 | + | Лекции проходят по средам в 10:30 (Покровский бульвар, 11). |
=== Полезные ссылки === | === Полезные ссылки === | ||
[https://www.hse.ru/edu/courses/316531794 Карточка курса и программа] | [https://www.hse.ru/edu/courses/316531794 Карточка курса и программа] | ||
+ | |||
+ | [https://github.com/hse-ds/iad-intro-ds Репозиторий с материалами на GitHub] | ||
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com) | Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com) | ||
− | Канал в telegram для объявлений: | + | Канал в telegram для объявлений: https://t.me/hse_minor_intro_dm_2020 |
− | Чат в telegram для | + | Чат в telegram для флуда: https://t.me/iad_flood |
− | Ссылка на курс в Anytask: | + | Ссылка на курс в Anytask: https://anytask.org/course/607 |
− | Таблица с оценками: | + | Таблица с оценками: https://docs.google.com/spreadsheets/d/1-6qKU3-5p-ZwujKqqp7QIwf1hKyagY00UyKzxZHwHq0/edit?usp=sharing |
=== Семинары === | === Семинары === | ||
Строка 28: | Строка 29: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! Группа !! Преподаватель !! Учебный ассистент | + | ! Группа !! Преподаватель !! Учебный ассистент !! Материалы семинаров !! Аудитория !! ДЗ |
|- | |- | ||
− | | | + | | ИАД-1 || Кохтев Вадим || Ригвава Владимир || || || |
|- | |- | ||
− | | | + | | ИАД-2 || Филатов Артём, Анастасия Рогачевская || Дмитрий Торилов || || || |
|- | |- | ||
− | | | + | | ИАД-3 || Козловская Наталья || Юрий Саночкин || || D507 || [https://github.com/hse-ds/iad-intro-ds/blob/hw-01/homeworks/hw1.ipynb ДЗ-1 ] |
|- | |- | ||
− | | | + | | ИАД-4 || Ковалев Евгений || Алвандян Нарек || [http://wiki.cs.hse.ru/%D0%9C%D0%B0%D0%B9%D0%BD%D0%BE%D1%80_%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/%D0%92%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/%D0%98%D0%90%D0%94-4-2020 Wiki] [https://github.com/blacKitten13/minor2020-iad4 GitHub] [https://t-do.ru/joinchat/Cci01RHtt3-8NZO02cbg5A Telegram] || || |
+ | |- | ||
+ | | ИАД-5 || Чиркова Надежда || Левина Александра || [https://github.com/nadiinchi/iad2020/blob/master/materials/hw_sem1.ipynb GitHub] || || | ||
|- | |- | ||
− | | | + | | ИАД-6 || Чесаков Даниил || Ольга Быстрова || [https://github.com/Danyache/minor2020-iad2 GitHub], rd5CNrr - инвайт в anytask || || |
− | + | ||
− | + | ||
− | | | + | |
− | | | + | |
|- | |- | ||
|} | |} | ||
− | |||
− | |||
=== Правила выставления оценок === | === Правила выставления оценок === | ||
В курсе предусмотрено несколько форм контроля знания: | В курсе предусмотрено несколько форм контроля знания: | ||
− | * Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций | + | * Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров |
* Практические домашние работы на Python | * Практические домашние работы на Python | ||
− | * | + | * Контрольная где-то в середине курса |
* Письменный экзамен | * Письменный экзамен | ||
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен: | Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен: | ||
− | + | O<sub>итоговая</sub> = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э) | |
− | + | ДЗ — средняя оценка за практические домашние задания | |
− | + | ПР — средняя оценка за письменные проверочные работы на семинарах | |
КР — оценка за контрольную работу | КР — оценка за контрольную работу | ||
Строка 72: | Строка 69: | ||
=== Правила сдачи заданий === | === Правила сдачи заданий === | ||
− | За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее | + | За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее. |
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента. | При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента. | ||
Строка 80: | Строка 77: | ||
== Лекции == | == Лекции == | ||
− | + | Лекция 1 (15.01.2020). Введение в машинное обучение и анализ данных. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture01-intro.pdf Слайды]] | |
− | + | Лекция 2 (22.01.2020). Основные постановки задач. Метод k ближайших соседей. Измерение ошибки в задачах классификации. Параметры и гиперпараметры. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture02-knn.pdf Слайды]] | |
+ | Лекция 3 (05.02.2020). Оценка обобщающей способности моделей. Метод k ближайших соседей с весами. Метод k ближайших соседей для задач регрессии. Модель линейной регрессии. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture03-knn-linregr.pdf Слайды]] | ||
− | + | Лекция 4 (12.02.2020). Применимость моделей линейной регрессии. Линейная регрессия в матричной форме. Обучение линейной регрессии через аналитическое решение. Регуляризация. Вычисление важности признаков в линейных моделях. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture04-linregr.pdf Слайды]] | |
− | + | Лекция 5 (19.02.2020). Градиент. Градиентный спуск. Стохастический градиентный спуск. Функции потерь в задачах регрессии. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture05-linregr.pdf Слайды]] | |
+ | Лекция 6 (26.02.2020). Линейная классификация. Обучение через верхние оценки на функцию потерь. Метрики качества классификации: доля верных ответов, точность, полнота. Способы объединения точности и полноты. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture06-linclass.pdf Слайды]] | ||
− | + | Лекция 7 (04.03.2020). Линейная классификация. Оценки качества ранжирования объектов, AUC-ROC и AUC-PRC. Оценивание вероятностей классов. Логистическая регрессия. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture07-linclass.pdf Слайды]] | |
− | + | Лекция 8 (11.03.2020). Линейная классификация. Метод опорных векторов. Калибровка вероятностей. Многоклассовая классификация. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture08-linclass.pdf Слайды]] | |
− | + | Лекция 9 (18.03.2020). Решающие деревья. Структура. Критерии информативности для регрессии и классификации. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture09-trees.pdf Слайды]] [[https://www.youtube.com/watch?v=9B4gpT_2tUk Запись вебинара]] | |
− | + | ||
− | + | ||
− | + | Лекция 10 (25.03.2020). Решающие деревья. Жадное построение. Счётчики для кодирования категориальных признаков [[https://github.com/hse-ds/iad-intro-ds/blob/master/2020/lectures/lecture10-trees.pdf Слайды]] [[https://www.youtube.com/watch?v=7bjSTLKxHIU Запись вебинара]] | |
− | + | == Семинары == | |
− | == | + | == Практические задания == |
− | + | За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное). | |
− | + | В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста. | |
== Контрольная работа == | == Контрольная работа == | ||
+ | |||
+ | Вопросы прошлого года: https://docs.google.com/document/d/1kdeA730ItEqgC-4V_-U2gq_EbpX413XmmE9wMj7Wdh8/edit?usp=sharing | ||
+ | |||
+ | Примеры задач: | ||
+ | * Метрические методы, kNN [[http://nbviewer.jupyter.org/github/shestakoff/minor_da_2017/blob/master/colloc_knn.ipynb Примеры задач]] | ||
+ | * Линейные методы [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_linear.pdf Примеры задач]] | ||
+ | * Решающие деревья [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_trees.ipynb Примеры задач]] | ||
+ | * Метрики качества [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_metrics.ipynb Примеры задач]] | ||
== Экзамен == | == Экзамен == | ||
− | == Полезные материалы == | + | Вопросы прошлого года: https://docs.google.com/document/d/1IrRO4kbzKieTWDgJ5UhfPECyU2tvq9CZi2mXgQPzf30/edit?usp=sharing |
+ | |||
+ | [https://github.com/esokolov/ml-minor-hse/blob/master/exam-2017/exam_problems_example.pdf Примеры задач прошлого года] (также могут войти задачи из коллоквиума) | ||
+ | |||
+ | ==Полезные материалы== | ||
+ | ===Курсы по машинному обучению и анализу данных=== | ||
+ | * [http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение_%28курс_лекций%2C_К.В.Воронцов%29 Курс по машинному обучению К.В. Воронцова] | ||
+ | * [https://yandexdataschool.ru/edu-process/courses/machine-learning Видеозаписи лекций курса Школы Анализа Данных, К.В. Воронцов] | ||
+ | * [https://www.coursera.org/specializations/machine-learning-data-analysis Coursera: Машинное обучение и анализ данных (специализация)] | ||
+ | * [https://www.coursera.org/learn/introduction-machine-learning Coursera: Введение в машинное обучение, К.В. Воронцов] | ||
+ | * [https://www.coursera.org/learn/machine-learning Coursera: Machine Learning, Andrew Ng] | ||
+ | |||
+ | ===Статьи=== | ||
+ | * [http://www.toptal.com/machine-learning/machine-learning-theory-an-introductory-primer An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples] | ||
+ | * [http://www.r2d3.us/visual-intro-to-machine-learning-part-1/ A Visual Introduction to Machine Learning] | ||
+ | |||
===Книги=== | ===Книги=== | ||
+ | * Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014. | ||
+ | * Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010. | ||
+ | * James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013. | ||
+ | |||
+ | == Страницы прошлых лет == | ||
+ | |||
+ | [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных | 2018/19 учебный год ]] | ||
+ | |||
+ | [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2017-2018 | 2017/18 учебный год ]] | ||
+ | |||
+ | [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2016-2017 | 2016/17 учебный год ]] | ||
+ | |||
+ | [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2015-2016 | 2015/16 учебный год ]] | ||
+ | |||
+ | [[Category:Майнор "Интеллектуальный анализ данных"]] |
Версия 12:10, 25 марта 2020
Содержание
О курсе
Курс читается для студентов 2-го курса майнора ИАД в 3-4 модулях.
Проводится с 2015 года.
Лектор: Соколов Евгений Андреевич
Лекции проходят по средам в 10:30 (Покровский бульвар, 11).
Полезные ссылки
Репозиторий с материалами на GitHub
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
Канал в telegram для объявлений: https://t.me/hse_minor_intro_dm_2020
Чат в telegram для флуда: https://t.me/iad_flood
Ссылка на курс в Anytask: https://anytask.org/course/607
Таблица с оценками: https://docs.google.com/spreadsheets/d/1-6qKU3-5p-ZwujKqqp7QIwf1hKyagY00UyKzxZHwHq0/edit?usp=sharing
Семинары
Группа | Преподаватель | Учебный ассистент | Материалы семинаров | Аудитория | ДЗ |
---|---|---|---|---|---|
ИАД-1 | Кохтев Вадим | Ригвава Владимир | |||
ИАД-2 | Филатов Артём, Анастасия Рогачевская | Дмитрий Торилов | |||
ИАД-3 | Козловская Наталья | Юрий Саночкин | D507 | ДЗ-1 | |
ИАД-4 | Ковалев Евгений | Алвандян Нарек | Wiki GitHub Telegram | ||
ИАД-5 | Чиркова Надежда | Левина Александра | GitHub | ||
ИАД-6 | Чесаков Даниил | Ольга Быстрова | GitHub, rd5CNrr - инвайт в anytask |
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
- Практические домашние работы на Python
- Контрольная где-то в середине курса
- Письменный экзамен
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э)
ДЗ — средняя оценка за практические домашние задания
ПР — средняя оценка за письменные проверочные работы на семинарах
КР — оценка за контрольную работу
Э — оценка за экзамен
Округление арифметическое.
Правила сдачи заданий
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Лекция 1 (15.01.2020). Введение в машинное обучение и анализ данных. [Слайды]
Лекция 2 (22.01.2020). Основные постановки задач. Метод k ближайших соседей. Измерение ошибки в задачах классификации. Параметры и гиперпараметры. [Слайды]
Лекция 3 (05.02.2020). Оценка обобщающей способности моделей. Метод k ближайших соседей с весами. Метод k ближайших соседей для задач регрессии. Модель линейной регрессии. [Слайды]
Лекция 4 (12.02.2020). Применимость моделей линейной регрессии. Линейная регрессия в матричной форме. Обучение линейной регрессии через аналитическое решение. Регуляризация. Вычисление важности признаков в линейных моделях. [Слайды]
Лекция 5 (19.02.2020). Градиент. Градиентный спуск. Стохастический градиентный спуск. Функции потерь в задачах регрессии. [Слайды]
Лекция 6 (26.02.2020). Линейная классификация. Обучение через верхние оценки на функцию потерь. Метрики качества классификации: доля верных ответов, точность, полнота. Способы объединения точности и полноты. [Слайды]
Лекция 7 (04.03.2020). Линейная классификация. Оценки качества ранжирования объектов, AUC-ROC и AUC-PRC. Оценивание вероятностей классов. Логистическая регрессия. [Слайды]
Лекция 8 (11.03.2020). Линейная классификация. Метод опорных векторов. Калибровка вероятностей. Многоклассовая классификация. [Слайды]
Лекция 9 (18.03.2020). Решающие деревья. Структура. Критерии информативности для регрессии и классификации. [Слайды] [Запись вебинара]
Лекция 10 (25.03.2020). Решающие деревья. Жадное построение. Счётчики для кодирования категориальных признаков [Слайды] [Запись вебинара]
Семинары
Практические задания
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста.
Контрольная работа
Вопросы прошлого года: https://docs.google.com/document/d/1kdeA730ItEqgC-4V_-U2gq_EbpX413XmmE9wMj7Wdh8/edit?usp=sharing
Примеры задач:
- Метрические методы, kNN [Примеры задач]
- Линейные методы [Примеры задач]
- Решающие деревья [Примеры задач]
- Метрики качества [Примеры задач]
Экзамен
Вопросы прошлого года: https://docs.google.com/document/d/1IrRO4kbzKieTWDgJ5UhfPECyU2tvq9CZi2mXgQPzf30/edit?usp=sharing
Примеры задач прошлого года (также могут войти задачи из коллоквиума)
Полезные материалы
Курсы по машинному обучению и анализу данных
- Курс по машинному обучению К.В. Воронцова
- Видеозаписи лекций курса Школы Анализа Данных, К.В. Воронцов
- Coursera: Машинное обучение и анализ данных (специализация)
- Coursera: Введение в машинное обучение, К.В. Воронцов
- Coursera: Machine Learning, Andrew Ng
Статьи
- An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples
- A Visual Introduction to Machine Learning
Книги
- Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
- Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
- James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.