Майнор Интеллектуальный анализ данных/Введение в анализ данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(О курсе)
(Лекции)
 
(не показаны 103 промежуточные версии 14 участников)
Строка 1: Строка 1:
== О курсе ==
 
 
'''Читается:''' 3-4 модуль 2-го курса<br />
 
'''Пререквизиты:'''  Введение в программирование<br />
 
'''Трудоемкость:'''  5 кредитов<br />
 
'''Карточка курса:''' https://www.hse.ru/edu/courses/185566965 <br />
 
 
=== Формы контроля ===
 
* проверочные работы на семинарах
 
* домашние задания
 
* коллоквиум
 
* экзамен
 
 
 
== О курсе ==
 
== О курсе ==
  
Строка 20: Строка 7:
 
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич]
 
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич]
  
Лекции проходят  по вторникам, 10:30 - 11:50, ауд. 5307 (Шаболовка, 26).
+
Лекции проходят  по средам, 10:30 - 11:50, ауд. 5306 (Шаболовка, 26).
  
  
 
=== Полезные ссылки ===
 
=== Полезные ссылки ===
  
[https://www.hse.ru/edu/courses/185566965 Карточка курса и программа]
+
[https://www.hse.ru/edu/courses/219890194 Карточка курса и программа]
  
 
[https://github.com/esokolov/ml-minor-hse Репозиторий с материалами на GitHub]
 
[https://github.com/esokolov/ml-minor-hse Репозиторий с материалами на GitHub]
Строка 31: Строка 18:
 
Почта для сдачи домашних заданий: hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
 
Почта для сдачи домашних заданий: hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
  
Канал в telegram для объявлений: https://telegram.me/hse_minor_intro_dm
+
Канал в telegram для объявлений: https://telegram.me/hse_minor_intro_dm_2019
  
[https://docs.google.com/spreadsheets/d/1sFKaErC0N7YteroaNS8N9JkHZUdWKc3RFv1wv5kGyzw/edit?usp=sharing Таблица с оценками]
+
[https://docs.google.com/spreadsheets/d/1B1cwdaCJ2uPhqJs4fQJDcGKUgjBKl7DcNLOwsvSbxHY/edit?usp=sharing Таблица с оценками]
  
 
Оставить отзыв на курс: [http://goo.gl/forms/RwdMxnChST форма]
 
Оставить отзыв на курс: [http://goo.gl/forms/RwdMxnChST форма]
Строка 46: Строка 33:
 
! Группа !! Преподаватель !! Учебный ассистент !! Страница !! Расписание
 
! Группа !! Преподаватель !! Учебный ассистент !! Страница !! Расписание
 
|-
 
|-
| ИАД-1 || [https://www.hse.ru/org/persons/161192709 Папулин Сергей Юрьевич] || || || среда, 12:10 - 13:30, ауд. 3214
+
| ИАД-1 || [https://www.hse.ru/org/persons/137309442 Кохтев Вадим] || Богданов Илья|| [https://t.me/joinchat/AeUUShP8cnx1aUDw8NLxiw Чат в Telegram], [https://github.com/Kokhtev/HSE-teaching/tree/master/IntroDS-minor-2019 Github]|| среда, 9:00-10:20, ауд. 3203
 
|-
 
|-
| ИАД-2 || [https://www.hse.ru/staff/ashestakoff Шестаков Андрей Владимирович] ||  || || среда, 12:10 - 13:30, ауд. 4427
+
| ИАД-2 || Ковалев Евгений || Мухортов Максим || [http://wiki.cs.hse.ru/%D0%9C%D0%B0%D0%B9%D0%BD%D0%BE%D1%80_%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/%D0%92%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/%D0%98%D0%90%D0%94-2 Wiki] || среда, 12:10-13:30, ауд. 4336
 
|-
 
|-
| ИАД-3 || [https://www.hse.ru/org/persons/??? Даулбаев Талгат Кайратулы] || || || среда, 09:00 - 10:20, ауд. 4335
+
| ИАД-3 || || || ||  
 
|-
 
|-
| ИАД-4 || [https://www.hse.ru/org/persons/191576735 Чиркова Надежда Александровна] ||  || || среда, 12:10 - 13:30, ауд. 4335
+
| ИАД-4 || Филатов Артем || Рогачевская Анастасия || [https://t.me/joinchat/BsAFQhb8lJtUp0grsuAXnw  Чат в Telegram] || среда, 9:00-10:20, ауд. 4335  
 
|-
 
|-
| ИАД-5 || [https://www.hse.ru/org/persons/192085968 Яшков Даниил Дмитриевич] || || || среда, 12:10 - 13:30, ауд. 4336
+
| ИАД-5 || || || ||  
 
|-
 
|-
 
|}
 
|}
Строка 63: Строка 50:
 
* Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
 
* Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
 
* Практические домашние работы на Python
 
* Практические домашние работы на Python
* Коллоквиум в конце 1-го модуля
+
* Контрольная где-то в середине курса
* Экзамен
+
* Письменный экзамен
  
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Строка 72: Строка 59:
 
Оценка за работу в семестре вычисляется по формуле
 
Оценка за работу в семестре вычисляется по формуле
  
O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>дз</sub> + 0.2 * О<sub>коллоквиум</sub>
+
O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>дз</sub> + 0.2 * О<sub>контрольная</sub>
  
Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям и соревнованиям.
+
Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям.
 
+
Также за каждое практическое задание и соревнование можно получить дополнительные баллы, которые влияют на выставление оценки за курс автоматом. Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.
+
  
 
=== Правила сдачи заданий ===
 
=== Правила сдачи заданий ===
 
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работа не принимаются.
 
  
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
  
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
+
При наличии уважительной причины дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
 
+
==Учебный процесс==
+
 
+
===Полезные ссылки===
+
Написать отзыв (анонимно): http://goo.gl/forms/RwdMxnChST <br />
+
 
+
'''Второй поток'''
+
 
+
Почта потока (для домашних заданий и вопросов): [mailto:hse.minor.dm@gmail.com hse.minor.dm@gmail.com]
+
 
+
Почта лектора: [mailto:sokolov.evg@gmail.com sokolov.evg@gmail.com]
+
 
+
[https://docs.google.com/spreadsheets/d/1jZL_-ELf0Ogj2XHa6VVbkg8vrInycv2-Z9UR5keLDfM/edit?usp=sharing Таблица с оценками]
+
 
+
Подписаться на рассылку (информация об отменах и переносах занятий): напишите пустое письмо на [mailto:hse-minor-datamining-2+subscribe@googlegroups.com hse-minor-datamining-2+subscribe@googlegroups.com]
+
 
+
===Расписание лекций===
+
 
+
Все занятия проходят по вторникам на ул. Шаболовка, 26.
+
 
+
{| class="wikitable"
+
|-
+
! Пара !! Группы !! Преподаватель
+
|-
+
| 2, 10.30-11.50 || Второй поток, ИАД-11 – ИАД-20 (К-10) || Соколов Евгений Андреевич
+
|-
+
| 3, 12.10-13.30 || Первый поток, ИАД-1 – ИАД-10 (К-9) || Игнатов Дмитрий Игоревич
+
|}
+
 
+
===Расписание семинаров===
+
 
+
Все занятия проходят по вторникам на ул. Шаболовка, 26.
+
 
+
{| class="wikitable"
+
|-
+
! Пара !! Группа !! Преподаватель !! Группа !! Преподаватель !! Группа !! Преподаватель !! Группа !! Преподаватель !! Группа !! Преподаватель
+
|-
+
| 1,  09.00-10.20 || ИАД-8 (ауд.4335) || Панов || ИАД-11 (ауд.3214) || Козлова || ИАД-13 (ауд.4336) || Ромов || ИАД-20 (ауд.3203) || Струминский || ИАД-19 (ауд.4428) || Квасов, Полякова
+
|-
+
| 2,  10.30-11.50 || ИАД-4 (ауд.4336) || Умнов || ИАД-8 (ауд.4335) || Панов || ИАД-9 (ауд.4427) || Папулин || ИАД-10 (ауд.4336) || Зиннурова ||  || 
+
|-
+
| 3, 12.10-13.30  || ИАД-12 (ауд.3214) || Козлова || ИАД-14 (ауд.4427)  || Папулин || ИАД-15 (ауд.4336) || Зиннурова || ИАД-16 (ауд.3203)  || Даулбаев, Чиркова || ИАД-17 (ауд.4335) || Гитман, Захаров
+
|-
+
| 3,  12.10-13.30 || ИАД-18 (ауд.4428) || Гитман, Рысьмятова || ||  ||  || ||  || ||  || 
+
|-
+
| 4, 13.40-15.00 || ИАД-2 (ауд.4427) || Папулин || ИАД-3 (ауд.4428) || Шестаков || ИАД-5 (ауд.3203) || Паринов || ИАД-6 (ауд.3214)  || Кашницкий || ИАД-7 (ауд.4336) || Умнов
+
|-
+
| 5, 15.10-16.30 || ИАД-1 (ауд.4427) || Папулин || ИАД-6 (ауд.3214)  || Кашницкий ||  || ||  || ||  || 
+
|}
+
  
===Программа лекций===
+
==Лекции==
 
[[Файл:how-to-download.png|thumb|right|200px|Файлы со слайдами очень легко скачать с GitHub с помощью кнопки Raw!]]
 
[[Файл:how-to-download.png|thumb|right|200px|Файлы со слайдами очень легко скачать с GitHub с помощью кнопки Raw!]]
  
Лекция 1 (12.01.2016). Введение в машинное обучение и анализ данных. [[https://db.tt/c9XsAVym Слайды, 1 поток]] [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture01-intro.pdf Слайды, 2 поток]]
+
Лекция 1 (16.01.2018). Введение в машинное обучение и анализ данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture01-intro.pdf Слайды]]
  
Лекция 2 (19.01.2016). Постановки задач в машинном обучении. Примеры прикладных задач. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture02-intro.pdf Слайды]]
+
Лекция 2 (23.01.2018). Типы задач машинного обучения. Типы признаков. Обобщающая способность и переобучение. Примеры задач анализа данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture02-intro.pdf Слайды]]
  
Лекция 3 (26.01.2016). Линейная алгебра и анализ данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture03-linalg.pdf Слайды]]
+
Лекция 3 (30.01.2018). Векторы и матрицы. Норма, метрика и скалярное произведение. Качество классификации, доля верных ответов. Оценивание обобщающей способности, кросс-валидация. Гипотеза компактности. Метод k ближайших соседей. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture03-knn.pdf Слайды]]
  
Лекция 4 (02.02.2016). Математический анализ и анализ данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture04-calculus.pdf Слайды]]
+
Лекция 4 (06.02.2018). Метод k ближайших соседей в регрессии. Среднеквадратичная ошибка. Матричное умножение. Производные и градиенты. Экстремумы функций. Обучение линейной регрессии. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture04-regression.pdf Слайды]]
  
Лекция 5 (9.02.2016). Теория вероятностей и анализ данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture05-probability.pdf Слайды]]
+
Лекция 5 (13.02.2018). Градиентный спуск. Линейные зависимости и мультиколлинеарность. Регуляризация линейных моделей. Масштабирование признаков. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture05-regression.pdf Слайды]]
  
Лекция 6 (16.02.2016). Математическая статистика и анализ данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture06-statistics.pdf Слайды]]
+
Лекция 6 (20.02.2018). Линейная классификация. Логистическая регрессия. Оценивание вероятностей. Метрики качества классификации: accuracy, precision, recall. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture06-linclass.pdf Слайды]]
  
Лекция 7 (01.03.2016). Линейная регрессия. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture07-linreg.pdf Слайды]]
+
Лекция 7 (27.02.2018). Работа с категориальными признаками. Метрики качества регрессии: MSE, MAE, коэффициент детерминации. Устойчивые оценки. Качество классификации, AUC-PR, AUC-ROC. Параметры и гиперпараметры. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture07-quality.pdf Слайды]]
  
Лекция 8 (15.03.2016). Линейная классификация. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture08-linclass.pdf Слайды]]
+
Лекция 8 (06.03.2018). Многоклассовая классификация, подход one-vs-all. Решающие деревья. Критерии информативности. Энтропия и энтропийный критерий для классификации. Гиперпараметры деревьев, борьба с переобучением. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture08-trees.pdf Слайды]]
  
Лекция 9 (22.03.2016). Оценивание качества алгоритмов. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture09-quality.pdf Слайды]] [[https://github.com/esokolov/ml-course-msu/blob/master/ML15/lecture-notes/Sem05_metrics.pdf Доп. материал: конспект по метрикам качества]]
+
Лекция 9 (13.03.2018). Композиции алгоритмов. Случайные леса [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture09-ensembles.pdf Слайды]]
  
Консультация (05.04.2016). Обзор: линейные модели и оценивание качества.
+
Лекция 10 (20.03.2018). Композиции алгоритмов. Разложение ошибки на смещение и разброс. Градиентный бустинг. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture10-ensembles.pdf Слайды]]
  
Лекция 10 (19.04.2016). Решающие деревья. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture10-trees.pdf Слайды]]
+
Лекция 11 (10.04.2018). Понижение размерности данных. Отбор признаков: одномерные методы, отбор с помощью моделей. Визуализация данных, t-SNE. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture11-reduction.pdf Слайды]]
  
Лекция 11 (26.04.2016). Решающие деревья и случайные леса. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture11-trees-forests.pdf Слайды]]
+
Лекция 12 (24.04.2018). Обучение без учителя. Примеры задач. Кластеризация: K-Means, DBSCAN, графовые методы. Представления слов. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture12-clustering.pdf Слайды]]
  
Лекция 12 (10.05.2016). Понижение размерности данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture12-reduction.pdf Слайды]]
+
Лекция 13 (15.05.2018). Рекомендательные системы. Коллаборативная фильтрация, модели со скрытыми переменными. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture13-recommender.pdf Слайды]]
  
Лекция 13 (17.05.2016). Кластеризация. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture13-clustering.pdf Слайды]]
+
Лекция 14 (29.05.2018). Ранжирование. Метрики качества ранжирования. Точечные и попарные методы. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture14-ranking.pdf Слайды]]
  
Лекция 14 (31.05.2016). Метрические методы. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures/lecture14-knn.pdf Слайды]]
+
Лекция 15 (05.06.2018). Метод опорных векторов. Задача максимизации отступа. Hinge loss. Ядровой переход. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture15-svm.pdf Слайды]]
  
Лекция 15 (07.06.2016). Анализ частых множеств признаков и ассоциативных правил. [[https://www.dropbox.com/s/whe9dhdqt2g5mng/ARFIM-ADMinor.pdf?dl=0 Слайды]]  
+
Лекция 16 (05.06.2018). Обучение с переносом знаний. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture16-transfer.pdf Слайды]]
  
Дополнительные материалы. [[https://www.dropbox.com/s/5w53twcuct7bm24/ML_marketing.pdf?dl=0 Слайды Ю. Кашницкого]] [[http://www.machinelearning.ru/wiki/images/7/7c/Voron-ML-AssocRules-slides.pdf Слайды К.В. Воронцова]]
+
==Семинары==
  
Лекция 16 (14.06.2016). Заключительная лекция.
+
== Практические задания ==
 +
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются.
  
===Страницы семинаров===
+
== Контрольная работа ==
* ИАД-1, Папулин С.Ю.
+
* ИАД-2, Папулин С.Ю.
+
* [[Minor_da2016_gr3|ИАД-3, Шестаков А.]]
+
* [[Майнор_Анализ_Данных_ИАД-4|ИАД-4, Умнов А.В.]]
+
* [[Minor_da2016_gr5|ИАД-5, Паринов А.А.]]
+
* [[Майнор Интеллектуальный анализ данных/Введение в анализ данных/ИАД-6|ИАД-6, Кашницкий Ю.С.]]
+
* [[Майнор_Анализ_Данных_ИАД-7|ИАД-7, Умнов А.В.]]
+
* ИАД-8, Панов А.И.
+
* ИАД-9, Папулин С.Ю.
+
* [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/ИАД-10,_ИАД-15|ИАД-10, Зиннурова Э.А.]]
+
* [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/ИАД-11,12|ИАД-11, Козлова А.]]
+
* [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/ИАД-11,12|ИАД-12, Козлова А.]]
+
* [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/ИАД-13|ИАД-13, Ромов П.А.]]
+
* ИАД-14, Папулин С.Ю.
+
* [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/ИАД-10,_ИАД-15|ИАД-15, Зиннурова Э.А.]]
+
* [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/ИАД-16|ИАД-16, Даулбаев Т., Чиркова Н.]]
+
* [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/ИАД-17|ИАД-17, Гитман И., Захаров Е.]]
+
* [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/ИАД-18|ИАД-18, Гитман И., Рысьмятова А.]]
+
* [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/ИАД-19|ИАД-19, Квасов А., Полякова Н.]]
+
* [[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/ИАД-20|ИАД-20, Струминский К.]]
+
  
=== Коллоквиум ===
+
Вопросы: https://docs.google.com/document/d/1kdeA730ItEqgC-4V_-U2gq_EbpX413XmmE9wMj7Wdh8/edit?usp=sharing
В рамках курса предусмотрен промежуточный контроль знаний в рамках устного коллоквиума.
+
  
Дата проведения: 12 апреля
+
Примеры задач:
 +
* Метрические методы, kNN [[http://nbviewer.jupyter.org/github/shestakoff/minor_da_2017/blob/master/colloc_knn.ipynb Примеры задач]]
 +
* Линейные методы [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_linear.pdf Примеры задач]]
 +
* Решающие деревья [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_trees.ipynb Примеры задач]]
 +
* Метрики качества [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_metrics.ipynb Примеры задач]]
  
[https://docs.google.com/document/d/17rXxZvS1gjZUwvns-bFrh1lsR2I5HygeNKJm5ZJQd_E/edit?usp=sharing Список вопросов]
+
== Экзамен ==
  
На коллоквиуме студенту будет предложено 5 вопросов из списка, каждый из которых "стоит" 2 балла.
+
Вопросы: https://docs.google.com/document/d/1IrRO4kbzKieTWDgJ5UhfPECyU2tvq9CZi2mXgQPzf30/edit?usp=sharing
  
Расписание:
+
[https://github.com/esokolov/ml-minor-hse/blob/master/exam-2017/exam_problems_example.pdf Примеры задач прошлого года] (также могут войти задачи из коллоквиума)
 
+
1 пара (5215): ИАД-8, ИАД-13, ИАД-14, ИАД-20
+
 
+
2 пара (К-10): ИАД-4, ИАД-9, ИАД-10, ИАД-11, ИАД-15, ИАД-16, ИАД-19
+
 
+
3 пара (К-9): ИАД-2, ИАД-3, ИАД-12, ИАД-17, ИАД-18
+
 
+
4 пара (5215): ИАД-1, ИАД-5, ИАД-6, ИАД-7
+
 
+
=== Экзамен ===
+
Дата проведения экзамена: 21 июня
+
 
+
[https://docs.google.com/document/d/1WRtQqhegOwV1l7McyJAm-y4ql65B_6dY3z5YkRgpe1k/edit?usp=sharing Список вопросов]
+
 
+
На экзамене студенту будет предложено 3 вопроса из списка, а также будет задан вопрос о содержании проекта. По усмотрению преподавателя могут быть заданы дополнительные вопросы для уточнения оценки.
+
 
+
Распределение по аудиториям можно найти в РУЗ.
+
  
 
==Полезные материалы==
 
==Полезные материалы==
Строка 242: Строка 143:
  
 
== Страницы прошлых лет ==
 
== Страницы прошлых лет ==
 +
 +
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2017-2018 | 2017/18 учебный год ]]
 +
 +
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2016-2017 | 2016/17 учебный год ]]
  
 
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2015-2016 | 2015/16 учебный год ]]
 
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2015-2016 | 2015/16 учебный год ]]
  
 
[[Category:Майнор "Интеллектуальный анализ данных"]]
 
[[Category:Майнор "Интеллектуальный анализ данных"]]

Текущая версия на 21:57, 13 августа 2019

О курсе

Курс читается для студентов 2-го курса майнора ИАД в 3-4 модулях.

Проводится с 2015 года.

Лектор: Соколов Евгений Андреевич

Лекции проходят по средам, 10:30 - 11:50, ауд. 5306 (Шаболовка, 26).


Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub

Почта для сдачи домашних заданий: hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)

Канал в telegram для объявлений: https://telegram.me/hse_minor_intro_dm_2019

Таблица с оценками

Оставить отзыв на курс: форма

Вопросы по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций лучше всего оформлять в виде Issue в github-репозитории курса.

Семинары

Группа Преподаватель Учебный ассистент Страница Расписание
ИАД-1 Кохтев Вадим Богданов Илья Чат в Telegram, Github среда, 9:00-10:20, ауд. 3203
ИАД-2 Ковалев Евгений Мухортов Максим Wiki среда, 12:10-13:30, ауд. 4336
ИАД-3
ИАД-4 Филатов Артем Рогачевская Анастасия Чат в Telegram среда, 9:00-10:20, ауд. 4335
ИАД-5

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
  • Практические домашние работы на Python
  • Контрольная где-то в середине курса
  • Письменный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз

Оценка за работу в семестре вычисляется по формуле

Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Оконтрольная

Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям.

Правила сдачи заданий

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Лекции

Файлы со слайдами очень легко скачать с GitHub с помощью кнопки Raw!

Лекция 1 (16.01.2018). Введение в машинное обучение и анализ данных. [Слайды]

Лекция 2 (23.01.2018). Типы задач машинного обучения. Типы признаков. Обобщающая способность и переобучение. Примеры задач анализа данных. [Слайды]

Лекция 3 (30.01.2018). Векторы и матрицы. Норма, метрика и скалярное произведение. Качество классификации, доля верных ответов. Оценивание обобщающей способности, кросс-валидация. Гипотеза компактности. Метод k ближайших соседей. [Слайды]

Лекция 4 (06.02.2018). Метод k ближайших соседей в регрессии. Среднеквадратичная ошибка. Матричное умножение. Производные и градиенты. Экстремумы функций. Обучение линейной регрессии. [Слайды]

Лекция 5 (13.02.2018). Градиентный спуск. Линейные зависимости и мультиколлинеарность. Регуляризация линейных моделей. Масштабирование признаков. [Слайды]

Лекция 6 (20.02.2018). Линейная классификация. Логистическая регрессия. Оценивание вероятностей. Метрики качества классификации: accuracy, precision, recall. [Слайды]

Лекция 7 (27.02.2018). Работа с категориальными признаками. Метрики качества регрессии: MSE, MAE, коэффициент детерминации. Устойчивые оценки. Качество классификации, AUC-PR, AUC-ROC. Параметры и гиперпараметры. [Слайды]

Лекция 8 (06.03.2018). Многоклассовая классификация, подход one-vs-all. Решающие деревья. Критерии информативности. Энтропия и энтропийный критерий для классификации. Гиперпараметры деревьев, борьба с переобучением. [Слайды]

Лекция 9 (13.03.2018). Композиции алгоритмов. Случайные леса [Слайды]

Лекция 10 (20.03.2018). Композиции алгоритмов. Разложение ошибки на смещение и разброс. Градиентный бустинг. [Слайды]

Лекция 11 (10.04.2018). Понижение размерности данных. Отбор признаков: одномерные методы, отбор с помощью моделей. Визуализация данных, t-SNE. [Слайды]

Лекция 12 (24.04.2018). Обучение без учителя. Примеры задач. Кластеризация: K-Means, DBSCAN, графовые методы. Представления слов. [Слайды]

Лекция 13 (15.05.2018). Рекомендательные системы. Коллаборативная фильтрация, модели со скрытыми переменными. [Слайды]

Лекция 14 (29.05.2018). Ранжирование. Метрики качества ранжирования. Точечные и попарные методы. [Слайды]

Лекция 15 (05.06.2018). Метод опорных векторов. Задача максимизации отступа. Hinge loss. Ядровой переход. [Слайды]

Лекция 16 (05.06.2018). Обучение с переносом знаний. [Слайды]

Семинары

Практические задания

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются.

Контрольная работа

Вопросы: https://docs.google.com/document/d/1kdeA730ItEqgC-4V_-U2gq_EbpX413XmmE9wMj7Wdh8/edit?usp=sharing

Примеры задач:

Экзамен

Вопросы: https://docs.google.com/document/d/1IrRO4kbzKieTWDgJ5UhfPECyU2tvq9CZi2mXgQPzf30/edit?usp=sharing

Примеры задач прошлого года (также могут войти задачи из коллоквиума)

Полезные материалы

Курсы по машинному обучению и анализу данных

Статьи

Книги

  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
  • James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.

Страницы прошлых лет

2017/18 учебный год

2016/17 учебный год

2015/16 учебный год