Майнор Интеллектуальный анализ данных/Введение в анализ данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Программа лекций)
(Лекции)
 
(не показаны 192 промежуточные версии 25 участников)
Строка 1: Строка 1:
=== Курс "Введение в анализ данных" в майноре "Интеллектуальный анализ данных" ===
+
== О курсе ==
==== О курсе ====
+
В рамках курса «Введение в анализ данных» студенты овладевают базовыми понятиями и методами интеллектуального анализа данных и машинного обучения, учатся применять их в задачах обработки и анализа данных, информационного поиска, а также приобретают практические навыки исследователя данных (data scientist). Практические задания и итоговый проект выполняются с использованием языка Python и инструментов PyData (iPython Notebook, NumPy, Pandas, scikit-learn и др.)<br />
+
  
'''Читается:''' 3-4 модуль 2 курса, 2015/2016 учебный год.<br />
+
Курс читается для студентов 2-го курса [https://electives.hse.ru/2015/minor_intel/ майнора ИАД] в 3-4 модулях.
'''Пререквизиты:'''  Введение в программирование<br />
+
'''Трудоемкость:'''  5 кредитов<br />
+
  
===== Продолжительность =====
+
Проводится с 2015 года.
'''Всего:''' 72 аудиторных часа:<br />
+
'''Из них:'''
+
* 36 часов лекций
+
* 36 часов практических занятий
+
  
===== Формы контроля =====
+
'''Лектор:''' [http://www.hse.ru/staff/esokolov Соколов Евгений Андреевич]
* проверочные работы на семинарах
+
* домашние задания
+
* проект по анализу данных
+
* экзамен
+
  
====Учебный процесс====
+
Лекции проходят  по средам, 10:30 - 11:50, ауд. 5306 (Шаболовка, 26).
=====Расписание лекций=====
+
  
{| class="wikitable"
 
|-
 
! Пара !! Группы !! Преподаватель
 
|-
 
| 2 10.30-11.50 || ИАД-11 – ИАД-20 (К-9) || Соколов Евгений Андреевич
 
|-
 
| 3 12.10-13.30 || ИАД-1 – ИАД-10 (К-9) || Игнатов Дмитрий Игоревич
 
|}
 
  
=====Расписание семинаров=====
+
=== Полезные ссылки ===
 +
 
 +
[https://www.hse.ru/edu/courses/219890194 Карточка курса и программа]
 +
 
 +
[https://github.com/esokolov/ml-minor-hse Репозиторий с материалами на GitHub]
 +
 
 +
Почта для сдачи домашних заданий: hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
 +
 
 +
Канал в telegram для объявлений: https://telegram.me/hse_minor_intro_dm_2019
 +
 
 +
[https://docs.google.com/spreadsheets/d/1B1cwdaCJ2uPhqJs4fQJDcGKUgjBKl7DcNLOwsvSbxHY/edit?usp=sharing Таблица с оценками]
 +
 
 +
Оставить отзыв на курс: [http://goo.gl/forms/RwdMxnChST форма]
 +
 
 +
'''Вопросы''' по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу.
 +
Вопросы по материалам лекций лучше всего оформлять в виде [https://github.com/esokolov/ml-minor-hse/issues Issue] в [https://github.com/esokolov/ml-minor-hse github-репозитории курса].
 +
 
 +
=== Семинары ===
  
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! Пара !! Группа !! Преподаватель !! Группа !! Преподаватель !! Группа !! Преподаватель !! Группа !! Преподаватель !! Группа !! Преподаватель
+
! Группа !! Преподаватель !! Учебный ассистент !! Страница !! Расписание
 
|-
 
|-
| 1  09.00-10.20 || ИАД-8 (ауд.4335) || Панов || ИАД-11 (ауд.3214) || Козлова || ИАД-13 (ауд.4336) || Ромов || ИАД-18 (ауд.4427) || Гитман, Рысьмятова || ИАД-19 (ауд.4428) || Квасов, Полякова
+
| ИАД-1 || [https://www.hse.ru/org/persons/137309442 Кохтев Вадим] || Богданов Илья|| [https://t.me/joinchat/AeUUShP8cnx1aUDw8NLxiw Чат в Telegram], [https://github.com/Kokhtev/HSE-teaching/tree/master/IntroDS-minor-2019 Github]|| среда, 9:00-10:20, ауд. 3203
 
|-
 
|-
| 1  09.00-10.20 || ИАД-20 (ауд.3203) || Струминский || || || || ||  || ||  || 
+
| ИАД-2 || Ковалев Евгений || Мухортов Максим || [http://wiki.cs.hse.ru/%D0%9C%D0%B0%D0%B9%D0%BD%D0%BE%D1%80_%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/%D0%92%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B2_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85/%D0%98%D0%90%D0%94-2 Wiki] || среда, 12:10-13:30, ауд. 4336
 
|-
 
|-
| 2  10.30-10.50 || ИАД-4 (ауд.4336) || Умнов || ИАД-8 (ауд.4335) || Панов || ИАД-9 (ауд.4427) || Папулин || ИАД-10 (ауд.4428) || Зиннурова ||  ||
+
| ИАД-3 || || ||  ||  
 
|-
 
|-
| 3 12.10-13.30  || ИАД-12 (ауд.3214) || Козлова || ИАД-14 (ауд.4427)  || Папулин || ИАД-15 (ауд.4428) || Зиннурова || ИАД-16 (ауд.3203) || Даулбаев, Чиркова || ИАД-17 (ауд.4335) || Гитман, Захаров
+
| ИАД-4 || Филатов Артем || Рогачевская Анастасия || [https://t.me/joinchat/BsAFQhb8lJtUp0grsuAXnw Чат в Telegram] || среда, 9:00-10:20, ауд. 4335  
 
|-
 
|-
| 4 13.40-15.00 || ИАД-2 (ауд.4427) || Папулин || ИАД-3 (ауд.4428) || Шестаков || ИАД-5 (ауд.3203) || Паринов || ИАД-6 (ауд.3214) || Кашницкий || ИАД-7 (ауд.4336) || Умнов
+
| ИАД-5 ||  || || ||  
 
|-
 
|-
| 5 15.10-16.30 || ИАД-1 (ауд.4427) || Папулин || Кашницкий || ИАД-7 (ауд.4336) ||  || ||  || ||  || 
 
 
|}
 
|}
  
=====Программа лекций=====
+
=== Правила выставления оценок ===
 +
 
 +
В курсе предусмотрено несколько форм контроля знания:
 +
* Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
 +
* Практические домашние работы на Python
 +
* Контрольная где-то в середине курса
 +
* Письменный экзамен
 +
 
 +
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
 +
 
 +
O<sub>итоговая</sub> = 0.7 * O<sub>накопленная</sub> + 0.3 * О<sub>экз</sub>
 +
 
 +
Оценка за работу в семестре вычисляется по формуле
 +
 
 +
O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>дз</sub> + 0.2 * О<sub>контрольная</sub>
 +
 
 +
Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям.
 +
 
 +
=== Правила сдачи заданий ===
 +
 
 +
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 +
 
 +
При наличии уважительной причины дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
 +
 
 +
==Лекции==
 +
[[Файл:how-to-download.png|thumb|right|200px|Файлы со слайдами очень легко скачать с GitHub с помощью кнопки Raw!]]
 +
 
 +
Лекция 1 (16.01.2018). Введение в машинное обучение и анализ данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture01-intro.pdf Слайды]]
 +
 
 +
Лекция 2 (23.01.2018). Типы задач машинного обучения. Типы признаков. Обобщающая способность и переобучение. Примеры задач анализа данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture02-intro.pdf Слайды]]
 +
 
 +
Лекция 3 (30.01.2018). Векторы и матрицы. Норма, метрика и скалярное произведение. Качество классификации, доля верных ответов. Оценивание обобщающей способности, кросс-валидация. Гипотеза компактности. Метод k ближайших соседей. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture03-knn.pdf Слайды]]
 +
 
 +
Лекция 4 (06.02.2018). Метод k ближайших соседей в регрессии. Среднеквадратичная ошибка. Матричное умножение. Производные и градиенты. Экстремумы функций. Обучение линейной регрессии. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture04-regression.pdf Слайды]]
 +
 
 +
Лекция 5 (13.02.2018). Градиентный спуск. Линейные зависимости и мультиколлинеарность. Регуляризация линейных моделей. Масштабирование признаков. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture05-regression.pdf Слайды]]
 +
 
 +
Лекция 6 (20.02.2018). Линейная классификация. Логистическая регрессия. Оценивание вероятностей. Метрики качества классификации: accuracy, precision, recall. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture06-linclass.pdf Слайды]]
 +
 
 +
Лекция 7 (27.02.2018). Работа с категориальными признаками. Метрики качества регрессии: MSE, MAE, коэффициент детерминации. Устойчивые оценки. Качество классификации, AUC-PR, AUC-ROC. Параметры и гиперпараметры. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture07-quality.pdf Слайды]]
 +
 
 +
Лекция 8 (06.03.2018). Многоклассовая классификация, подход one-vs-all. Решающие деревья. Критерии информативности. Энтропия и энтропийный критерий для классификации. Гиперпараметры деревьев, борьба с переобучением. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture08-trees.pdf Слайды]]
 +
 
 +
Лекция 9 (13.03.2018). Композиции алгоритмов. Случайные леса [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture09-ensembles.pdf Слайды]]
 +
 
 +
Лекция 10 (20.03.2018). Композиции алгоритмов. Разложение ошибки на смещение и разброс. Градиентный бустинг. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture10-ensembles.pdf Слайды]]
 +
 
 +
Лекция 11 (10.04.2018). Понижение размерности данных. Отбор признаков: одномерные методы, отбор с помощью моделей. Визуализация данных, t-SNE. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture11-reduction.pdf Слайды]]
 +
 
 +
Лекция 12 (24.04.2018). Обучение без учителя. Примеры задач. Кластеризация: K-Means, DBSCAN, графовые методы. Представления слов. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture12-clustering.pdf Слайды]]
 +
 
 +
Лекция 13 (15.05.2018). Рекомендательные системы. Коллаборативная фильтрация, модели со скрытыми переменными. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture13-recommender.pdf Слайды]]
 +
 
 +
Лекция 14 (29.05.2018). Ранжирование. Метрики качества ранжирования. Точечные и попарные методы. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture14-ranking.pdf Слайды]]
  
Лекция 1 (12.01.2016). Введение в машинное обучение и анализ данных. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Обзор курса. [Слайды 1 поток] [Слайды 2 поток]
+
Лекция 15 (05.06.2018). Метод опорных векторов. Задача максимизации отступа. Hinge loss. Ядровой переход. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture15-svm.pdf Слайды]]
  
Лекция 2. Постановки задач в машинном обучении. Примеры прикладных задач и их типы: классификация, регрессия, ранжирование, кластеризация, поиск структуры в данных. Типы признаков и целевой переменной. Почему анализ данных — это не просто задача восстановления функции по N точкам: задачи предобработки данных, выбора метрики, проверки качества модели.
+
Лекция 16 (05.06.2018). Обучение с переносом знаний. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2019/lecture16-transfer.pdf Слайды]]
  
Лекция 3. Линейная алгебра и анализ данных. Линейные пространства, их примеры из машинного обучения. Коллинеарность и линейная независимость. Скалярное произведение, косинус угла, примеры их применения. Векторы и матрицы, операции над ними. Матричное умножение. Системы линейных уравнений. Обратная матрица.
+
==Семинары==
  
Лекция 4. Математический анализ и анализ данных. Производная и градиент, их свойства и интерпретации. Типы функций: непрерывные, разрывные, гладкие. Градиентный спуск. Выпуклые функции и их особое место в оптимизации.
+
== Практические задания ==
 +
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются.
  
Лекция 5. Теория вероятностей и анализ данных. Случайные величины. Дискретные и непрерывные распределения, их свойства. Примеры распределений и их важность в анализе данных: биномиальное, пуассоновское, нормальное, экспоненциальное. Характеристики распределений: среднее, медиана, дисперсия, квантили. Их использование при генерации признаков. Центральная предельная теорема.
+
== Контрольная работа ==
  
Лекция 6. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия. Пример использования: анализ текстов и наивный байесовский классификатор. Доверительные интервалы и бутстрэппинг.
+
Вопросы: https://docs.google.com/document/d/1kdeA730ItEqgC-4V_-U2gq_EbpX413XmmE9wMj7Wdh8/edit?usp=sharing
  
Лекция 7. Линейная регрессия. Квадратичная функция потерь и предположение о нормальном распределении шума. Метод наименьших квадратов: аналитическое решение и оптимизационный подход. Стохастический градиентный спуск. Тонкости градиентного спуска: размер шага, начальное приближение, нормировка признаков. Проблема переобучения. Регуляризация.
+
Примеры задач:
 +
* Метрические методы, kNN [[http://nbviewer.jupyter.org/github/shestakoff/minor_da_2017/blob/master/colloc_knn.ipynb Примеры задач]]
 +
* Линейные методы [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_linear.pdf Примеры задач]]
 +
* Решающие деревья [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_trees.ipynb Примеры задач]]
 +
* Метрики качества [[https://github.com/esokolov/ml-minor-hse/blob/master/colloquium-2017/colloquium_minor_problems_metrics.ipynb Примеры задач]]
  
Лекция 8. Линейная классификация. Аппроксимация дискретной функции потерь. Отступ. Примеры аппроксимаций, их особенности. Градиентный спуск, регуляризация. Классификация и оценки принадлежности классам. Кредитный скоринг. Логистическая регрессия: откуда берется такая функция потерь и почему она позволяет предсказывать вероятности. Максимизация зазора как пример регуляризации и устранения неоднозначности решения. Кратко про отбор признаков.
+
== Экзамен ==
  
Лекция 9. Метрики качества алгоритмов. Регрессия: квадратичные и абсолютные потери, абсолютные логарифмические отклонения. Примеры использования.
+
Вопросы: https://docs.google.com/document/d/1IrRO4kbzKieTWDgJ5UhfPECyU2tvq9CZi2mXgQPzf30/edit?usp=sharing
Классификация: доля верных ответов, ее недостатки. Точность и полнота, их объединение: арифметическое среднее, минимум, гармоническое среднее (F-мера).
+
Оценки принадлежности классам: площади под кривыми, AUC-ROC, AUC-PRC, их свойства.
+
  
Лекция 10. Оценивание качества алгоритмов. Отложенная выборка, ее недостатки. Оценка полного скользящего контроля. Кросс-валидация. Leave-one-out.
+
[https://github.com/esokolov/ml-minor-hse/blob/master/exam-2017/exam_problems_example.pdf Примеры задач прошлого года] (также могут войти задачи из коллоквиума)
Практические особенности кросс-валидации. Стратификация. Потенциальные проблемы с разбиением зависимой или динамической выборки.
+
  
Лекция 11. Логические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений. Жадный алгоритм, основные его параметры.
+
==Полезные материалы==
 +
===Курсы по машинному обучению и анализу данных===
 +
* [http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение_%28курс_лекций%2C_К.В.Воронцов%29 Курс по машинному обучению К.В. Воронцова]
 +
* [https://yandexdataschool.ru/edu-process/courses/machine-learning Видеозаписи лекций курса Школы Анализа Данных, К.В. Воронцов]
 +
* [https://www.coursera.org/specializations/machine-learning-data-analysis Coursera: Машинное обучение и анализ данных (специализация)]
 +
* [https://www.coursera.org/learn/introduction-machine-learning Coursera: Введение в машинное обучение, К.В. Воронцов]
 +
* [https://www.coursera.org/learn/machine-learning Coursera: Machine Learning, Andrew Ng]
  
Лекция 12. Построение деревьев решений. Критерий ветвления. Выбор оптимального разбиения в задачах регрессии. Сложности выбора разбиения в задаче классификации. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев.
+
===Статьи===
 +
* [http://www.toptal.com/machine-learning/machine-learning-theory-an-introductory-primer An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples]
 +
* [http://www.r2d3.us/visual-intro-to-machine-learning-part-1/ A Visual Introduction to Machine Learning]
  
Лекция 13. Введение в композиции алгоритмов. Простейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов.
+
===Книги===
Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag.
+
* Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
 +
* Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
 +
* James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.
  
Лекция 14. Особенности реальных данных. Неполнота и противоречивость. Шумы и выбросы в данных. Методы поиска выбросов. Пропуски в данных, методы их восстановления. Несбалансированные выборки: проблемы и методы борьбы. Задача отбора признаков, примеры подходов.
+
== Страницы прошлых лет ==
  
Лекция 15. Анализ частых множеств признаков и ассоциативных правил. Задача анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритм Априори. Меры “интересности правил”.
+
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2017-2018 | 2017/18 учебный год ]]
  
Лекция 16. Задача кластеризации. Простые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации.
+
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2016-2017 | 2016/17 учебный год ]]
  
Лекция 17. Заключительная лекция. Обзор курса, подведение итогов.
+
[[Майнор_Интеллектуальный_анализ_данных/Введение_в_анализ_данных/2015-2016 | 2015/16 учебный год ]]
  
 
[[Category:Майнор "Интеллектуальный анализ данных"]]
 
[[Category:Майнор "Интеллектуальный анализ данных"]]

Текущая версия на 21:57, 13 августа 2019

О курсе

Курс читается для студентов 2-го курса майнора ИАД в 3-4 модулях.

Проводится с 2015 года.

Лектор: Соколов Евгений Андреевич

Лекции проходят по средам, 10:30 - 11:50, ауд. 5306 (Шаболовка, 26).


Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub

Почта для сдачи домашних заданий: hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)

Канал в telegram для объявлений: https://telegram.me/hse_minor_intro_dm_2019

Таблица с оценками

Оставить отзыв на курс: форма

Вопросы по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций лучше всего оформлять в виде Issue в github-репозитории курса.

Семинары

Группа Преподаватель Учебный ассистент Страница Расписание
ИАД-1 Кохтев Вадим Богданов Илья Чат в Telegram, Github среда, 9:00-10:20, ауд. 3203
ИАД-2 Ковалев Евгений Мухортов Максим Wiki среда, 12:10-13:30, ауд. 4336
ИАД-3
ИАД-4 Филатов Артем Рогачевская Анастасия Чат в Telegram среда, 9:00-10:20, ауд. 4335
ИАД-5

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
  • Практические домашние работы на Python
  • Контрольная где-то в середине курса
  • Письменный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз

Оценка за работу в семестре вычисляется по формуле

Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Оконтрольная

Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям.

Правила сдачи заданий

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Лекции

Файлы со слайдами очень легко скачать с GitHub с помощью кнопки Raw!

Лекция 1 (16.01.2018). Введение в машинное обучение и анализ данных. [Слайды]

Лекция 2 (23.01.2018). Типы задач машинного обучения. Типы признаков. Обобщающая способность и переобучение. Примеры задач анализа данных. [Слайды]

Лекция 3 (30.01.2018). Векторы и матрицы. Норма, метрика и скалярное произведение. Качество классификации, доля верных ответов. Оценивание обобщающей способности, кросс-валидация. Гипотеза компактности. Метод k ближайших соседей. [Слайды]

Лекция 4 (06.02.2018). Метод k ближайших соседей в регрессии. Среднеквадратичная ошибка. Матричное умножение. Производные и градиенты. Экстремумы функций. Обучение линейной регрессии. [Слайды]

Лекция 5 (13.02.2018). Градиентный спуск. Линейные зависимости и мультиколлинеарность. Регуляризация линейных моделей. Масштабирование признаков. [Слайды]

Лекция 6 (20.02.2018). Линейная классификация. Логистическая регрессия. Оценивание вероятностей. Метрики качества классификации: accuracy, precision, recall. [Слайды]

Лекция 7 (27.02.2018). Работа с категориальными признаками. Метрики качества регрессии: MSE, MAE, коэффициент детерминации. Устойчивые оценки. Качество классификации, AUC-PR, AUC-ROC. Параметры и гиперпараметры. [Слайды]

Лекция 8 (06.03.2018). Многоклассовая классификация, подход one-vs-all. Решающие деревья. Критерии информативности. Энтропия и энтропийный критерий для классификации. Гиперпараметры деревьев, борьба с переобучением. [Слайды]

Лекция 9 (13.03.2018). Композиции алгоритмов. Случайные леса [Слайды]

Лекция 10 (20.03.2018). Композиции алгоритмов. Разложение ошибки на смещение и разброс. Градиентный бустинг. [Слайды]

Лекция 11 (10.04.2018). Понижение размерности данных. Отбор признаков: одномерные методы, отбор с помощью моделей. Визуализация данных, t-SNE. [Слайды]

Лекция 12 (24.04.2018). Обучение без учителя. Примеры задач. Кластеризация: K-Means, DBSCAN, графовые методы. Представления слов. [Слайды]

Лекция 13 (15.05.2018). Рекомендательные системы. Коллаборативная фильтрация, модели со скрытыми переменными. [Слайды]

Лекция 14 (29.05.2018). Ранжирование. Метрики качества ранжирования. Точечные и попарные методы. [Слайды]

Лекция 15 (05.06.2018). Метод опорных векторов. Задача максимизации отступа. Hinge loss. Ядровой переход. [Слайды]

Лекция 16 (05.06.2018). Обучение с переносом знаний. [Слайды]

Семинары

Практические задания

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются.

Контрольная работа

Вопросы: https://docs.google.com/document/d/1kdeA730ItEqgC-4V_-U2gq_EbpX413XmmE9wMj7Wdh8/edit?usp=sharing

Примеры задач:

Экзамен

Вопросы: https://docs.google.com/document/d/1IrRO4kbzKieTWDgJ5UhfPECyU2tvq9CZi2mXgQPzf30/edit?usp=sharing

Примеры задач прошлого года (также могут войти задачи из коллоквиума)

Полезные материалы

Курсы по машинному обучению и анализу данных

Статьи

Книги

  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
  • James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.

Страницы прошлых лет

2017/18 учебный год

2016/17 учебный год

2015/16 учебный год