Майнор Интеллектуальный анализ данных/Введение в анализ данных — различия между версиями
Esokolov (обсуждение | вклад) (→Экзамен) |
Esokolov (обсуждение | вклад) (→Лекции) |
||
Строка 72: | Строка 72: | ||
[[Файл:how-to-download.png|thumb|right|200px|Файлы со слайдами очень легко скачать с GitHub с помощью кнопки Raw!]] | [[Файл:how-to-download.png|thumb|right|200px|Файлы со слайдами очень легко скачать с GitHub с помощью кнопки Raw!]] | ||
− | Лекция 1 (17.01. | + | Лекция 1 (17.01.2018). Введение в машинное обучение и анализ данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture01-intro.pdf Слайды]] |
− | Лекция 2 (24.01. | + | Лекция 2 (24.01.2018). Типы задач машинного обучения. Типы признаков. Обобщающая способность и переобучение. Примеры задач анализа данных. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture02-intro.pdf Слайды]] |
− | Лекция 3 (31.01. | + | Лекция 3 (31.01.2018). Векторы и матрицы. Норма, метрика и скалярное произведение. Качество классификации, доля верных ответов. Оценивание обобщающей способности, кросс-валидация. Гипотеза компактности. Метод k ближайших соседей. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture03-knn.pdf Слайды]] |
− | Лекция 4 (07.02. | + | Лекция 4 (07.02.2018). Метод k ближайших соседей в регрессии. Среднеквадратичная ошибка. Матричное умножение. Производные и градиенты. Экстремумы функций. Обучение линейной регрессии. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture04-regression.pdf Слайды]] |
− | Лекция 5 (14.02. | + | Лекция 5 (14.02.2018). Градиентный спуск. Линейные зависимости и мультиколлинеарность. Регуляризация линейных моделей. Масштабирование признаков. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture05-regression.pdf Слайды]] |
− | Лекция 6 (21.02. | + | Лекция 6 (21.02.2018). Линейная классификация. Логистическая регрессия. Оценивание вероятностей. Метрики качества классификации: accuracy, precision, recall. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture06-linclass.pdf Слайды]] |
− | Лекция 7 (28.02. | + | Лекция 7 (28.02.2018). Работа с категориальными признаками. Метрики качества регрессии: MSE, MAE, коэффициент детерминации. Устойчивые оценки. Качество классификации, AUC-PR, AUC-ROC. Параметры и гиперпараметры. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture07-quality.pdf Слайды]] |
− | Лекция 8 (14.03. | + | Лекция 8 (14.03.2018). Многоклассовая классификация, подход one-vs-all. Решающие деревья. Критерии информативности. Энтропия и энтропийный критерий для классификации. Гиперпараметры деревьев, борьба с переобучением. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture08-trees.pdf Слайды]] |
− | Лекция 9 (21.03. | + | Лекция 9 (21.03.2018). Композиции алгоритмов. Случайные леса [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture09-ensembles.pdf Слайды]] |
− | Лекция 10 (18.04. | + | Лекция 10 (18.04.2018). Понижение размерности данных. Отбор признаков: одномерные методы, отбор с помощью моделей. Визуализация данных, t-SNE. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture10-reduction.pdf Слайды]] |
− | Лекция 11 (25.04. | + | Лекция 11 (25.04.2018). Обучение без учителя. Примеры задач. Кластеризация: K-Means, DBSCAN, графовые методы. Представления слов. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture11-clustering.pdf Слайды]] |
− | Лекция 12 (16.05. | + | Лекция 12 (16.05.2018). Рекомендательные системы. Коллаборативная фильтрация, модели со скрытыми переменными. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture12-recommender.pdf Слайды]] |
+ | |||
+ | Лекция 13 (30.05.2018). Ранжирование. Метрики качества ранжирования. Точечные и попарные методы. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture13-ranking.pdf Слайды]] | ||
+ | |||
+ | Лекция 14 (06.06.2018). Метод опорных векторов. Задача максимизации отступа. Hinge loss. Ядровой переход. [[https://github.com/esokolov/ml-minor-hse/blob/master/lectures-2018/lecture14-ranking.pdf Слайды]] | ||
==Семинары== | ==Семинары== |
Версия 10:23, 6 июня 2018
Содержание
О курсе
Курс читается для студентов 2-го курса майнора ИАД в 3-4 модулях.
Проводится с 2015 года.
Лектор: Соколов Евгений Андреевич
Лекции проходят по средам, 10:30 - 11:50, ауд. 5306 (Шаболовка, 26).
Полезные ссылки
Репозиторий с материалами на GitHub
Почта для сдачи домашних заданий: hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)
Канал в telegram для объявлений: https://telegram.me/hse_minor_intro_dm_2018
Оставить отзыв на курс: форма
Вопросы по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций лучше всего оформлять в виде Issue в github-репозитории курса.
Семинары
Группа | Преподаватель | Учебный ассистент | Страница | Расписание |
---|---|---|---|---|
ИАД-1 | Рысьмятова Анастасия | Багиян Нерсес Telegram, Mail |
Страница | среда, 12:10 - 13:30, ауд. 4336 |
ИАД-2 | Талгат Даулбаев, Надежда Чиркова | Першин Максим Telegram, Mail |
Страница | среда, 09:00 - 10:20, ауд. 4336 |
ИАД-3 | Каюмов Эмиль | Ковалев Евгений Telegram, VK, Instagram :) |
среда, 09:00 - 10:20, ауд. 4427 | |
ИАД-4 | Надежда Чиркова, Талгат Даулбаев | Вальчук Ксения Telegram, Mail |
Страница | среда, 12:10 - 13:30, ауд. 4335 |
ИАД-5 | Филатов Артём | Рогачевская Анастасия Telegram, Mail |
Telegram | среда, 09:00 - 10:20, ауд. 4337 |
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
- Практические домашние работы на Python
- Контрольная где-то в середине курса
- Письменный экзамен
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз
Оценка за работу в семестре вычисляется по формуле
Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Оконтрольная
Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям.
Правила сдачи заданий
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Лекция 1 (17.01.2018). Введение в машинное обучение и анализ данных. [Слайды]
Лекция 2 (24.01.2018). Типы задач машинного обучения. Типы признаков. Обобщающая способность и переобучение. Примеры задач анализа данных. [Слайды]
Лекция 3 (31.01.2018). Векторы и матрицы. Норма, метрика и скалярное произведение. Качество классификации, доля верных ответов. Оценивание обобщающей способности, кросс-валидация. Гипотеза компактности. Метод k ближайших соседей. [Слайды]
Лекция 4 (07.02.2018). Метод k ближайших соседей в регрессии. Среднеквадратичная ошибка. Матричное умножение. Производные и градиенты. Экстремумы функций. Обучение линейной регрессии. [Слайды]
Лекция 5 (14.02.2018). Градиентный спуск. Линейные зависимости и мультиколлинеарность. Регуляризация линейных моделей. Масштабирование признаков. [Слайды]
Лекция 6 (21.02.2018). Линейная классификация. Логистическая регрессия. Оценивание вероятностей. Метрики качества классификации: accuracy, precision, recall. [Слайды]
Лекция 7 (28.02.2018). Работа с категориальными признаками. Метрики качества регрессии: MSE, MAE, коэффициент детерминации. Устойчивые оценки. Качество классификации, AUC-PR, AUC-ROC. Параметры и гиперпараметры. [Слайды]
Лекция 8 (14.03.2018). Многоклассовая классификация, подход one-vs-all. Решающие деревья. Критерии информативности. Энтропия и энтропийный критерий для классификации. Гиперпараметры деревьев, борьба с переобучением. [Слайды]
Лекция 9 (21.03.2018). Композиции алгоритмов. Случайные леса [Слайды]
Лекция 10 (18.04.2018). Понижение размерности данных. Отбор признаков: одномерные методы, отбор с помощью моделей. Визуализация данных, t-SNE. [Слайды]
Лекция 11 (25.04.2018). Обучение без учителя. Примеры задач. Кластеризация: K-Means, DBSCAN, графовые методы. Представления слов. [Слайды]
Лекция 12 (16.05.2018). Рекомендательные системы. Коллаборативная фильтрация, модели со скрытыми переменными. [Слайды]
Лекция 13 (30.05.2018). Ранжирование. Метрики качества ранжирования. Точечные и попарные методы. [Слайды]
Лекция 14 (06.06.2018). Метод опорных векторов. Задача максимизации отступа. Hinge loss. Ядровой переход. [Слайды]
Семинары
Семинар 1 (17.01.2018). Библиотека для работы с матрицами Numpy. [Необязательное домашнее задание для тренировки]
Практические задания
За каждый день просрочки снимается 0.5 балла.
Задание 1. NumPy, Pandas, Matplotlib. Срок сдачи: 13 февраля 23:59
Задание 2. Линейная регрессия, KNN. Срок сдачи: 13 марта 23:59
Задание 3. Логистическая регрессия, случайный лес. Срок сдачи: 18 мая 23:59
Контрольная работа
Контрольная работа состоится 11 апреля во время лекции. Аудитории 5306, 5215
Вопросы: https://docs.google.com/document/d/1UG6FJzJ52AEa92iKPu6uVh05RtPDF1zCBTRiuIl3juM/edit?usp=sharing
Примеры задач:
- Метрические методы, kNN [Примеры задач]
- Линейные методы [Примеры задач]
- Решающие деревья [Примеры задач]
- Метрики качества [Примеры задач]
Экзамен
Вопросы прошлого года: https://docs.google.com/document/d/1IU2jEN5NU3tSuP_5YnFSS2GUDYxoLfSQ4dSy1B_a29M/edit?usp=sharing
Примеры задач прошлого года (также могут войти задачи из коллоквиума)
Если накопленная оценка равна 6 или выше, то можно её автоматом перенести в накопленную. Необходимое условие — оценка за контрольную работу должна быть не ниже 6 баллов.
Полезные материалы
Курсы по машинному обучению и анализу данных
- Курс по машинному обучению К.В. Воронцова
- Видеозаписи лекций курса Школы Анализа Данных, К.В. Воронцов
- Coursera: Машинное обучение и анализ данных (специализация)
- Coursera: Введение в машинное обучение, К.В. Воронцов
- Coursera: Machine Learning, Andrew Ng
Статьи
- An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples
- A Visual Introduction to Machine Learning
Книги
- Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
- Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
- James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.