Майнор Интеллектуальный анализ данных/Введение в анализ данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Расписание семинаров)
(Программа лекций)
Строка 51: Строка 51:
  
 
=====Программа лекций=====
 
=====Программа лекций=====
 +
 +
Лекция 1 (12.01.2016). Введение в машинное обучение и анализ данных. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Обзор курса. [Слайды 1 поток] [Слайды 2 поток]
 +
 +
Лекция 2. Постановки задач в машинном обучении. Примеры прикладных задач и их типы: классификация, регрессия, ранжирование, кластеризация, поиск структуры в данных. Типы признаков и целевой переменной. Почему анализ данных — это не просто задача восстановления функции по N точкам: задачи предобработки данных, выбора метрики, проверки качества модели.
 +
 +
Лекция 3. Линейная алгебра и анализ данных. Линейные пространства, их примеры из машинного обучения. Коллинеарность и линейная независимость. Скалярное произведение, косинус угла, примеры их применения. Векторы и матрицы, операции над ними. Матричное умножение. Системы линейных уравнений. Обратная матрица.
 +
 +
Лекция 4. Математический анализ и анализ данных. Производная и градиент, их свойства и интерпретации. Типы функций: непрерывные, разрывные, гладкие. Градиентный спуск. Выпуклые функции и их особое место в оптимизации.
 +
 +
Лекция 5. Теория вероятностей и анализ данных. Случайные величины. Дискретные и непрерывные распределения, их свойства. Примеры распределений и их важность в анализе данных: биномиальное, пуассоновское, нормальное, экспоненциальное. Характеристики распределений: среднее, медиана, дисперсия, квантили. Их использование при генерации признаков. Центральная предельная теорема.
 +
 +
Лекция 6. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия. Пример использования: анализ текстов и наивный байесовский классификатор. Доверительные интервалы и бутстрэппинг.
 +
 +
Лекция 7. Линейная регрессия. Квадратичная функция потерь и предположение о нормальном распределении шума. Метод наименьших квадратов: аналитическое решение и оптимизационный подход. Стохастический градиентный спуск. Тонкости градиентного спуска: размер шага, начальное приближение, нормировка признаков. Проблема переобучения. Регуляризация.
 +
 +
Лекция 8. Линейная классификация. Аппроксимация дискретной функции потерь. Отступ. Примеры аппроксимаций, их особенности. Градиентный спуск, регуляризация. Классификация и оценки принадлежности классам. Кредитный скоринг. Логистическая регрессия: откуда берется такая функция потерь и почему она позволяет предсказывать вероятности. Максимизация зазора как пример регуляризации и устранения неоднозначности решения. Кратко про отбор признаков.
 +
 +
Лекция 9. Метрики качества алгоритмов. Регрессия: квадратичные и абсолютные потери, абсолютные логарифмические отклонения. Примеры использования.
 +
Классификация: доля верных ответов, ее недостатки. Точность и полнота, их объединение: арифметическое среднее, минимум, гармоническое среднее (F-мера).
 +
Оценки принадлежности классам: площади под кривыми, AUC-ROC, AUC-PRC, их свойства.
 +
 +
Лекция 10. Оценивание качества алгоритмов. Отложенная выборка, ее недостатки. Оценка полного скользящего контроля. Кросс-валидация. Leave-one-out.
 +
Практические особенности кросс-валидации. Стратификация. Потенциальные проблемы с разбиением зависимой или динамической выборки.
 +
 +
Лекция 11. Логические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений. Жадный алгоритм, основные его параметры.
 +
 +
Лекция 12. Построение деревьев решений. Критерий ветвления. Выбор оптимального разбиения в задачах регрессии. Сложности выбора разбиения в задаче классификации. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев.
 +
 +
Лекция 13. Введение в композиции алгоритмов. Простейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов.
 +
Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag.
 +
 +
Лекция 14. Особенности реальных данных. Неполнота и противоречивость. Шумы и выбросы в данных. Методы поиска выбросов. Пропуски в данных, методы их восстановления. Несбалансированные выборки: проблемы и методы борьбы. Задача отбора признаков, примеры подходов.
 +
 +
Лекция 15. Анализ частых множеств признаков и ассоциативных правил. Задача анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритм Априори. Меры “интересности правил”.
 +
 +
Лекция 16. Задача кластеризации. Простые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации.
 +
 +
Лекция 17. Заключительная лекция. Обзор курса, подведение итогов.
  
 
[[Category:Майнор "Интеллектуальный анализ данных"]]
 
[[Category:Майнор "Интеллектуальный анализ данных"]]

Версия 14:48, 17 января 2016

Курс "Введение в анализ данных" в майноре "Интеллектуальный анализ данных"

О курсе

В рамках курса «Введение в анализ данных» студенты овладевают базовыми понятиями и методами интеллектуального анализа данных и машинного обучения, учатся применять их в задачах обработки и анализа данных, информационного поиска, а также приобретают практические навыки исследователя данных (data scientist). Практические задания и итоговый проект выполняются с использованием языка Python и инструментов PyData (iPython Notebook, NumPy, Pandas, scikit-learn и др.)

Читается: 3-4 модуль 2 курса, 2015/2016 учебный год.
Пререквизиты: Введение в программирование
Трудоемкость: 5 кредитов

Продолжительность

Всего: 72 аудиторных часа:
Из них:

  • 36 часов лекций
  • 36 часов практических занятий
Формы контроля
  • проверочные работы на семинарах
  • домашние задания
  • проект по анализу данных
  • экзамен

Учебный процесс

Расписание лекций
Пара Группы Преподаватель
2 10.30-11.50 ИАД-11 – ИАД-20 (К-9) Соколов Евгений Андреевич
3 12.10-13.30 ИАД-1 – ИАД-10 (К-9) Игнатов Дмитрий Игоревич
Расписание семинаров
Пара Группа Преподаватель Группа Преподаватель Группа Преподаватель Группа Преподаватель Группа Преподаватель
1 09.00-10.20 ИАД-8 (ауд.4335) Панов ИАД-11 (ауд.3214) Козлова ИАД-13 (ауд.4336) Ромов ИАД-18 (ауд.4427) Гитман, Рысьмятова ИАД-19 (ауд.4428) Квасов, Полякова
1 09.00-10.20 ИАД-20 (ауд.3203) Струминский
2 10.30-10.50 ИАД-4 (ауд.4336) Умнов ИАД-8 (ауд.4335) Панов ИАД-9 (ауд.4427) Папулин ИАД-10 (ауд.4428) Зиннурова
3 12.10-13.30 ИАД-12 (ауд.3214) Козлова ИАД-14 (ауд.4427) Папулин ИАД-15 (ауд.4428) Зиннурова ИАД-16 (ауд.3203) Даулбаев, Чиркова ИАД-17 (ауд.4335) Гитман, Захаров
4 13.40-15.00 ИАД-2 (ауд.4427) Папулин ИАД-3 (ауд.4428) Шестаков ИАД-5 (ауд.3203) Паринов ИАД-6 (ауд.3214) Кашницкий ИАД-7 (ауд.4336) Умнов
5 15.10-16.30 ИАД-1 (ауд.4427) Папулин Кашницкий ИАД-7 (ауд.4336)
Программа лекций

Лекция 1 (12.01.2016). Введение в машинное обучение и анализ данных. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Обзор курса. [Слайды 1 поток] [Слайды 2 поток]

Лекция 2. Постановки задач в машинном обучении. Примеры прикладных задач и их типы: классификация, регрессия, ранжирование, кластеризация, поиск структуры в данных. Типы признаков и целевой переменной. Почему анализ данных — это не просто задача восстановления функции по N точкам: задачи предобработки данных, выбора метрики, проверки качества модели.

Лекция 3. Линейная алгебра и анализ данных. Линейные пространства, их примеры из машинного обучения. Коллинеарность и линейная независимость. Скалярное произведение, косинус угла, примеры их применения. Векторы и матрицы, операции над ними. Матричное умножение. Системы линейных уравнений. Обратная матрица.

Лекция 4. Математический анализ и анализ данных. Производная и градиент, их свойства и интерпретации. Типы функций: непрерывные, разрывные, гладкие. Градиентный спуск. Выпуклые функции и их особое место в оптимизации.

Лекция 5. Теория вероятностей и анализ данных. Случайные величины. Дискретные и непрерывные распределения, их свойства. Примеры распределений и их важность в анализе данных: биномиальное, пуассоновское, нормальное, экспоненциальное. Характеристики распределений: среднее, медиана, дисперсия, квантили. Их использование при генерации признаков. Центральная предельная теорема.

Лекция 6. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия. Пример использования: анализ текстов и наивный байесовский классификатор. Доверительные интервалы и бутстрэппинг.

Лекция 7. Линейная регрессия. Квадратичная функция потерь и предположение о нормальном распределении шума. Метод наименьших квадратов: аналитическое решение и оптимизационный подход. Стохастический градиентный спуск. Тонкости градиентного спуска: размер шага, начальное приближение, нормировка признаков. Проблема переобучения. Регуляризация.

Лекция 8. Линейная классификация. Аппроксимация дискретной функции потерь. Отступ. Примеры аппроксимаций, их особенности. Градиентный спуск, регуляризация. Классификация и оценки принадлежности классам. Кредитный скоринг. Логистическая регрессия: откуда берется такая функция потерь и почему она позволяет предсказывать вероятности. Максимизация зазора как пример регуляризации и устранения неоднозначности решения. Кратко про отбор признаков.

Лекция 9. Метрики качества алгоритмов. Регрессия: квадратичные и абсолютные потери, абсолютные логарифмические отклонения. Примеры использования. Классификация: доля верных ответов, ее недостатки. Точность и полнота, их объединение: арифметическое среднее, минимум, гармоническое среднее (F-мера). Оценки принадлежности классам: площади под кривыми, AUC-ROC, AUC-PRC, их свойства.

Лекция 10. Оценивание качества алгоритмов. Отложенная выборка, ее недостатки. Оценка полного скользящего контроля. Кросс-валидация. Leave-one-out. Практические особенности кросс-валидации. Стратификация. Потенциальные проблемы с разбиением зависимой или динамической выборки.

Лекция 11. Логические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений. Жадный алгоритм, основные его параметры.

Лекция 12. Построение деревьев решений. Критерий ветвления. Выбор оптимального разбиения в задачах регрессии. Сложности выбора разбиения в задаче классификации. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев.

Лекция 13. Введение в композиции алгоритмов. Простейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов. Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag.

Лекция 14. Особенности реальных данных. Неполнота и противоречивость. Шумы и выбросы в данных. Методы поиска выбросов. Пропуски в данных, методы их восстановления. Несбалансированные выборки: проблемы и методы борьбы. Задача отбора признаков, примеры подходов.

Лекция 15. Анализ частых множеств признаков и ассоциативных правил. Задача анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритм Априори. Меры “интересности правил”.

Лекция 16. Задача кластеризации. Простые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации.

Лекция 17. Заключительная лекция. Обзор курса, подведение итогов.