Майнор Интеллектуальный анализ данных/Введение в анализ данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Программа лекций)
(Программа лекций)
Строка 52: Строка 52:
 
=====Программа лекций=====
 
=====Программа лекций=====
  
Лекция 1 (12.01.2016). Введение в машинное обучение и анализ данных. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Обзор курса. [Слайды 1 поток] [Слайды 2 поток]
+
Лекция 1 (12.01.2016). Введение в машинное обучение и анализ данных. [Слайды 1 поток] [Слайды 2 поток]
  
Лекция 2. Постановки задач в машинном обучении. Примеры прикладных задач и их типы: классификация, регрессия, ранжирование, кластеризация, поиск структуры в данных. Типы признаков и целевой переменной. Почему анализ данных — это не просто задача восстановления функции по N точкам: задачи предобработки данных, выбора метрики, проверки качества модели.
+
Лекция 2. Постановки задач в машинном обучении. Примеры прикладных задач.
  
Лекция 3. Линейная алгебра и анализ данных. Линейные пространства, их примеры из машинного обучения. Коллинеарность и линейная независимость. Скалярное произведение, косинус угла, примеры их применения. Векторы и матрицы, операции над ними. Матричное умножение. Системы линейных уравнений. Обратная матрица.
+
Лекция 3. Линейная алгебра и анализ данных.
  
Лекция 4. Математический анализ и анализ данных. Производная и градиент, их свойства и интерпретации. Типы функций: непрерывные, разрывные, гладкие. Градиентный спуск. Выпуклые функции и их особое место в оптимизации.
+
Лекция 4. Математический анализ и анализ данных.
  
Лекция 5. Теория вероятностей и анализ данных. Случайные величины. Дискретные и непрерывные распределения, их свойства. Примеры распределений и их важность в анализе данных: биномиальное, пуассоновское, нормальное, экспоненциальное. Характеристики распределений: среднее, медиана, дисперсия, квантили. Их использование при генерации признаков. Центральная предельная теорема.
+
Лекция 5. Теория вероятностей и анализ данных.
  
Лекция 6. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия. Пример использования: анализ текстов и наивный байесовский классификатор. Доверительные интервалы и бутстрэппинг.
+
Лекция 6. Математическая статистика и анализ данных.
  
Лекция 7. Линейная регрессия. Квадратичная функция потерь и предположение о нормальном распределении шума. Метод наименьших квадратов: аналитическое решение и оптимизационный подход. Стохастический градиентный спуск. Тонкости градиентного спуска: размер шага, начальное приближение, нормировка признаков. Проблема переобучения. Регуляризация.
+
Лекция 7. Линейная регрессия.
  
Лекция 8. Линейная классификация. Аппроксимация дискретной функции потерь. Отступ. Примеры аппроксимаций, их особенности. Градиентный спуск, регуляризация. Классификация и оценки принадлежности классам. Кредитный скоринг. Логистическая регрессия: откуда берется такая функция потерь и почему она позволяет предсказывать вероятности. Максимизация зазора как пример регуляризации и устранения неоднозначности решения. Кратко про отбор признаков.
+
Лекция 8. Линейная классификация.
  
Лекция 9. Метрики качества алгоритмов. Регрессия: квадратичные и абсолютные потери, абсолютные логарифмические отклонения. Примеры использования.
+
Лекция 9. Метрики качества алгоритмов.
Классификация: доля верных ответов, ее недостатки. Точность и полнота, их объединение: арифметическое среднее, минимум, гармоническое среднее (F-мера).
+
Оценки принадлежности классам: площади под кривыми, AUC-ROC, AUC-PRC, их свойства.
+
  
Лекция 10. Оценивание качества алгоритмов. Отложенная выборка, ее недостатки. Оценка полного скользящего контроля. Кросс-валидация. Leave-one-out.
+
Лекция 10. Оценивание качества алгоритмов.
Практические особенности кросс-валидации. Стратификация. Потенциальные проблемы с разбиением зависимой или динамической выборки.
+
  
Лекция 11. Логические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений. Жадный алгоритм, основные его параметры.
+
Лекция 11. Логические методы и их интерпретируемость.
  
Лекция 12. Построение деревьев решений. Критерий ветвления. Выбор оптимального разбиения в задачах регрессии. Сложности выбора разбиения в задаче классификации. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев.
+
Лекция 12. Построение деревьев решений.
  
Лекция 13. Введение в композиции алгоритмов. Простейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов.
+
Лекция 13. Введение в композиции алгоритмов. Случайные леса.
Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag.
+
  
Лекция 14. Особенности реальных данных. Неполнота и противоречивость. Шумы и выбросы в данных. Методы поиска выбросов. Пропуски в данных, методы их восстановления. Несбалансированные выборки: проблемы и методы борьбы. Задача отбора признаков, примеры подходов.
+
Лекция 14. Особенности реальных данных.
  
Лекция 15. Анализ частых множеств признаков и ассоциативных правил. Задача анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритм Априори. Меры “интересности правил”.
+
Лекция 15. Анализ частых множеств признаков и ассоциативных правил.
  
Лекция 16. Задача кластеризации. Простые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации.  
+
Лекция 16. Задача кластеризации.
  
Лекция 17. Заключительная лекция. Обзор курса, подведение итогов.
+
Лекция 17. Заключительная лекция.
  
 
[[Category:Майнор "Интеллектуальный анализ данных"]]
 
[[Category:Майнор "Интеллектуальный анализ данных"]]

Версия 14:51, 17 января 2016

Курс "Введение в анализ данных" в майноре "Интеллектуальный анализ данных"

О курсе

В рамках курса «Введение в анализ данных» студенты овладевают базовыми понятиями и методами интеллектуального анализа данных и машинного обучения, учатся применять их в задачах обработки и анализа данных, информационного поиска, а также приобретают практические навыки исследователя данных (data scientist). Практические задания и итоговый проект выполняются с использованием языка Python и инструментов PyData (iPython Notebook, NumPy, Pandas, scikit-learn и др.)

Читается: 3-4 модуль 2 курса, 2015/2016 учебный год.
Пререквизиты: Введение в программирование
Трудоемкость: 5 кредитов

Продолжительность

Всего: 72 аудиторных часа:
Из них:

  • 36 часов лекций
  • 36 часов практических занятий
Формы контроля
  • проверочные работы на семинарах
  • домашние задания
  • проект по анализу данных
  • экзамен

Учебный процесс

Расписание лекций
Пара Группы Преподаватель
2 10.30-11.50 ИАД-11 – ИАД-20 (К-9) Соколов Евгений Андреевич
3 12.10-13.30 ИАД-1 – ИАД-10 (К-9) Игнатов Дмитрий Игоревич
Расписание семинаров
Пара Группа Преподаватель Группа Преподаватель Группа Преподаватель Группа Преподаватель Группа Преподаватель
1 09.00-10.20 ИАД-8 (ауд.4335) Панов ИАД-11 (ауд.3214) Козлова ИАД-13 (ауд.4336) Ромов ИАД-18 (ауд.4427) Гитман, Рысьмятова ИАД-19 (ауд.4428) Квасов, Полякова
1 09.00-10.20 ИАД-20 (ауд.3203) Струминский
2 10.30-10.50 ИАД-4 (ауд.4336) Умнов ИАД-8 (ауд.4335) Панов ИАД-9 (ауд.4427) Папулин ИАД-10 (ауд.4428) Зиннурова
3 12.10-13.30 ИАД-12 (ауд.3214) Козлова ИАД-14 (ауд.4427) Папулин ИАД-15 (ауд.4428) Зиннурова ИАД-16 (ауд.3203) Даулбаев, Чиркова ИАД-17 (ауд.4335) Гитман, Захаров
4 13.40-15.00 ИАД-2 (ауд.4427) Папулин ИАД-3 (ауд.4428) Шестаков ИАД-5 (ауд.3203) Паринов ИАД-6 (ауд.3214) Кашницкий ИАД-7 (ауд.4336) Умнов
5 15.10-16.30 ИАД-1 (ауд.4427) Папулин Кашницкий ИАД-7 (ауд.4336)
Программа лекций

Лекция 1 (12.01.2016). Введение в машинное обучение и анализ данных. [Слайды 1 поток] [Слайды 2 поток]

Лекция 2. Постановки задач в машинном обучении. Примеры прикладных задач.

Лекция 3. Линейная алгебра и анализ данных.

Лекция 4. Математический анализ и анализ данных.

Лекция 5. Теория вероятностей и анализ данных.

Лекция 6. Математическая статистика и анализ данных.

Лекция 7. Линейная регрессия.

Лекция 8. Линейная классификация.

Лекция 9. Метрики качества алгоритмов.

Лекция 10. Оценивание качества алгоритмов.

Лекция 11. Логические методы и их интерпретируемость.

Лекция 12. Построение деревьев решений.

Лекция 13. Введение в композиции алгоритмов. Случайные леса.

Лекция 14. Особенности реальных данных.

Лекция 15. Анализ частых множеств признаков и ассоциативных правил.

Лекция 16. Задача кластеризации.

Лекция 17. Заключительная лекция.