Майнор Интеллектуальный анализ данных/Введение в анализ данных — различия между версиями

Версия 14:51, 17 января 2016

Содержание

1 Курс "Введение в анализ данных" в майноре "Интеллектуальный анализ данных"
- 1.1 О курсе
  - 1.1.1 Продолжительность
  - 1.1.2 Формы контроля
- 1.2 Учебный процесс

Курс "Введение в анализ данных" в майноре "Интеллектуальный анализ данных"

О курсе

В рамках курса «Введение в анализ данных» студенты овладевают базовыми понятиями и методами интеллектуального анализа данных и машинного обучения, учатся применять их в задачах обработки и анализа данных, информационного поиска, а также приобретают практические навыки исследователя данных (data scientist). Практические задания и итоговый проект выполняются с использованием языка Python и инструментов PyData (iPython Notebook, NumPy, Pandas, scikit-learn и др.)

Читается: 3-4 модуль 2 курса, 2015/2016 учебный год.
Пререквизиты: Введение в программирование
Трудоемкость: 5 кредитов

Продолжительность

Всего: 72 аудиторных часа:
Из них:

36 часов лекций
36 часов практических занятий

Формы контроля

проверочные работы на семинарах
домашние задания
проект по анализу данных
экзамен

Учебный процесс

Расписание лекций

Пара	Группы	Преподаватель
2 10.30-11.50	ИАД-11 – ИАД-20 (К-9)	Соколов Евгений Андреевич
3 12.10-13.30	ИАД-1 – ИАД-10 (К-9)	Игнатов Дмитрий Игоревич

Расписание семинаров

Пара	Группа	Преподаватель	Группа	Преподаватель	Группа	Преподаватель	Группа	Преподаватель	Группа	Преподаватель
1 09.00-10.20	ИАД-8 (ауд.4335)	Панов	ИАД-11 (ауд.3214)	Козлова	ИАД-13 (ауд.4336)	Ромов	ИАД-18 (ауд.4427)	Гитман, Рысьмятова	ИАД-19 (ауд.4428)	Квасов, Полякова
1 09.00-10.20	ИАД-20 (ауд.3203)	Струминский
2 10.30-10.50	ИАД-4 (ауд.4336)	Умнов	ИАД-8 (ауд.4335)	Панов	ИАД-9 (ауд.4427)	Папулин	ИАД-10 (ауд.4428)	Зиннурова
3 12.10-13.30	ИАД-12 (ауд.3214)	Козлова	ИАД-14 (ауд.4427)	Папулин	ИАД-15 (ауд.4428)	Зиннурова	ИАД-16 (ауд.3203)	Даулбаев, Чиркова	ИАД-17 (ауд.4335)	Гитман, Захаров
4 13.40-15.00	ИАД-2 (ауд.4427)	Папулин	ИАД-3 (ауд.4428)	Шестаков	ИАД-5 (ауд.3203)	Паринов	ИАД-6 (ауд.3214)	Кашницкий	ИАД-7 (ауд.4336)	Умнов
5 15.10-16.30	ИАД-1 (ауд.4427)	Папулин	Кашницкий	ИАД-7 (ауд.4336)

Программа лекций

Лекция 1 (12.01.2016). Введение в машинное обучение и анализ данных. [Слайды 1 поток] [Слайды 2 поток]

Лекция 2. Постановки задач в машинном обучении. Примеры прикладных задач.

Лекция 3. Линейная алгебра и анализ данных.

Лекция 4. Математический анализ и анализ данных.

Лекция 5. Теория вероятностей и анализ данных.

Лекция 6. Математическая статистика и анализ данных.

Лекция 7. Линейная регрессия.

Лекция 8. Линейная классификация.

Лекция 9. Метрики качества алгоритмов.

Лекция 10. Оценивание качества алгоритмов.

Лекция 11. Логические методы и их интерпретируемость.

Лекция 12. Построение деревьев решений.

Лекция 13. Введение в композиции алгоритмов. Случайные леса.

Лекция 14. Особенности реальных данных.

Лекция 15. Анализ частых множеств признаков и ассоциативных правил.

Лекция 16. Задача кластеризации.

Лекция 17. Заключительная лекция.

@@ Строка 52: / Строка 52: @@
 =====Программа лекций=====
-Лекция 1 (12.01.2016). Введение в машинное обучение и анализ данных. Анализ данных в различных прикладных областях. Основные определения. Этапы анализа данных. Обзор курса. [Слайды 1 поток] [Слайды 2 поток]
+Лекция 1 (12.01.2016). Введение в машинное обучение и анализ данных. [Слайды 1 поток] [Слайды 2 поток]
-Лекция 2. Постановки задач в машинном обучении. Примеры прикладных задач и их типы: классификация, регрессия, ранжирование, кластеризация, поиск структуры в данных. Типы признаков и целевой переменной. Почему анализ данных — это не просто задача восстановления функции по N точкам: задачи предобработки данных, выбора метрики, проверки качества модели.
+Лекция 2. Постановки задач в машинном обучении. Примеры прикладных задач.
-Лекция 3. Линейная алгебра и анализ данных. Линейные пространства, их примеры из машинного обучения. Коллинеарность и линейная независимость. Скалярное произведение, косинус угла, примеры их применения. Векторы и матрицы, операции над ними. Матричное умножение. Системы линейных уравнений. Обратная матрица.
+Лекция 3. Линейная алгебра и анализ данных.
-Лекция 4. Математический анализ и анализ данных. Производная и градиент, их свойства и интерпретации. Типы функций: непрерывные, разрывные, гладкие. Градиентный спуск. Выпуклые функции и их особое место в оптимизации.
+Лекция 4. Математический анализ и анализ данных.
-Лекция 5. Теория вероятностей и анализ данных. Случайные величины. Дискретные и непрерывные распределения, их свойства. Примеры распределений и их важность в анализе данных: биномиальное, пуассоновское, нормальное, экспоненциальное. Характеристики распределений: среднее, медиана, дисперсия, квантили. Их использование при генерации признаков. Центральная предельная теорема.
+Лекция 5. Теория вероятностей и анализ данных.
-Лекция 6. Математическая статистика и анализ данных. Оценивание параметров распределений. Метод максимального правдоподобия. Пример использования: анализ текстов и наивный байесовский классификатор. Доверительные интервалы и бутстрэппинг.
+Лекция 6. Математическая статистика и анализ данных.
-Лекция 7. Линейная регрессия. Квадратичная функция потерь и предположение о нормальном распределении шума. Метод наименьших квадратов: аналитическое решение и оптимизационный подход. Стохастический градиентный спуск. Тонкости градиентного спуска: размер шага, начальное приближение, нормировка признаков. Проблема переобучения. Регуляризация.
+Лекция 7. Линейная регрессия.
-Лекция 8. Линейная классификация. Аппроксимация дискретной функции потерь. Отступ. Примеры аппроксимаций, их особенности. Градиентный спуск, регуляризация. Классификация и оценки принадлежности классам. Кредитный скоринг. Логистическая регрессия: откуда берется такая функция потерь и почему она позволяет предсказывать вероятности. Максимизация зазора как пример регуляризации и устранения неоднозначности решения. Кратко про отбор признаков.
+Лекция 8. Линейная классификация.
-Лекция 9. Метрики качества алгоритмов. Регрессия: квадратичные и абсолютные потери, абсолютные логарифмические отклонения. Примеры использования.
+Лекция 9. Метрики качества алгоритмов.
-Классификация: доля верных ответов, ее недостатки. Точность и полнота, их объединение: арифметическое среднее, минимум, гармоническое среднее (F-мера).
-Оценки принадлежности классам: площади под кривыми, AUC-ROC, AUC-PRC, их свойства.
-Лекция 10. Оценивание качества алгоритмов. Отложенная выборка, ее недостатки. Оценка полного скользящего контроля. Кросс-валидация. Leave-one-out.
+Лекция 10. Оценивание качества алгоритмов.
-Практические особенности кросс-валидации. Стратификация. Потенциальные проблемы с разбиением зависимой или динамической выборки.
-Лекция 11. Логические методы и их интерпретируемость. Простейший пример: список решений. Пример решающего списка для задачи фильтрации нежелательных сообщений. Деревья решений. Проблема построения оптимального дерева решений. Жадный алгоритм, основные его параметры.
+Лекция 11. Логические методы и их интерпретируемость.
-Лекция 12. Построение деревьев решений. Критерий ветвления. Выбор оптимального разбиения в задачах регрессии. Сложности выбора разбиения в задаче классификации. Примеры критериев: энтропийный (прирост информации), Джини и их модификации. Критерии завершения построения. Регуляризация и стрижка деревьев.
+Лекция 12. Построение деревьев решений.
-Лекция 13. Введение в композиции алгоритмов. Простейший пример: уменьшение дисперсии при усреднении алгоритмов методом бутстреп. Блендинг алгоритмов.
+Лекция 13. Введение в композиции алгоритмов. Случайные леса.
-Понятие смещения и разброса (иллюстрация на примере линейных методов и решающих деревьев). Уменьшение разброса с помощью усреднения. Случайный лес. Оценка out-of-bag.
-Лекция 14. Особенности реальных данных. Неполнота и противоречивость. Шумы и выбросы в данных. Методы поиска выбросов. Пропуски в данных, методы их восстановления. Несбалансированные выборки: проблемы и методы борьбы. Задача отбора признаков, примеры подходов.
+Лекция 14. Особенности реальных данных.
-Лекция 15. Анализ частых множеств признаков и ассоциативных правил. Задача анализа потребительской корзины. Поддержка и достоверность. Частые, замкнутые и максимальные частые множества. Алгоритм Априори. Меры “интересности правил”.
+Лекция 15. Анализ частых множеств признаков и ассоциативных правил.
-Лекция 16. Задача кластеризации. Простые эвристические подходы. Алгоритм K-Means. Проблема устойчивости результатов и важность грамотной инициализации, алгоритм K-Means++. Выбор числа кластеров. Оценка качества кластеризации.
+Лекция 16. Задача кластеризации.
-Лекция 17. Заключительная лекция. Обзор курса, подведение итогов.
+Лекция 17. Заключительная лекция.
 [[Category:Майнор "Интеллектуальный анализ данных"]]

Майнор Интеллектуальный анализ данных/Введение в анализ данных — различия между версиями

Версия 14:51, 17 января 2016

Содержание

Курс "Введение в анализ данных" в майноре "Интеллектуальный анализ данных"

О курсе

Продолжительность

Формы контроля

Учебный процесс

Расписание лекций

Расписание семинаров

Программа лекций

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты