Основы работы с данными
Содержание
- 1 Темы курса
- 2 Проверочные задания
- 2.1 Задание 1. Тест на знание основ статистики
- 2.2 Задание 2. Проведение эксперимента показывающего случайное распределение
- 2.3 Задание 3. Расчет характеристик распределения
- 2.4 Задание 4. Проведение эксперимента зависимости одной величины от другой
- 2.5 Задание 5. Расчет доверительного интервала
- 2.6 Задание 6. Расчет уровня значимости
- 2.7 Задание 7. A/B тест
- 2.8 Задание 8. Тест по итогам пройденной темы
- 2.9 Задание 9. Выполнение расчета статистик в MS Studia ML или RapidMiner
- 2.10 Задание 10. Тест на знание основ ML
- 2.11 Задание 11. Построение бинарного классификатора
- 2.12 Задание 12. Решение задачи регрессии
- 2.13 Задание 13. Решение задачи кластеризации
- 2.14 Задание 14. Решение задачи прогнозирования временного ряда
- 2.15 Задание 15. Решение задачи поиска аномалий
- 2.16 Задание 16. Решение задачи подбора оптимального алгоритма классификации
- 2.17 Задание 17. Тест по итогам пройденной темы
- 2.18 Задание 18. Подбор оптимальных параметров алгоритма
- 3 Критерии оценивания
- 4 Полезные материалы
Темы курса
Обработка данных, статистика, проверка гипотез
Тема 1 Введение в курс. Вводная информация по анализу данных, примеры использования из отрасли. Демонстрация анализа данных на «неочевидном» статистическом примере (можно взять пример про «похудение» и статистическую значимость. Несколько примеров, где отсутствие грамотного анализа приводило к неблагоприятным последствиям (можно рассказать историю о финансировании Билл-Гейтсом маленьких школ и показать на примере опыта «орел-решка» эффект регрессии к среднему).
Тема 2 Вводная информация о основах статистики (распределения, параметры гистограммы (отличие медианы, моды и среднего арифметического), уровень значимости, дисперсия, доверительные интервалы. Примеры анализа статистики на прикладных отраслевых задачах (распределение доходов телезрителей).
Тема 3 Тест и расчет эксперимента. Тест на знание основ статистики. Расчет характеристик распределения. Расчет характеристик гистограммы распределения, построение гистограммы распределения.
Тема 4 Искажения статистических данных. Основные приемы манипулирования данными (см. книги «Статистика и Котики» и «Как лгать при помощи статистики». Интерактивная игра: найди манипуляцию. Интерактивная игра: «обмани друга».
Тема 5 Теория проведения эксперимента. Проведение эксперимента зависимости одной величины от другой. Проведение 20 измерений высоты отскока мяча от высоты падения. Расчет доверительного интервала. Расчет доверительного интервала. Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости.
Тема 6 Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости. A/B тест. Проверка гипотезы на основе А/B теста.
Тема 7 Программные средства расчета статистик. Тест по итогам пройденной темы. Выполнение расчета статистик в MS Studia ML или RapidMiner. Освоение программных средств для расчета статистических параметров.
Основы машинного обучения
Тема 8 Основы машинного обучения (что это такое, задача классификации, регрессии, кластеризации), основные проблемы и метрики. Примеры использования машинного обучения на прикладных отраслевых задачах (рекомендательные системы).
Тема 9 Виды данных, отличие характеристик и целевой функции, пред. обработка данных. Метрики качества, ошибки первого и второго рода. Тест на знание основ ML.
Тема 10 Знакомство с MS AZURE. Построение бинарного классификатора.
Тема 11 Знакомство с MS AZURE. Решение задачи регрессии. Построение модели предсказания.
Тема 12 Решение задачи кластеризации. Кластеризация данных на основе задачи «Ирисы» (сегментация клиентской базы).
Тема 13 Решение задачи поиска аномалий. Поиск аномалий для задачи кредитного скоринга. Решение задачи прогнозирования временного ряда. Прогнозирование временного ряда.
Тема 14 Решение задачи подбора оптимального алгоритма классификации. Подбор оптимального алгоритма для решения задачи классификации. (в формате соревнования, победитель получит дополнительные баллы).
Тема 15 Тест по итогам пройденной темы. Подбор оптимальных параметров алгоритма. Подбор оптимальных параметров алгоритма для решения задачи классификации.
Тема 16 Дополнительное задание (найти набор данных из отрасли и либо рассчитать достоверность гипотезы, либо построить прогностический алгоритм). Начисление экстра баллов за задание.
Работа в Power BI и SPSS
Тема 17 Что такое BI и как это используется в медиа. Как правильно собирать данные для бизнес анализа, как определить бизнес-метрики. Как поставить задачу для сбора данных: введение в базы данных. Тезаурус бизнес-аналитика: от аффинити до конверсий. Инструменты, которые используются для BI: GA, Tableu, Power BI. Визуализация бизнес дата-сета.
Проверочные задания
Задание 1. Тест на знание основ статистики
Тест из 10 вопросов с 2-4 вариантами ответов.
Задание 2. Проведение эксперимента показывающего случайное распределение
Проведение 100 измерений высоты отскока мяча.
Задание 3. Расчет характеристик распределения
Расчет характеристик гистограммы распределения, построение гистограммы распределения.
Задание 4. Проведение эксперимента зависимости одной величины от другой
Проведение 20 измерений высоты отскока мяча от высоты падения.
Задание 5. Расчет доверительного интервала
Расчет доверительного интервала.
Задание 6. Расчет уровня значимости
Проверка истинности гипотезы для p уровня значимости.
Задание 7. A/B тест
Проверка гипотезы на основе А/B теста.
Задание 8. Тест по итогам пройденной темы
Тест из 10 вопросов с 2-4 вариантами ответов.
Задание 9. Выполнение расчета статистик в MS Studia ML или RapidMiner
Освоение программных средств для расчета статистических параметров.
Задание 10. Тест на знание основ ML
Тест из 10 вопросов по пройденному материалу.
Задание 11. Построение бинарного классификатора
Построение классификатора на основе данных о пассажирах с Титаника.
Задание 12. Решение задачи регрессии
Построение модели предсказания стоимости авто.
Задание 13. Решение задачи кластеризации
Кластеризация данных на основе задачи «Ирисы»
Задание 14. Решение задачи прогнозирования временного ряда
Прогнозирование временного ряда.
Задание 15. Решение задачи поиска аномалий
Поиск аномалий для задачи кредитного скоринга.
Задание 16. Решение задачи подбора оптимального алгоритма классификации
Подбор оптимального алгоритма для решения задачи классификации.
Задание 17. Тест по итогам пройденной темы
Тест из 10 вопросов по пройденному материалу.
Задание 18. Подбор оптимальных параметров алгоритма
Подбор оптимальных параметров алгоритма для решения задачи классификации.
Критерии оценивания
Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале. При оценивании заданий преподаватель опирается на следующие критерии:
Раздел 1 (задания с 1 по 9)
Задания 1,8
- Количество правильных ответов
Задание 2–7, 9
- Факт выполнения
- Правильность расчета
- Понимание производимых действий
Раздел 2 (задания с 10 по 18)
Задания 10, 17
- Количество правильных ответов
Задание 11–16, 18
- Факт выполнения
- Правильность расчета
- Понимание производимых действий
Итоговая оценка за курс
Итоговая оценка за курс расчитывается по следующей формуле:
Oитог = 0.1 * Oп + 0.45 * ОРаздел 1 + 0.45 * ОРаздел 2, где
- Oп - оценка за посещаемость
- ОРаздел 1 - средняя арифметическая оценка за задания 1-9
- ОРаздел 2 - средняя арифметическая оценка за задания 10–18
Способ округления оценки за раздел — арифметический. Округление производится после выполнения всех вычислений внутри формулы, т.е. после умножения оценки за определенный вид деятельности на коэффициент она не округляется. Округляется только итоговая оценка.
Полезные материалы
- Статистика и котики»: АСТ; Москва; 2018
- Курс «Построение выводов по данным»
- Дарелл Хафф. Как лгать при помощи статистики — М.: Альпина Паблишер, 2015.
- Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. Петер Фалех.
- Искусственный интеллект. Современный подход.Стюарт Рассел, Питер Норвиг.
- Математические основы машинного обучения и прогнозирования. Владимир Вьюгин.
- The Elements of Statistical Learning. The Elements of Statistical Learning. 2003
- NTRODUCTION TO MACHINE LEARNING. Nils J. Nilsson. 1998
- I Heart Logs: Event Data, Stream Processing, and Data Integration. Jay Kreps. 2014
- https://studio.azureml.net
- https://www.gnu.org/software/pspp/
- https://docs.microsoft.com/ru-ru/power-bi/guided-learning/