Основы работы с данными — различия между версиями
Строка 39: | Строка 39: | ||
==Проверочные задания == | ==Проверочные задания == | ||
===Тест на знание основ статистики=== | ===Тест на знание основ статистики=== | ||
− | Тест из 10 вопросов | + | Тест из 10 вопросов с 2-4 вариантами ответов. |
===Проведение эксперимента показывающего случайное распределение=== | ===Проведение эксперимента показывающего случайное распределение=== | ||
− | Проведение | + | Проведение 100 измерений высоты отскока мяча. |
===Расчет характеристик распределения=== | ===Расчет характеристик распределения=== | ||
− | Расчет | + | Расчет характеристик гистограммы распределения, построение гистограммы распределения. |
===Проведение эксперимента зависимости одной величины от другой=== | ===Проведение эксперимента зависимости одной величины от другой=== | ||
− | Проведение | + | Проведение 20 измерений высоты отскока мяча от высоты падения. |
===Расчет доверительного интервала=== | ===Расчет доверительного интервала=== | ||
Расчет доверительного интервала. | Расчет доверительного интервала. | ||
===Расчет уровня значимости=== | ===Расчет уровня значимости=== | ||
− | + | Проверка истинности гипотезы для p уровня значимости. | |
===A/B тест=== | ===A/B тест=== | ||
− | + | Проверка гипотезы на основе А/B теста. | |
===Тест по итогам пройденной темы=== | ===Тест по итогам пройденной темы=== | ||
Тест из 10 вопросов с 2-4 вариантами ответов. | Тест из 10 вопросов с 2-4 вариантами ответов. | ||
− | ===Выполнение расчета статистик в MS Studia ML=== | + | ===Выполнение расчета статистик в MS Studia ML или RapidMiner=== |
− | + | Освоение программных средств для расчета статистических параметров. | |
===Тест на знание основ ML=== | ===Тест на знание основ ML=== | ||
Тест из 10 вопросов по пройденному материалу. | Тест из 10 вопросов по пройденному материалу. | ||
===Построение бинарного классификатора=== | ===Построение бинарного классификатора=== | ||
− | + | Построение классификатора на основе данных о пассажирах с Титаника. | |
===Решение задачи регрессии=== | ===Решение задачи регрессии=== | ||
− | + | Построение модели предсказания стоимости авто. | |
===Решение задачи кластеризации=== | ===Решение задачи кластеризации=== | ||
− | + | Кластеризация данных на основе задачи «Ирисы» | |
===Решение задачи прогнозирования временного ряда=== | ===Решение задачи прогнозирования временного ряда=== | ||
− | + | Прогнозирование временного ряда. | |
− | ===Решение задачи | + | ===Решение задачи поиска аномалий=== |
− | + | Поиск аномалий для задачи кредитного скоринга. | |
===Решение задачи подбора оптимального алгоритма классификации=== | ===Решение задачи подбора оптимального алгоритма классификации=== | ||
− | + | Подбор оптимального алгоритма для решения задачи классификации. | |
===Тест по итогам пройденной темы=== | ===Тест по итогам пройденной темы=== | ||
− | Тест из 10 вопросов | + | Тест из 10 вопросов по пройденному материалу. |
===Подбор оптимальных параметров алгоритма=== | ===Подбор оптимальных параметров алгоритма=== | ||
− | + | Подбор оптимальных параметров алгоритма для решения задачи классификации. | |
Версия 22:41, 4 апреля 2019
Содержание
- 1 Темы курса
- 2 Проверочные задания
- 2.1 Тест на знание основ статистики
- 2.2 Проведение эксперимента показывающего случайное распределение
- 2.3 Расчет характеристик распределения
- 2.4 Проведение эксперимента зависимости одной величины от другой
- 2.5 Расчет доверительного интервала
- 2.6 Расчет уровня значимости
- 2.7 A/B тест
- 2.8 Тест по итогам пройденной темы
- 2.9 Выполнение расчета статистик в MS Studia ML или RapidMiner
- 2.10 Тест на знание основ ML
- 2.11 Построение бинарного классификатора
- 2.12 Решение задачи регрессии
- 2.13 Решение задачи кластеризации
- 2.14 Решение задачи прогнозирования временного ряда
- 2.15 Решение задачи поиска аномалий
- 2.16 Решение задачи подбора оптимального алгоритма классификации
- 2.17 Тест по итогам пройденной темы
- 2.18 Подбор оптимальных параметров алгоритма
- 3 Полезные материалы
Темы курса
Обработка данных, статистика, проверка гипотез
Тема 1
Введение в курс. Вводная информация по анализу данных, примеры использования из отрасли. Демонстрация анализа данных на «неочевидном» статистическом примере (можно взять пример про «похудение» и статистическую значимость. Несколько примеров, где отсутствие грамотного анализа приводило к неблагоприятным последствиям (можно рассказать историю о финансировании Билл-Гейтсом маленьких школ и показать на примере опыта «орел-решка» эффект регрессии к среднему).
Тема 2
Вводная информация о основах статистики (распределения, параметры гистограммы (отличие медианы, моды и среднего арифметического), уровень значимости, дисперсия, доверительные интервалы. Примеры анализа статистики на прикладных отраслевых задачах (распределение доходов телезрителей).
Тема 3
Тест и расчет эксперимента. Тест на знание основ статистики. Расчет характеристик распределения. Расчет характеристик гистограммы распределения, построение гистограммы распределения.
Тема 4
Искажения статистических данных. Основные приемы манипулирования данными (см. книги «Статистика и Котики» и «Как лгать при помощи статистики». Интерактивная игра: найди манипуляцию. Интерактивная игра: «обмани друга».
Тема 5
Теория проведения эксперимента. Проведение эксперимента зависимости одной величины от другой. Проведение 20 измерений высоты отскока мяча от высоты падения. Расчет доверительного интервала. Расчет доверительного интервала. Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости.
Тема 6
Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости. A/B тест. Проверка гипотезы на основе А/B теста.
Тема 7
Программные средства расчета статистик. Тест по итогам пройденной темы. Выполнение расчета статистик в MS Studia ML или RapidMiner. Освоение программных средств для расчета статистических параметров.
Основы машинного обучения
Тема 8
Основы машинного обучения (что это такое, задача классификации, регрессии, кластеризации), основные проблемы и метрики. Примеры использования машинного обучения на прикладных отраслевых задачах (рекомендательные системы).
Тема 9
Виды данных, отличие характеристик и целевой функции, пред. обработка данных. Метрики качества, ошибки первого и второго рода. Тест на знание основ ML.
Тема 10
Знакомство с MS AZURE. Построение бинарного классификатора.
Тема 11
Знакомство с MS AZURE. Решение задачи регрессии. Построение модели предсказания.
Тема 12
Решение задачи кластеризации. Кластеризация данных на основе задачи «Ирисы» (сегментация клиентской базы).
Тема 13
Решение задачи поиска аномалий. Поиск аномалий для задачи кредитного скоринга. Решение задачи прогнозирования временного ряда. Прогнозирование временного ряда.
Тема 14
Решение задачи подбора оптимального алгоритма классификации. Подбор оптимального алгоритма для решения задачи классификации. (в формате соревнования, победитель получит дополнительные баллы).
Тема 15
Тест по итогам пройденной темы. Подбор оптимальных параметров алгоритма. Подбор оптимальных параметров алгоритма для решения задачи классификации.
Тема 16
Дополнительное задание (найти набор данных из отрасли и либо рассчитать достоверность гипотезы, либо построить прогностический алгоритм). Начисление экстра баллов за задание.
Работа в Power BI и SPSS
Тема 17
Что такое BI и как это используется в медиа. Как правильно собирать данные для бизнес анализа, как определить бизнес-метрики. Как поставить задачу для сбора данных: введение в базы данных. Тезаурус бизнес-аналитика: от аффинити до конверсий. Инструменты, которые используются для BI: GA, Tableu, Power BI. Визуализация бизнес дата-сета.
Проверочные задания
Тест на знание основ статистики
Тест из 10 вопросов с 2-4 вариантами ответов.
Проведение эксперимента показывающего случайное распределение
Проведение 100 измерений высоты отскока мяча.
Расчет характеристик распределения
Расчет характеристик гистограммы распределения, построение гистограммы распределения.
Проведение эксперимента зависимости одной величины от другой
Проведение 20 измерений высоты отскока мяча от высоты падения.
Расчет доверительного интервала
Расчет доверительного интервала.
Расчет уровня значимости
Проверка истинности гипотезы для p уровня значимости.
A/B тест
Проверка гипотезы на основе А/B теста.
Тест по итогам пройденной темы
Тест из 10 вопросов с 2-4 вариантами ответов.
Выполнение расчета статистик в MS Studia ML или RapidMiner
Освоение программных средств для расчета статистических параметров.
Тест на знание основ ML
Тест из 10 вопросов по пройденному материалу.
Построение бинарного классификатора
Построение классификатора на основе данных о пассажирах с Титаника.
Решение задачи регрессии
Построение модели предсказания стоимости авто.
Решение задачи кластеризации
Кластеризация данных на основе задачи «Ирисы»
Решение задачи прогнозирования временного ряда
Прогнозирование временного ряда.
Решение задачи поиска аномалий
Поиск аномалий для задачи кредитного скоринга.
Решение задачи подбора оптимального алгоритма классификации
Подбор оптимального алгоритма для решения задачи классификации.
Тест по итогам пройденной темы
Тест из 10 вопросов по пройденному материалу.
Подбор оптимальных параметров алгоритма
Подбор оптимальных параметров алгоритма для решения задачи классификации.
Итоговая оценка за курс
Итоговая оценка за курс расчитывается по следующей формуле:
Oитог = 0.1 * Oп + 0.45 * ОРаздел 1 + 0.45 * ОРаздел 2, где
- Oп - оценка за посещаемость
- ОРаздел 1 - средняя арифметическая оценка за задания 1-9
- ОРаздел 2 - средняя арифметическая оценка за задания 10–18
Способ округления оценки за раздел — арифметический. Округление производится после выполнения всех вычислений внутри формулы, т.е. после умножения оценки за определенный вид деятельности на коэффициент она не округляется. Округляется только итоговая оценка.
Полезные материалы
- Статистика и котики»: АСТ; Москва; 2018
- Курс «Построение выводов по данным»
- Дарелл Хафф. Как лгать при помощи статистики — М.: Альпина Паблишер, 2015.
- Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. Петер Фалех.
- Искусственный интеллект. Современный подход.Стюарт Рассел, Питер Норвиг.
- Математические основы машинного обучения и прогнозирования. Владимир Вьюгин.
- The Elements of Statistical Learning. The Elements of Statistical Learning. 2003
- NTRODUCTION TO MACHINE LEARNING. Nils J. Nilsson. 1998
- I Heart Logs: Event Data, Stream Processing, and Data Integration. Jay Kreps. 2014
- https://studio.azureml.net
- https://www.gnu.org/software/pspp/
- https://docs.microsoft.com/ru-ru/power-bi/guided-learning/