Работа с данными

Темы курса

Содержание разделов дисциплины:

Тема 1. Введение Знакомство с преподавателем и курсом. Мотивирующая часть про анализ данных и ML. Введение в курс (что будем изучать, как оценивать). Краткая информация по пунктам курса. Вводная информация по анализу данных, примеры использования из отрасли. Демонстрация анализа данных на «не очевидном» статистическом примере (можно взять пример про «похудение» и статистическую значимость. Несколько примеров, где отсутствие грамотного анализа приводило к неблагоприятным последствиям (можно рассказать историю о финансировании Билл-Гейтсом маленьких школ и показать на примере опыта «орел-решка» эффект регрессии к среднему).

Тема 2. Статистика. Распределения Вероятность и распределение. Параметры распределения (мода, медиана, среднее, эксцесс, ассиметрия, размах, дисперсия, стандартное отклонение). Вводная информация о основах статистики (распределения, параметры гистограммы (отличие медианы, моды и среднего арифметического), уровень значимости, дисперсия, доверительные интервалы. Примеры анализа статистики на прикладных отраслевых задачах (распределение доходов телезрителей).

Тема 3. Статистика. Доверительные интервалы и проверка гипотез Понятие доверительного интервала. Расчет доверительного интервала и примеры . Проверка гипотез с помощью доверительного интервала. Расчет 3 сигм с примерами.

Тема 4. Проверка гипотез Критерии значимости. Уровень значимости. Критерий Стьюдента, Фишера, Хи квадрат, Мана Уитни. Проверка гипотез с помощью критериев. Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости.

Тема 5. Корреляция и др. способы обработки данных Корреляция, автокорреляция. Спектральная область. Фильтры временных рядов. Фракталы, вейвлеты, свертка.

Тема 6. Основы машинного обучения Что такое ML и где применяется. Задачи классификации, регрессии, кластеризации, ранжирования и прогнозирования временного ряда. Основные алгоритмы ML. 5 Исторических парадигм развития ML. Вводная информация о основах машинного обучения (что это такое, задача классификации, регрессии, кластеризации), основные проблемы и метрики. Примеры использования машинного обучения на прикладных отраслевых задачах (рекомендательные системы). Типы данных. Предобработка данных. Переобучение и регуляризация. Метрики качества (полнота, точность, f1 мера, roc-auc, confusion matrix). Какие алгоритмы для каких задач лучше подходят

Тема 7. Основы работы с данными Каким данным можно доверять? Основные способы манипулирования данными. Когнитивные искажения при интерпретации данных.

Примеры оценочных средств

Задание 14 является блокирующим

Задание 1.

Проведение эксперимента показывающего случайное распределение. Проведение опроса из вопросов о группе (рост, бал ЕГЭ и т.д..)

Задание 2.

Тест на знание основ статистики. Тест из 10 вопросов с 2-4 вариантами ответов.

Задание 3.

Расчет характеристик распределения. Расчет характеристик гистограммы распределения, построение гистограммы распределения на основе данных задания 1.

Задание 4.

Проведение эксперимента зависимости одной величины от другой. Проведение 20 измерений высоты отскока мяча от высоты падения (либо из опроса в группе). (не оцениваемое)

Задание 5.

Расчет доверительного интервала.

Задание 6.

Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости.

Задание 7.

A/B тест. Проверка гипотезы на основе А/B теста.

Задание 8.

Расчет статистик, доверительного интервала и критериев значимости в Excel

Задание 9.

Построение бинарного классификатора. Построение классификатора на основе данных о пассажирах с Титаника (можно заменить на отраслевую задачу).

Задание 10.

Решение задачи регрессии. Построение модели предсказания стоимости авто (фильма, книги…).

Задание 11.

Решение задачи кластеризации. Кластеризация данных на основе задачи «Ирисы» (сегментация клиентской базы) (не оцениваемое)

Задание 12.

Решение задачи подбора оптимального алгоритма классификации/регрессии. Подбор оптимального алгоритма для решения задачи классификации/регрессии. (в формате соревнования, победитель получит дополнительные баллы)

Задание 13.

Тест по итогам пройденной темы. Тест из 10 вопросов по пройденному материалу.

Задание 14.

Самостоятельный анализ набора данных с площадки Kaggle, на основе полученных знаний. Результат – презентация в формате «история» с изложением проделанной работы и выводов полученных из данных.

Критерии оценивания

Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале. При оценивании заданий преподаватель опирается на следующие критерии:

Задания 1-13 оцениваются по правилу:

Правильно выполнен расчет -10% оценки.
Факт выполнения задания – 50% оценки.
Ответ на дополнительные вопросы преподавателя и демонстрация понимания материала – 40% оценки.

Оценка за задание 14 ставится по следующим правилам:

Выполнен анализ набора данных с только расчетом описательных статистик и представлены выводы в виде презентации либо эссе – 5 баллов.
Выполнен анализ набора данных с только расчетом описательных статистик, доверительных интервалов или корреляции и представлены выводы в виде презентации либо эссе – 6-7 баллов.
Выполнен анализ набора данных с только расчетом описательных статистик, доверительных интервалов или корреляции, проверена минимум 1 гипотеза с применением статистических критериев и представлены выводы в виде презентации либо эссе – 7-8 баллов.
Выполнен анализ набора данных с только расчетом описательных статистик, доверительных интервалов или корреляции, проверена минимум 1 гипотеза с применением статистических критериев, построена предсказательная модель на основе алгоритма машинного обучения и представлены выводы в виде презентации либо эссе – 8-10 баллов.
На оценку может влиять правильность расчета, глубина вывода и общее понимание выполненных действий.
Так как модуль «Работа с данными» является частью дисциплины «Проектный семинар», в диплом выставляется средняя арифметическая оценка за все четыре года Проектного семинара.

Итоговая оценка за курс

Итоговая оценка за курс расчитывается по следующей формуле:

O_итог = 0.1 * O_тест + 0.45 * О_{Раздел 1} + 0.25 * О_{Раздел 2} + 0.2 * O_{задание14}, где

O_тест - оценка за финальный тест
О_{Раздел 1} - средняя арифметическая оценка за задания 1-9
О_{Раздел 2} - средняя арифметическая оценка за задания 10–18
О_{задание14} - оценка за задание 14

Способ округления оценки за модуль — арифметический. Округление производится после выполнения всех вычислений внутри формулы, т.е. после умножения оценки за определенный вид деятельности на коэффициент она не округляется. Округляется только итоговая оценка.

Полезные материалы

Дарелл Хафф. Как лгать при помощи статистики — М.: Альпина Паблишер, 2015.
Miroslav Kubat. An Introduction to Machine Learning. Springer, 2015.
Gordon S. Linoff and Michael J.A. Berry Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, Third Edition. John Wiley & Sons, 2011.
Mohammed, Mohssen Khan, Muhammad Badruddin Bashier, Eihab Bashier Mohammed. Machine Learning: Algorithms and Applications. Auerbach Publications, 2017.
Джафаров, К.А. Теория вероятностей и математическая статистика : учебное пособие / К.А. Джафаров ; Министерство образования и науки Российской Федерации, Новосибирский государственный технический университет. - Новосибирск : НГТУ, 2015.
Elements of Statistical Learning: Data Mining, Inference, and Prediction (Springer series in statistics) Hastie, Trevor Tibshirani, Robert Friedman, J. H Penn, 2009.
https://www.coursera.org/learn/stats-for-data-analysis
https://studio.azureml.net
https://www.gnu.org/software/pspp/
https://docs.microsoft.com/ru-ru/power-bi/guided-learning/
http://lib.alpinadigital.ru/
https://library.books24x7.com
http://biblioclub.ru