Работа с данными

Материал из Wiki - Факультет компьютерных наук
Версия от 14:47, 30 августа 2019; Psfedorov (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Содержание

Темы курса

Обработка данных, статистика, проверка гипотез

Тема 1. Введение  Знакомство с преподавателем и курсом. Мотивирующая часть про анализ данных и ML. Введение в курс (что будем изучать, как оценивать). Краткая информация по пунктам курса. Вводная информация по анализу данных, примеры использования из отрасли. Демонстрация анализа данных на «не очевидном» статистическом примере (можно взять пример про «похудение» и статистическую значимость. Несколько примеров, где отсутствие грамотного анализа приводило к неблагоприятным последствиям (можно рассказать историю о финансировании Билл-Гейтсом маленьких школ и показать на примере опыта «орел-решка» эффект регрессии к среднему).

Тема 2. Статистика. Распределения  Вероятность и распределение. Параметры распределения (мода, медиана, среднее, эксцесс, ассиметрия, размах, дисперсия, стандартное отклонение). Вводная информация о основах статистики (распределения, параметры гистограммы (отличие медианы, моды и среднего арифметического), уровень значимости, дисперсия, доверительные интервалы. Примеры анализа статистики на прикладных отраслевых задачах (распределение доходов телезрителей).

Тема 3. Статистика. Доверительные интервалы и проверка гипотез  Понятие доверительного интервала. Расчет доверительного интервала и примеры . Проверка гипотез с помощью доверительного интервала. Расчет 3 сигм с примерами.

Тема 4. Проверка гипотез  Критерии значимости. Уровень значимости. Критерий Стьюдента, Фишера, Хи квадрат, Мана Уитни. Проверка гипотез с помощью критериев. Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости.

Тема 5. Корреляция и др. способы обработки данных  Корреляция, автокорреляция. Спектральная область. Фильтры временных рядов. Фракталы, вейвлеты, свертка.

Тема 6. Основы машинного обучения  Что такое ML и где применяется. Задачи классификации, регрессии, кластеризации, ранжирования и прогнозирования временного ряда. Основные алгоритмы ML. 5 Исторических парадигм развития ML. Вводная информация о основах машинного обучения (что это такое, задача классификации, регрессии, кластеризации), основные проблемы и метрики. Примеры использования машинного обучения на прикладных отраслевых задачах (рекомендательные системы). Типы данных. Предобработка данных. Переобучение и регуляризация. Метрики качества (полнота, точность, f1 мера, roc-auc, confusion matrix). Какие алгоритмы для каких задач лучше подходят

Тема 7. Основы работы с данными  Каким данным можно доверять? Основные способы манипулирования данными. Когнитивные искажения при интерпретации данных.

Проверочные задания

Задание 1. Тест на знание основ статистики

Тест из 10 вопросов с 2-4 вариантами ответов.

Задание 2. Проведение эксперимента показывающего случайное распределение

Проведение 100 измерений высоты отскока мяча.

Задание 3. Расчет характеристик распределения

Расчет характеристик гистограммы распределения, построение гистограммы распределения.

Задание 4. Проведение эксперимента зависимости одной величины от другой

Проведение 20 измерений высоты отскока мяча от высоты падения.

Задание 5. Расчет доверительного интервала

Расчет доверительного интервала.

Задание 6. Расчет уровня значимости

Проверка истинности гипотезы для p уровня значимости.

Задание 7. A/B тест

Проверка гипотезы на основе А/B теста.

Задание 8. Тест по итогам пройденной темы

Тест из 10 вопросов с 2-4 вариантами ответов.

Задание 9. Выполнение расчета статистик в MS Studia ML или RapidMiner

Освоение программных средств для расчета статистических параметров.

Задание 10. Тест на знание основ ML

Тест из 10 вопросов по пройденному материалу.

Задание 11. Построение бинарного классификатора

Построение классификатора на основе данных о пассажирах с Титаника.

Задание 12. Решение задачи регрессии

Построение модели предсказания стоимости авто.

Задание 13. Решение задачи кластеризации

Кластеризация данных на основе задачи «Ирисы»

Задание 14. Решение задачи прогнозирования временного ряда

Прогнозирование временного ряда.

Задание 15. Решение задачи поиска аномалий

Поиск аномалий для задачи кредитного скоринга.

Задание 16. Решение задачи подбора оптимального алгоритма классификации

Подбор оптимального алгоритма для решения задачи классификации.

Задание 17. Тест по итогам пройденной темы

Тест из 10 вопросов по пройденному материалу.

Задание 18. Подбор оптимальных параметров алгоритма

Подбор оптимальных параметров алгоритма для решения задачи классификации.

Критерии оценивания

Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале. При оценивании заданий преподаватель опирается на следующие критерии:

Задания 1-13 оцениваются по правилу:

  • Правильно выполнен расчет -10% оценки.
  • Факт выполнения задания – 50% оценки.
  • Ответ на дополнительные вопросы преподавателя и демонстрация понимания материала – 40% оценки.

Оценка за задание 14 ставится по следующим правилам:

  • Выполнен анализ набора данных с только расчетом описательных статистик и представлены выводы в виде презентации либо эссе – 5 баллов.
  • Выполнен анализ набора данных с только расчетом описательных статистик, доверительных интервалов или корреляции и представлены выводы в виде презентации либо эссе – 6-7 баллов.
  • Выполнен анализ набора данных с только расчетом описательных статистик, доверительных интервалов или корреляции, проверена минимум 1 гипотеза с применением статистических критериев и представлены выводы в виде презентации либо эссе – 7-8 баллов.
  • Выполнен анализ набора данных с только расчетом описательных статистик, доверительных интервалов или корреляции, проверена минимум 1 гипотеза с применением статистических критериев, построена предсказательная модель на основе алгоритма машинного обучения и представлены выводы в виде презентации либо эссе – 8-10 баллов.
  • На оценку может влиять правильность расчета, глубина вывода и общее понимание выполненных действий.
  • Так как модуль «Работа с данными» является частью дисциплины «Проектный семинар», в диплом выставляется средняя арифметическая оценка за все четыре года Проектного семинара.

Итоговая оценка за курс

Итоговая оценка за курс расчитывается по следующей формуле:

Oитог = 0.1 * Oтест + 0.45 * ОРаздел 1 + 0.25 * ОРаздел 2 + 0.2 * Oзадание14, где

  • Oтест - оценка за финальный тест
  • ОРаздел 1 - средняя арифметическая оценка за задания 1-9
  • ОРаздел 2 - средняя арифметическая оценка за задания 10–18
  • Озадание14 - оценка за задание 14

Способ округления оценки за модуль — арифметический. Округление производится после выполнения всех вычислений внутри формулы, т.е. после умножения оценки за определенный вид деятельности на коэффициент она не округляется. Округляется только итоговая оценка.

Полезные материалы

  1. Дарелл Хафф. Как лгать при помощи статистики — М.: Альпина Паблишер, 2015.
  2. Miroslav Kubat. An Introduction to Machine Learning. Springer, 2015.
  3. Gordon S. Linoff and Michael J.A. Berry Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, Third Edition. John Wiley & Sons, 2011.
  4. Mohammed, Mohssen Khan, Muhammad Badruddin Bashier, Eihab Bashier Mohammed. Machine Learning: Algorithms and Applications. Auerbach Publications, 2017.
  5. Джафаров, К.А. Теория вероятностей и математическая статистика : учебное пособие / К.А. Джафаров ; Министерство образования и науки Российской Федерации, Новосибирский государственный технический университет. - Новосибирск : НГТУ, 2015.
  6. Elements of Statistical Learning: Data Mining, Inference, and Prediction (Springer series in statistics) Hastie, Trevor Tibshirani, Robert Friedman, J. H Penn, 2009.
  7. https://www.coursera.org/learn/stats-for-data-analysis
  8. https://studio.azureml.net
  9. https://www.gnu.org/software/pspp/
  10. https://docs.microsoft.com/ru-ru/power-bi/guided-learning/
  11. http://lib.alpinadigital.ru/
  12. https://library.books24x7.com
  13. http://biblioclub.ru