Работа с данными — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Предварительное создание страницы курса "Работа с данными")
 
(Проверочные задания)
Строка 17: Строка 17:
 
'''Тема 7. Основы работы с данными ''' Каким данным можно доверять? Основные способы манипулирования данными. Когнитивные искажения при интерпретации данных.
 
'''Тема 7. Основы работы с данными ''' Каким данным можно доверять? Основные способы манипулирования данными. Когнитивные искажения при интерпретации данных.
  
==Проверочные задания ==
+
==Примеры оценочных средств ==
===Задание 1. Тест на знание основ статистики===
+
===Задание 14 является блокирующим===
Тест из 10 вопросов с 2-4 вариантами ответов.
+
 
===Задание 2. Проведение эксперимента показывающего случайное распределение===
+
===Задание 1.===
Проведение 100 измерений высоты отскока мяча.
+
Проведение эксперимента показывающего случайное распределение. Проведение опроса из вопросов о группе (рост, бал ЕГЭ и т.д..)
===Задание 3. Расчет характеристик распределения===
+
===Задание 2.===
Расчет характеристик гистограммы распределения, построение гистограммы распределения.
+
Тест на знание основ статистики. Тест из 10 вопросов с 2-4 вариантами ответов.  
===Задание 4. Проведение эксперимента зависимости одной величины от другой===
+
===Задание 3.===
Проведение 20 измерений высоты отскока мяча от высоты падения.
+
Расчет характеристик распределения. Расчет характеристик гистограммы распределения, построение гистограммы распределения на основе данных задания 1.
===Задание 5. Расчет доверительного интервала===
+
===Задание 4.===
Расчет доверительного интервала.
+
Проведение эксперимента зависимости одной величины от другой. Проведение 20 измерений высоты отскока мяча от высоты падения (либо из опроса в группе). (не оцениваемое)
===Задание 6. Расчет уровня значимости===
+
===Задание 5.===
Проверка истинности гипотезы для p уровня значимости.
+
Расчет доверительного интервала.  
===Задание 7. A/B тест===
+
===Задание 6.===
Проверка гипотезы на основе А/B теста.
+
Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости.
===Задание 8. Тест по итогам пройденной темы===
+
===Задание 7.===
Тест из 10 вопросов с 2-4 вариантами ответов.
+
A/B тест. Проверка гипотезы на основе А/B теста.
===Задание 9. Выполнение расчета статистик в MS Studia ML или RapidMiner===
+
===Задание 8.===
Освоение программных средств для расчета статистических параметров.
+
Расчет статистик, доверительного интервала и критериев значимости в Excel
===Задание 10. Тест на знание основ ML===
+
===Задание 9.===Построение бинарного классификатора. Построение классификатора на основе данных о пассажирах с Титаника (можно заменить на отраслевую задачу).
Тест из 10 вопросов по пройденному материалу.
+
===Задание 10.===Решение задачи регрессии. Построение модели предсказания стоимости авто (фильма, книги…).
===Задание 11. Построение бинарного классификатора===
+
===Задание 11.===Решение задачи кластеризации. Кластеризация данных на основе задачи «Ирисы» (сегментация клиентской базы) (не оцениваемое)
Построение классификатора на основе данных о пассажирах с Титаника.
+
===Задание 12.===
===Задание 12. Решение задачи регрессии===
+
Решение задачи подбора оптимального алгоритма классификации/регрессии. Подбор оптимального алгоритма для решения задачи классификации/регрессии. (в формате соревнования, победитель получит дополнительные баллы)
Построение модели предсказания стоимости авто.
+
===Задание 13.===Тест по итогам пройденной темы. Тест из 10 вопросов по пройденному материалу.
===Задание 13. Решение задачи кластеризации===
+
===Задание 14.===
Кластеризация данных на основе задачи «Ирисы»
+
Самостоятельный анализ набора данных с площадки Kaggle, на основе полученных знаний. Результат – презентация в формате «история» с изложением проделанной работы и выводов полученных из данных.
===Задание 14. Решение задачи прогнозирования временного ряда===
+
Прогнозирование временного ряда.
+
===Задание 15. Решение задачи поиска аномалий===
+
Поиск аномалий для задачи кредитного скоринга.
+
===Задание 16. Решение задачи подбора оптимального алгоритма классификации===
+
Подбор оптимального алгоритма для решения задачи классификации.
+
===Задание 17. Тест по итогам пройденной темы===
+
Тест из 10 вопросов по пройденному материалу.
+
===Задание 18. Подбор оптимальных параметров алгоритма===
+
Подбор оптимальных параметров алгоритма для решения задачи классификации.
+
  
 
==Критерии оценивания==
 
==Критерии оценивания==

Версия 14:51, 30 августа 2019

Темы курса

Обработка данных, статистика, проверка гипотез

Тема 1. Введение  Знакомство с преподавателем и курсом. Мотивирующая часть про анализ данных и ML. Введение в курс (что будем изучать, как оценивать). Краткая информация по пунктам курса. Вводная информация по анализу данных, примеры использования из отрасли. Демонстрация анализа данных на «не очевидном» статистическом примере (можно взять пример про «похудение» и статистическую значимость. Несколько примеров, где отсутствие грамотного анализа приводило к неблагоприятным последствиям (можно рассказать историю о финансировании Билл-Гейтсом маленьких школ и показать на примере опыта «орел-решка» эффект регрессии к среднему).

Тема 2. Статистика. Распределения  Вероятность и распределение. Параметры распределения (мода, медиана, среднее, эксцесс, ассиметрия, размах, дисперсия, стандартное отклонение). Вводная информация о основах статистики (распределения, параметры гистограммы (отличие медианы, моды и среднего арифметического), уровень значимости, дисперсия, доверительные интервалы. Примеры анализа статистики на прикладных отраслевых задачах (распределение доходов телезрителей).

Тема 3. Статистика. Доверительные интервалы и проверка гипотез  Понятие доверительного интервала. Расчет доверительного интервала и примеры . Проверка гипотез с помощью доверительного интервала. Расчет 3 сигм с примерами.

Тема 4. Проверка гипотез  Критерии значимости. Уровень значимости. Критерий Стьюдента, Фишера, Хи квадрат, Мана Уитни. Проверка гипотез с помощью критериев. Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости.

Тема 5. Корреляция и др. способы обработки данных  Корреляция, автокорреляция. Спектральная область. Фильтры временных рядов. Фракталы, вейвлеты, свертка.

Тема 6. Основы машинного обучения  Что такое ML и где применяется. Задачи классификации, регрессии, кластеризации, ранжирования и прогнозирования временного ряда. Основные алгоритмы ML. 5 Исторических парадигм развития ML. Вводная информация о основах машинного обучения (что это такое, задача классификации, регрессии, кластеризации), основные проблемы и метрики. Примеры использования машинного обучения на прикладных отраслевых задачах (рекомендательные системы). Типы данных. Предобработка данных. Переобучение и регуляризация. Метрики качества (полнота, точность, f1 мера, roc-auc, confusion matrix). Какие алгоритмы для каких задач лучше подходят

Тема 7. Основы работы с данными  Каким данным можно доверять? Основные способы манипулирования данными. Когнитивные искажения при интерпретации данных.

Примеры оценочных средств

Задание 14 является блокирующим

Задание 1.

Проведение эксперимента показывающего случайное распределение. Проведение опроса из вопросов о группе (рост, бал ЕГЭ и т.д..)

Задание 2.

Тест на знание основ статистики. Тест из 10 вопросов с 2-4 вариантами ответов.

Задание 3.

Расчет характеристик распределения. Расчет характеристик гистограммы распределения, построение гистограммы распределения на основе данных задания 1.

Задание 4.

Проведение эксперимента зависимости одной величины от другой. Проведение 20 измерений высоты отскока мяча от высоты падения (либо из опроса в группе). (не оцениваемое)

Задание 5.

Расчет доверительного интервала.

Задание 6.

Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости.

Задание 7.

A/B тест. Проверка гипотезы на основе А/B теста.

Задание 8.

Расчет статистик, доверительного интервала и критериев значимости в Excel ===Задание 9.===Построение бинарного классификатора. Построение классификатора на основе данных о пассажирах с Титаника (можно заменить на отраслевую задачу). ===Задание 10.===Решение задачи регрессии. Построение модели предсказания стоимости авто (фильма, книги…). ===Задание 11.===Решение задачи кластеризации. Кластеризация данных на основе задачи «Ирисы» (сегментация клиентской базы) (не оцениваемое)

Задание 12.

Решение задачи подбора оптимального алгоритма классификации/регрессии. Подбор оптимального алгоритма для решения задачи классификации/регрессии. (в формате соревнования, победитель получит дополнительные баллы) ===Задание 13.===Тест по итогам пройденной темы. Тест из 10 вопросов по пройденному материалу.

Задание 14.

Самостоятельный анализ набора данных с площадки Kaggle, на основе полученных знаний. Результат – презентация в формате «история» с изложением проделанной работы и выводов полученных из данных.

Критерии оценивания

Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале. При оценивании заданий преподаватель опирается на следующие критерии:

Задания 1-13 оцениваются по правилу:

  • Правильно выполнен расчет -10% оценки.
  • Факт выполнения задания – 50% оценки.
  • Ответ на дополнительные вопросы преподавателя и демонстрация понимания материала – 40% оценки.

Оценка за задание 14 ставится по следующим правилам:

  • Выполнен анализ набора данных с только расчетом описательных статистик и представлены выводы в виде презентации либо эссе – 5 баллов.
  • Выполнен анализ набора данных с только расчетом описательных статистик, доверительных интервалов или корреляции и представлены выводы в виде презентации либо эссе – 6-7 баллов.
  • Выполнен анализ набора данных с только расчетом описательных статистик, доверительных интервалов или корреляции, проверена минимум 1 гипотеза с применением статистических критериев и представлены выводы в виде презентации либо эссе – 7-8 баллов.
  • Выполнен анализ набора данных с только расчетом описательных статистик, доверительных интервалов или корреляции, проверена минимум 1 гипотеза с применением статистических критериев, построена предсказательная модель на основе алгоритма машинного обучения и представлены выводы в виде презентации либо эссе – 8-10 баллов.
  • На оценку может влиять правильность расчета, глубина вывода и общее понимание выполненных действий.
  • Так как модуль «Работа с данными» является частью дисциплины «Проектный семинар», в диплом выставляется средняя арифметическая оценка за все четыре года Проектного семинара.

Итоговая оценка за курс

Итоговая оценка за курс расчитывается по следующей формуле:

Oитог = 0.1 * Oтест + 0.45 * ОРаздел 1 + 0.25 * ОРаздел 2 + 0.2 * Oзадание14, где

  • Oтест - оценка за финальный тест
  • ОРаздел 1 - средняя арифметическая оценка за задания 1-9
  • ОРаздел 2 - средняя арифметическая оценка за задания 10–18
  • Озадание14 - оценка за задание 14

Способ округления оценки за модуль — арифметический. Округление производится после выполнения всех вычислений внутри формулы, т.е. после умножения оценки за определенный вид деятельности на коэффициент она не округляется. Округляется только итоговая оценка.

Полезные материалы

  1. Дарелл Хафф. Как лгать при помощи статистики — М.: Альпина Паблишер, 2015.
  2. Miroslav Kubat. An Introduction to Machine Learning. Springer, 2015.
  3. Gordon S. Linoff and Michael J.A. Berry Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, Third Edition. John Wiley & Sons, 2011.
  4. Mohammed, Mohssen Khan, Muhammad Badruddin Bashier, Eihab Bashier Mohammed. Machine Learning: Algorithms and Applications. Auerbach Publications, 2017.
  5. Джафаров, К.А. Теория вероятностей и математическая статистика : учебное пособие / К.А. Джафаров ; Министерство образования и науки Российской Федерации, Новосибирский государственный технический университет. - Новосибирск : НГТУ, 2015.
  6. Elements of Statistical Learning: Data Mining, Inference, and Prediction (Springer series in statistics) Hastie, Trevor Tibshirani, Robert Friedman, J. H Penn, 2009.
  7. https://www.coursera.org/learn/stats-for-data-analysis
  8. https://studio.azureml.net
  9. https://www.gnu.org/software/pspp/
  10. https://docs.microsoft.com/ru-ru/power-bi/guided-learning/
  11. http://lib.alpinadigital.ru/
  12. https://library.books24x7.com
  13. http://biblioclub.ru