Основы работы с данными

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

Темы курса

Обработка данных, статистика, проверка гипотез

Тема 1

Введение в курс. Вводная информация по анализу данных, примеры использования из отрасли. Демонстрация анализа данных на «неочевидном» статистическом примере (можно взять пример про «похудение» и статистическую значимость. Несколько примеров, где отсутствие грамотного анализа приводило к неблагоприятным последствиям (можно рассказать историю о финансировании Билл-Гейтсом маленьких школ и показать на примере опыта «орел-решка» эффект регрессии к среднему).

Тема 2

Вводная информация о основах статистики (распределения, параметры гистограммы (отличие медианы, моды и среднего арифметического), уровень значимости, дисперсия, доверительные интервалы. Примеры анализа статистики на прикладных отраслевых задачах (распределение доходов телезрителей).

Тема 3

Тест и расчет эксперимента. Тест на знание основ статистики. Расчет характеристик распределения. Расчет характеристик гистограммы распределения, построение гистограммы распределения.

Тема 4

Искажения статистических данных. Основные приемы манипулирования данными (см. книги «Статистика и Котики» и «Как лгать при помощи статистики». Интерактивная игра: найди манипуляцию. Интерактивная игра: «обмани друга».

Тема 5

Теория проведения эксперимента. Проведение эксперимента зависимости одной величины от другой. Проведение 20 измерений высоты отскока мяча от высоты падения. Расчет доверительного интервала. Расчет доверительного интервала. Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости.

Тема 6

Расчет уровня значимости. Проверка истинности гипотезы для p уровня значимости. A/B тест. Проверка гипотезы на основе А/B теста.

Тема 7

Программные средства расчета статистик. Тест по итогам пройденной темы. Выполнение расчета статистик в MS Studia ML или RapidMiner. Освоение программных средств для расчета статистических параметров.

Основы машинного обучения

Тема 8

Основы машинного обучения (что это такое, задача классификации, регрессии, кластеризации), основные проблемы и метрики. Примеры использования машинного обучения на прикладных отраслевых задачах (рекомендательные системы).

Тема 9

Виды данных, отличие характеристик и целевой функции, пред. обработка данных. Метрики качества, ошибки первого и второго рода. Тест на знание основ ML.

Тема 10

Знакомство с MS AZURE. Построение бинарного классификатора.

Тема 11

Знакомство с MS AZURE. Решение задачи регрессии. Построение модели предсказания.

Тема 12

Решение задачи кластеризации. Кластеризация данных на основе задачи «Ирисы» (сегментация клиентской базы).


Тема 13

Решение задачи поиска аномалий. Поиск аномалий для задачи кредитного скоринга. Решение задачи прогнозирования временного ряда. Прогнозирование временного ряда.

Тема 14

Решение задачи подбора оптимального алгоритма классификации. Подбор оптимального алгоритма для решения задачи классификации. (в формате соревнования, победитель получит дополнительные баллы).

Тема 15

Тест по итогам пройденной темы. Подбор оптимальных параметров алгоритма. Подбор оптимальных параметров алгоритма для решения задачи классификации.

Тема 16

Дополнительное задание (найти набор данных из отрасли и либо рассчитать достоверность гипотезы, либо построить прогностический алгоритм). Начисление экстра баллов за задание.

Работа в Power BI и SPSS

Тема 17

Что такое BI и как это используется в медиа. Как правильно собирать данные для бизнес анализа, как определить бизнес-метрики. Как поставить задачу для сбора данных: введение в базы данных. Тезаурус бизнес-аналитика: от аффинити до конверсий. Инструменты, которые используются для BI: GA, Tableu, Power BI. Визуализация бизнес дата-сета.


Домашние задания

Итоговая оценка за курс

Итоговая оценка за курс расчитывается по следующей формуле:

Oитог = 0.1 * Oп + 0.45 * ОРаздел 1 + 0.45 * ОРаздел 2, где

  • Oп - оценка за посещаемость
  • ОРаздел 1 - средняя арифметическая оценка за задания 1-9
  • ОРаздел 2 - средняя арифметическая оценка за задания 10–18

Способ округления оценки за раздел — арифметический. Округление производится после выполнения всех вычислений внутри формулы, т.е. после умножения оценки за определенный вид деятельности на коэффициент она не округляется. Округляется только итоговая оценка.

Полезные материалы

  1. Статистика и котики»: АСТ; Москва; 2018
  2. Курс «Построение выводов по данным»
  3. Дарелл Хафф. Как лгать при помощи статистики — М.: Альпина Паблишер, 2015.
  4. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных. Петер Фалех.
  5. Искусственный интеллект. Современный подход.Стюарт Рассел, Питер Норвиг.
  6. Математические основы машинного обучения и прогнозирования. Владимир Вьюгин.
  7. The Elements of Statistical Learning. The Elements of Statistical Learning. 2003
  8. NTRODUCTION TO MACHINE LEARNING. Nils J. Nilsson. 1998
  9. I Heart Logs: Event Data, Stream Processing, and Data Integration. Jay Kreps. 2014
  10. https://studio.azureml.net
  11. https://www.gnu.org/software/pspp/
  12. https://docs.microsoft.com/ru-ru/power-bi/guided-learning/