Экономика впечатлений: Введение в Data Science

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Цель учебной дисциплины - познакомить студентов с основными концепциями и методами анализа данных и машинного обучения.

Учимся:

  • работать с питоном
  • понимать основные понятия Data Science
  • знать основные методы AI
  • отличать кластеризацию от регрессии
  • подбирать подходящую визуализацию


Программа

Тема 1. Введение. Что такое Data Science.

  • Введение в Artificial intelligence, Data Science, Machine Learning, Deep Learning, Big Data.
  • Какие сейчас выполняются задачки в туристическом IT-бизнесе с использованием AI и ML?
  • Какие возможности на рынке труда открывают перед тобой навыки работы с данными. SAAS бизнес.
  • Обзор инструментов и библиотек, которыми будем пользоваться: Python, введение в pandas.
  • Домашка: Посмотреть внимательно несколько ноутбуков в питоне. Введение в pandas, датасет по бронированиям

Тема 2. Краткий курс нужной математики для Data Science

  • Теория вероятностей: вероятность, распределение, характеристики распределений.
  • Математическая статистика: выборка, типы выборок. Описательная статистика, меры центральной тенденции. Среднее, мода, медиана, стандартное отклонение, процентили, минимум, максимум.
  • Пакет Pandas
  • Небольшое дз в питоне №1: небольшие задачки на описательную статистику, использование pandas

Тема 3. Визуализация данных

  • Основные виды графиков: гистограмма, bar chart, scatterplot. Использование графиков при подготовке данных.
  • Зачем нужна визуализация данных в бизнесе
  • Основные ошибки при визуализации
  • Небольшое дз в питоне №2

Тема 4. Регрессия

  • Определение регрессии, нулевая гипотеза, ошибки первого и нулевого рода.
  • Метрики регрессии: MAE, MAPE, MSE, R2
  • Описание и постановка задач для регрессии

Небольшое дз в питоне №3

Тема 5. Классификация: KNN, Алгоритм решающих деревьев

  • Определение классификации, метрики: доля правильных ответов (accuracy), точность (precision), полнотa (recall). PR-кривая. ROC-кривая.
  • Обучение с учителем и без учителя. Валидация.
  • Задачи классификации
  • Алгоритмы классификации и их отличия
  • Небольшое дз в питоне №4

Тема 6. Анализ текстовых данных

  • Подробное изучение бизнес-кейса с тональностью комментариев к отелям с Tripadvisor
  • Распознавание текста комментариев и их тональности. Изучение библиотек работы с текстом. Метод сбора данных из открытых источников.
  • Разметка комментариев по тональности
  • Обучение модельки, которая выявляет тональности у комментариев на размеченной выборке
  • Применение модельки на новых комментариях
  • Оценка результатов
  • Дз в питоне №5: Накидать новые переменные в разобранную на семинаре модель, описать получившийся результат

Тема 7. Защита проектов с применением машинного обучения

  • Необходимо разобрать реальный бизнес-кейс, который был решён при помощи машинного обучения и искусственного интеллекта.
  • Описать бизнес-задачу, использованные методы и результаты.

Презентации

Тема 1. Введение

Тема 2. Краткий курс нужной математики и статистики для Data Science

Тема 3. Визуализация данных

Тема 4. Регрессия

Тема 5. Классификация:метрики

Тема 5. Классификация:методы


Домашка

Тема 1. Введение. Что такое Data Science

  1. Big Data
  2. Разница между AI, ML, DL
  3. Разница между AI, ML, DL 2
  4. Курс о Deep Learning на пальцах

Посмотреть три питоновских ноутбука:

  1. A quick tour of IPython Notebook
  2. PythonTutorial
  3. Reading from a csv (это больше для домашки)