Экономика впечатлений: Введение в Data Science — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(презентация 3)
Строка 64: Строка 64:
  
 
[https://docs.google.com/presentation/d/1BPalI7npGd8Xiyk5tGpdyZ5RMX5Yx3RdMz3k2nstKf0/edit?usp=sharing Тема 2. Краткий курс нужной математики и статистики для Data Science]
 
[https://docs.google.com/presentation/d/1BPalI7npGd8Xiyk5tGpdyZ5RMX5Yx3RdMz3k2nstKf0/edit?usp=sharing Тема 2. Краткий курс нужной математики и статистики для Data Science]
 +
 +
[https://docs.google.com/presentation/d/1bTNIih-XyyzB_fKXrVXe1poXOsXs8arl2j0yQF4w0ZA/edit?usp=sharing Тема 3. Визуализация данных]
  
  

Версия 01:27, 13 февраля 2020

О курсе

Цель учебной дисциплины - познакомить студентов с основными концепциями и методами анализа данных и машинного обучения.

Учимся:

  • работать с питоном
  • понимать основные понятия Data Science
  • знать основные методы AI
  • отличать кластеризацию от регрессии
  • подбирать подходящую визуализацию


Программа

Тема 1. Введение. Что такое Data Science.

  • Введение в Artificial intelligence, Data Science, Machine Learning, Deep Learning, Big Data.
  • Какие сейчас выполняются задачки в туристическом IT-бизнесе с использованием AI и ML?
  • Какие возможности на рынке труда открывают перед тобой навыки работы с данными. SAAS бизнес.
  • Обзор инструментов и библиотек, которыми будем пользоваться: Python, введение в pandas.
  • Домашка: Посмотреть внимательно несколько ноутбуков в питоне. Введение в pandas, датасет по бронированиям

Тема 2. Краткий курс нужной математики для Data Science

  • Теория вероятностей: вероятность, распределение, характеристики распределений.
  • Математическая статистика: выборка, типы выборок. Описательная статистика, меры центральной тенденции. Среднее, мода, медиана, стандартное отклонение, процентили, минимум, максимум.
  • Пакет Pandas
  • Небольшое дз в питоне №1: небольшие задачки на описательную статистику, использование pandas

Тема 3. Визуализация данных

  • Основные виды графиков: гистограмма, bar chart, scatterplot. Использование графиков при подготовке данных.
  • Зачем нужна визуализация данных в бизнесе
  • Основные ошибки при визуализации
  • Небольшое дз в питоне №2

Тема 4. Регрессия

  • Определение регрессии, нулевая гипотеза, ошибки первого и нулевого рода.
  • Метрики регрессии: MAE, MAPE, MSE, R2
  • Описание и постановка задач для регрессии

Небольшое дз в питоне №3

Тема 5. Классификация: KNN, Алгоритм решающих деревьев

  • Определение классификации, метрики: доля правильных ответов (accuracy), точность (precision), полнотa (recall). PR-кривая. ROC-кривая.
  • Обучение с учителем и без учителя. Валидация.
  • Задачи классификации
  • Алгоритмы классификации и их отличия
  • Небольшое дз в питоне №4

Тема 6. Анализ текстовых данных

  • Подробное изучение бизнес-кейса с тональностью комментариев к отелям с Tripadvisor
  • Распознавание текста комментариев и их тональности. Изучение библиотек работы с текстом. Метод сбора данных из открытых источников.
  • Разметка комментариев по тональности
  • Обучение модельки, которая выявляет тональности у комментариев на размеченной выборке
  • Применение модельки на новых комментариях
  • Оценка результатов
  • Дз в питоне №5: Накидать новые переменные в разобранную на семинаре модель, описать получившийся результат

Тема 7. Защита проектов с применением машинного обучения

  • Необходимо разобрать реальный бизнес-кейс, который был решён при помощи машинного обучения и искусственного интеллекта.
  • Описать бизнес-задачу, использованные методы и результаты.

Презентации

Тема 1. Введение

Тема 2. Краткий курс нужной математики и статистики для Data Science

Тема 3. Визуализация данных


Домашка

Тема 1. Введение. Что такое Data Science

  1. Big Data
  2. Разница между AI, ML, DL
  3. Разница между AI, ML, DL 2
  4. Курс о Deep Learning на пальцах

Посмотреть три питоновских ноутбука:

  1. A quick tour of IPython Notebook
  2. PythonTutorial
  3. Reading from a csv (это больше для домашки)