Экономика впечатлений: Введение в Data Science — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница: «= О курсе = Цель учебной дисциплины - познакомить студентов с основными концепциями и мет…»)
 
 
(не показано 6 промежуточных версии этого же участника)
Строка 4: Строка 4:
  
 
Учимся:
 
Учимся:
- работать с питоном
+
* работать с питоном
- понимать основные понятия Data Science
+
* понимать основные понятия Data Science
- знать основные методы AI
+
* знать основные методы AI
- отличать кластеризацию от регрессии
+
* отличать кластеризацию от регрессии
- подбирать подходящую визуализацию
+
* подбирать подходящую визуализацию
 +
 
 +
 
 +
= Программа =
 +
 
 +
'''Тема 1. Введение. Что такое Data Science.'''
 +
* Введение в Artificial intelligence, Data Science, Machine Learning, Deep Learning, Big Data.
 +
* Какие сейчас выполняются задачки в туристическом IT-бизнесе с использованием AI и ML?
 +
* Какие возможности на рынке труда открывают перед тобой навыки работы с данными. SAAS бизнес.
 +
* Обзор инструментов и библиотек, которыми будем пользоваться: Python, введение в pandas.
 +
* Домашка: Посмотреть внимательно несколько ноутбуков в питоне. Введение в pandas, датасет по бронированиям
 +
 
 +
'''Тема 2. Краткий курс нужной математики для Data Science'''
 +
* Теория вероятностей: вероятность, распределение, характеристики распределений.
 +
* Математическая статистика: выборка, типы выборок. Описательная статистика, меры центральной тенденции. Среднее, мода, медиана, стандартное отклонение, процентили, минимум, максимум.
 +
* Пакет Pandas
 +
* Небольшое дз в питоне №1: небольшие задачки на описательную статистику, использование pandas
 +
 
 +
'''Тема 3. Визуализация данных'''
 +
* Основные виды графиков: гистограмма, bar chart, scatterplot. Использование графиков при подготовке данных.
 +
* Зачем нужна визуализация данных в бизнесе
 +
* Основные ошибки при визуализации
 +
* Небольшое дз в питоне №2
 +
 
 +
'''Тема 4. Регрессия'''
 +
* Определение регрессии, нулевая гипотеза, ошибки первого и нулевого рода.
 +
* Метрики регрессии: MAE, MAPE, MSE, R2
 +
* Описание и постановка задач для регрессии
 +
 
 +
Небольшое дз в питоне №3
 +
 
 +
'''Тема 5. Классификация: KNN, Алгоритм решающих деревьев'''
 +
* Определение классификации, метрики: доля правильных ответов (accuracy), точность (precision), полнотa (recall). PR-кривая. ROC-кривая.
 +
* Обучение с учителем и без учителя. Валидация.
 +
* Задачи классификации
 +
* Алгоритмы классификации и их отличия
 +
* Небольшое дз в питоне №4
 +
 
 +
'''Тема 6. Анализ текстовых данных'''
 +
* Подробное изучение бизнес-кейса с тональностью комментариев к отелям с Tripadvisor
 +
* Распознавание текста комментариев и их тональности. Изучение библиотек работы с текстом. Метод сбора данных из открытых источников.
 +
* Разметка комментариев по тональности
 +
* Обучение модельки, которая выявляет тональности у комментариев на размеченной выборке
 +
* Применение модельки на новых комментариях
 +
* Оценка результатов
 +
* Дз в питоне №5: Накидать новые переменные в разобранную на семинаре модель, описать получившийся результат
 +
 
 +
'''Тема 7. Защита проектов с применением машинного обучения'''
 +
* Необходимо разобрать реальный бизнес-кейс, который был решён при помощи машинного обучения и искусственного интеллекта.
 +
* Описать бизнес-задачу, использованные методы и результаты.
 +
 
 +
= Презентации =
 +
 
 +
[https://docs.google.com/presentation/d/17nhXQDFA8b9dwhMfahpeRVVLMMP4DVuaUlrRgNeB-o0/edit?usp=sharing Тема 1. Введение]
 +
 
 +
[https://docs.google.com/presentation/d/1BPalI7npGd8Xiyk5tGpdyZ5RMX5Yx3RdMz3k2nstKf0/edit?usp=sharing Тема 2. Краткий курс нужной математики и статистики для Data Science]
 +
 
 +
[https://docs.google.com/presentation/d/1bTNIih-XyyzB_fKXrVXe1poXOsXs8arl2j0yQF4w0ZA/edit?usp=sharing Тема 3. Визуализация данных]
 +
 
 +
[https://drive.google.com/open?id=1TTGewF1ZaT0sveJab2iE8BWkn3goXEvBF0KLQIxwvsQ Тема 4. Регрессия]
 +
 
 +
[https://docs.google.com/presentation/d/1SB2b4rrkkolPGChaT5s98PgbPqjjsKoIsdnvw05_yMk/edit?usp=sharing Тема 5. Классификация:метрики]
 +
 
 +
[https://docs.google.com/presentation/d/1J4VZ7A2wilAO4EReUCgGPFE8YKymOhd5Q0jdcMpXa_w/edit?usp=sharing Тема 5. Классификация:методы]
 +
 
 +
 
 +
= Домашка =
 +
'''Тема 1. Введение. Что такое Data Science'''
 +
# [https://postnauka.ru/faq/46974 Big Data]
 +
# [https://habr.com/ru/post/401857/ Разница между AI, ML, DL]
 +
# [https://blogs.oracle.com/russia/ai-ml-dl-differ Разница между AI, ML, DL 2]
 +
# [https://habr.com/ru/post/414165/ Курс о Deep Learning на пальцах]
 +
Посмотреть три питоновских ноутбука:
 +
# A quick tour of IPython Notebook
 +
# PythonTutorial
 +
# Reading from a csv (это больше для домашки)

Текущая версия на 18:23, 5 марта 2020

О курсе

Цель учебной дисциплины - познакомить студентов с основными концепциями и методами анализа данных и машинного обучения.

Учимся:

  • работать с питоном
  • понимать основные понятия Data Science
  • знать основные методы AI
  • отличать кластеризацию от регрессии
  • подбирать подходящую визуализацию


Программа

Тема 1. Введение. Что такое Data Science.

  • Введение в Artificial intelligence, Data Science, Machine Learning, Deep Learning, Big Data.
  • Какие сейчас выполняются задачки в туристическом IT-бизнесе с использованием AI и ML?
  • Какие возможности на рынке труда открывают перед тобой навыки работы с данными. SAAS бизнес.
  • Обзор инструментов и библиотек, которыми будем пользоваться: Python, введение в pandas.
  • Домашка: Посмотреть внимательно несколько ноутбуков в питоне. Введение в pandas, датасет по бронированиям

Тема 2. Краткий курс нужной математики для Data Science

  • Теория вероятностей: вероятность, распределение, характеристики распределений.
  • Математическая статистика: выборка, типы выборок. Описательная статистика, меры центральной тенденции. Среднее, мода, медиана, стандартное отклонение, процентили, минимум, максимум.
  • Пакет Pandas
  • Небольшое дз в питоне №1: небольшие задачки на описательную статистику, использование pandas

Тема 3. Визуализация данных

  • Основные виды графиков: гистограмма, bar chart, scatterplot. Использование графиков при подготовке данных.
  • Зачем нужна визуализация данных в бизнесе
  • Основные ошибки при визуализации
  • Небольшое дз в питоне №2

Тема 4. Регрессия

  • Определение регрессии, нулевая гипотеза, ошибки первого и нулевого рода.
  • Метрики регрессии: MAE, MAPE, MSE, R2
  • Описание и постановка задач для регрессии

Небольшое дз в питоне №3

Тема 5. Классификация: KNN, Алгоритм решающих деревьев

  • Определение классификации, метрики: доля правильных ответов (accuracy), точность (precision), полнотa (recall). PR-кривая. ROC-кривая.
  • Обучение с учителем и без учителя. Валидация.
  • Задачи классификации
  • Алгоритмы классификации и их отличия
  • Небольшое дз в питоне №4

Тема 6. Анализ текстовых данных

  • Подробное изучение бизнес-кейса с тональностью комментариев к отелям с Tripadvisor
  • Распознавание текста комментариев и их тональности. Изучение библиотек работы с текстом. Метод сбора данных из открытых источников.
  • Разметка комментариев по тональности
  • Обучение модельки, которая выявляет тональности у комментариев на размеченной выборке
  • Применение модельки на новых комментариях
  • Оценка результатов
  • Дз в питоне №5: Накидать новые переменные в разобранную на семинаре модель, описать получившийся результат

Тема 7. Защита проектов с применением машинного обучения

  • Необходимо разобрать реальный бизнес-кейс, который был решён при помощи машинного обучения и искусственного интеллекта.
  • Описать бизнес-задачу, использованные методы и результаты.

Презентации

Тема 1. Введение

Тема 2. Краткий курс нужной математики и статистики для Data Science

Тема 3. Визуализация данных

Тема 4. Регрессия

Тема 5. Классификация:метрики

Тема 5. Классификация:методы


Домашка

Тема 1. Введение. Что такое Data Science

  1. Big Data
  2. Разница между AI, ML, DL
  3. Разница между AI, ML, DL 2
  4. Курс о Deep Learning на пальцах

Посмотреть три питоновских ноутбука:

  1. A quick tour of IPython Notebook
  2. PythonTutorial
  3. Reading from a csv (это больше для домашки)