Экономика впечатлений: Введение в Data Science — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(не показаны 3 промежуточные версии этого же участника) | |||
Строка 64: | Строка 64: | ||
[https://docs.google.com/presentation/d/1BPalI7npGd8Xiyk5tGpdyZ5RMX5Yx3RdMz3k2nstKf0/edit?usp=sharing Тема 2. Краткий курс нужной математики и статистики для Data Science] | [https://docs.google.com/presentation/d/1BPalI7npGd8Xiyk5tGpdyZ5RMX5Yx3RdMz3k2nstKf0/edit?usp=sharing Тема 2. Краткий курс нужной математики и статистики для Data Science] | ||
+ | |||
+ | [https://docs.google.com/presentation/d/1bTNIih-XyyzB_fKXrVXe1poXOsXs8arl2j0yQF4w0ZA/edit?usp=sharing Тема 3. Визуализация данных] | ||
+ | |||
+ | [https://drive.google.com/open?id=1TTGewF1ZaT0sveJab2iE8BWkn3goXEvBF0KLQIxwvsQ Тема 4. Регрессия] | ||
+ | |||
+ | [https://docs.google.com/presentation/d/1SB2b4rrkkolPGChaT5s98PgbPqjjsKoIsdnvw05_yMk/edit?usp=sharing Тема 5. Классификация:метрики] | ||
+ | |||
+ | [https://docs.google.com/presentation/d/1J4VZ7A2wilAO4EReUCgGPFE8YKymOhd5Q0jdcMpXa_w/edit?usp=sharing Тема 5. Классификация:методы] | ||
Текущая версия на 18:23, 5 марта 2020
Содержание
О курсе
Цель учебной дисциплины - познакомить студентов с основными концепциями и методами анализа данных и машинного обучения.
Учимся:
- работать с питоном
- понимать основные понятия Data Science
- знать основные методы AI
- отличать кластеризацию от регрессии
- подбирать подходящую визуализацию
Программа
Тема 1. Введение. Что такое Data Science.
- Введение в Artificial intelligence, Data Science, Machine Learning, Deep Learning, Big Data.
- Какие сейчас выполняются задачки в туристическом IT-бизнесе с использованием AI и ML?
- Какие возможности на рынке труда открывают перед тобой навыки работы с данными. SAAS бизнес.
- Обзор инструментов и библиотек, которыми будем пользоваться: Python, введение в pandas.
- Домашка: Посмотреть внимательно несколько ноутбуков в питоне. Введение в pandas, датасет по бронированиям
Тема 2. Краткий курс нужной математики для Data Science
- Теория вероятностей: вероятность, распределение, характеристики распределений.
- Математическая статистика: выборка, типы выборок. Описательная статистика, меры центральной тенденции. Среднее, мода, медиана, стандартное отклонение, процентили, минимум, максимум.
- Пакет Pandas
- Небольшое дз в питоне №1: небольшие задачки на описательную статистику, использование pandas
Тема 3. Визуализация данных
- Основные виды графиков: гистограмма, bar chart, scatterplot. Использование графиков при подготовке данных.
- Зачем нужна визуализация данных в бизнесе
- Основные ошибки при визуализации
- Небольшое дз в питоне №2
Тема 4. Регрессия
- Определение регрессии, нулевая гипотеза, ошибки первого и нулевого рода.
- Метрики регрессии: MAE, MAPE, MSE, R2
- Описание и постановка задач для регрессии
Небольшое дз в питоне №3
Тема 5. Классификация: KNN, Алгоритм решающих деревьев
- Определение классификации, метрики: доля правильных ответов (accuracy), точность (precision), полнотa (recall). PR-кривая. ROC-кривая.
- Обучение с учителем и без учителя. Валидация.
- Задачи классификации
- Алгоритмы классификации и их отличия
- Небольшое дз в питоне №4
Тема 6. Анализ текстовых данных
- Подробное изучение бизнес-кейса с тональностью комментариев к отелям с Tripadvisor
- Распознавание текста комментариев и их тональности. Изучение библиотек работы с текстом. Метод сбора данных из открытых источников.
- Разметка комментариев по тональности
- Обучение модельки, которая выявляет тональности у комментариев на размеченной выборке
- Применение модельки на новых комментариях
- Оценка результатов
- Дз в питоне №5: Накидать новые переменные в разобранную на семинаре модель, описать получившийся результат
Тема 7. Защита проектов с применением машинного обучения
- Необходимо разобрать реальный бизнес-кейс, который был решён при помощи машинного обучения и искусственного интеллекта.
- Описать бизнес-задачу, использованные методы и результаты.
Презентации
Тема 2. Краткий курс нужной математики и статистики для Data Science
Домашка
Тема 1. Введение. Что такое Data Science
Посмотреть три питоновских ноутбука:
- A quick tour of IPython Notebook
- PythonTutorial
- Reading from a csv (это больше для домашки)