Экономика впечатлений: Введение в Data Science
Материал из Wiki - Факультет компьютерных наук
Версия от 00:11, 30 января 2020; АннаВелликок (обсуждение | вклад)
О курсе
Цель учебной дисциплины - познакомить студентов с основными концепциями и методами анализа данных и машинного обучения.
Учимся:
- работать с питоном
- понимать основные понятия Data Science
- знать основные методы AI
- отличать кластеризацию от регрессии
- подбирать подходящую визуализацию
Программа
Тема 1. Введение. Что такое Data Science.
- Введение в Artificial intelligence, Data Science, Machine Learning, Deep Learning, Big Data.
- Какие сейчас выполняются задачки в туристическом IT-бизнесе с использованием AI и ML?
- Какие возможности на рынке труда открывают перед тобой навыки работы с данными. SAAS бизнес.
- Обзор инструментов и библиотек, которыми будем пользоваться: Python, введение в pandas.
- Домашка: Посмотреть внимательно несколько ноутбуков в питоне. Введение в pandas, датасет по бронированиям
Тема 2. Краткий курс нужной математики для Data Science
- Теория вероятностей: вероятность, распределение, характеристики распределений.
- Математическая статистика: выборка, типы выборок. Описательная статистика, меры центральной тенденции. Среднее, мода, медиана, стандартное отклонение, процентили, минимум, максимум.
- Пакет Pandas
- Небольшое дз в питоне №1: небольшие задачки на описательную статистику, использование pandas
Тема 3. Визуализация данных
- Основные виды графиков: гистограмма, bar chart, scatterplot. Использование графиков при подготовке данных.
- Зачем нужна визуализация данных в бизнесе
- Основные ошибки при визуализации
- Небольшое дз в питоне №2
Тема 4. Регрессия
- Определение регрессии, нулевая гипотеза, ошибки первого и нулевого рода.
- Метрики регрессии: MAE, MAPE, MSE, R2
- Описание и постановка задач для регрессии
Небольшое дз в питоне №3
Тема 5. Классификация: KNN, Алгоритм решающих деревьев
- Определение классификации, метрики: доля правильных ответов (accuracy), точность (precision), полнотa (recall). PR-кривая. ROC-кривая.
- Обучение с учителем и без учителя. Валидация.
- Задачи классификации
- Алгоритмы классификации и их отличия
- Небольшое дз в питоне №4
Тема 6. Анализ текстовых данных
- Подробное изучение бизнес-кейса с тональностью комментариев к отелям с Tripadvisor
- Распознавание текста комментариев и их тональности. Изучение библиотек работы с текстом. Метод сбора данных из открытых источников.
- Разметка комментариев по тональности
- Обучение модельки, которая выявляет тональности у комментариев на размеченной выборке
- Применение модельки на новых комментариях
- Оценка результатов
- Дз в питоне №5: Накидать новые переменные в разобранную на семинаре модель, описать получившийся результат
Тема 7. Защита проектов с применением машинного обучения
- Необходимо разобрать реальный бизнес-кейс, который был решён при помощи машинного обучения и искусственного интеллекта.
- Описать бизнес-задачу, использованные методы и результаты.