Экономика впечатлений: Введение в Data Science — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(Новая страница: «= О курсе = Цель учебной дисциплины - познакомить студентов с основными концепциями и мет…») |
м |
||
Строка 4: | Строка 4: | ||
Учимся: | Учимся: | ||
− | + | * работать с питоном | |
− | + | * понимать основные понятия Data Science | |
− | + | * знать основные методы AI | |
− | + | * отличать кластеризацию от регрессии | |
− | + | * подбирать подходящую визуализацию | |
+ | |||
+ | |||
+ | = Программа = | ||
+ | |||
+ | '''Тема 1. Введение. Что такое Data Science.''' | ||
+ | * Введение в Artificial intelligence, Data Science, Machine Learning, Deep Learning, Big Data. | ||
+ | * Какие сейчас выполняются задачки в туристическом IT-бизнесе с использованием AI и ML? | ||
+ | * Какие возможности на рынке труда открывают перед тобой навыки работы с данными. SAAS бизнес. | ||
+ | * Обзор инструментов и библиотек, которыми будем пользоваться: Python, введение в pandas. | ||
+ | * Домашка: Посмотреть внимательно несколько ноутбуков в питоне. Введение в pandas, датасет по бронированиям | ||
+ | |||
+ | '''Тема 2. Краткий курс нужной математики для Data Science''' | ||
+ | * Теория вероятностей: вероятность, распределение, характеристики распределений. | ||
+ | * Математическая статистика: выборка, типы выборок. Описательная статистика, меры центральной тенденции. Среднее, мода, медиана, стандартное отклонение, процентили, минимум, максимум. | ||
+ | * Пакет Pandas | ||
+ | * Небольшое дз в питоне №1: небольшие задачки на описательную статистику, использование pandas | ||
+ | |||
+ | '''Тема 3. Визуализация данных''' | ||
+ | * Основные виды графиков: гистограмма, bar chart, scatterplot. Использование графиков при подготовке данных. | ||
+ | * Зачем нужна визуализация данных в бизнесе | ||
+ | * Основные ошибки при визуализации | ||
+ | * Небольшое дз в питоне №2 | ||
+ | |||
+ | '''Тема 4. Регрессия''' | ||
+ | * Определение регрессии, нулевая гипотеза, ошибки первого и нулевого рода. | ||
+ | * Метрики регрессии: MAE, MAPE, MSE, R2 | ||
+ | * Описание и постановка задач для регрессии | ||
+ | |||
+ | Небольшое дз в питоне №3 | ||
+ | |||
+ | '''Тема 5. Классификация: KNN, Алгоритм решающих деревьев''' | ||
+ | * Определение классификации, метрики: доля правильных ответов (accuracy), точность (precision), полнотa (recall). PR-кривая. ROC-кривая. | ||
+ | * Обучение с учителем и без учителя. Валидация. | ||
+ | * Задачи классификации | ||
+ | * Алгоритмы классификации и их отличия | ||
+ | * Небольшое дз в питоне №4 | ||
+ | |||
+ | '''Тема 6. Анализ текстовых данных''' | ||
+ | * Подробное изучение бизнес-кейса с тональностью комментариев к отелям с Tripadvisor | ||
+ | * Распознавание текста комментариев и их тональности. Изучение библиотек работы с текстом. Метод сбора данных из открытых источников. | ||
+ | * Разметка комментариев по тональности | ||
+ | * Обучение модельки, которая выявляет тональности у комментариев на размеченной выборке | ||
+ | * Применение модельки на новых комментариях | ||
+ | * Оценка результатов | ||
+ | * Дз в питоне №5: Накидать новые переменные в разобранную на семинаре модель, описать получившийся результат | ||
+ | |||
+ | '''Тема 7. Защита проектов с применением машинного обучения''' | ||
+ | * Необходимо разобрать реальный бизнес-кейс, который был решён при помощи машинного обучения и искусственного интеллекта. | ||
+ | * Описать бизнес-задачу, использованные методы и результаты. | ||
+ | |||
+ | = Презентации = | ||
+ | |||
+ | [https://docs.google.com/presentation/d/17nhXQDFA8b9dwhMfahpeRVVLMMP4DVuaUlrRgNeB-o0/edit?usp=sharing Тема 1. Введение] |
Версия 00:11, 30 января 2020
О курсе
Цель учебной дисциплины - познакомить студентов с основными концепциями и методами анализа данных и машинного обучения.
Учимся:
- работать с питоном
- понимать основные понятия Data Science
- знать основные методы AI
- отличать кластеризацию от регрессии
- подбирать подходящую визуализацию
Программа
Тема 1. Введение. Что такое Data Science.
- Введение в Artificial intelligence, Data Science, Machine Learning, Deep Learning, Big Data.
- Какие сейчас выполняются задачки в туристическом IT-бизнесе с использованием AI и ML?
- Какие возможности на рынке труда открывают перед тобой навыки работы с данными. SAAS бизнес.
- Обзор инструментов и библиотек, которыми будем пользоваться: Python, введение в pandas.
- Домашка: Посмотреть внимательно несколько ноутбуков в питоне. Введение в pandas, датасет по бронированиям
Тема 2. Краткий курс нужной математики для Data Science
- Теория вероятностей: вероятность, распределение, характеристики распределений.
- Математическая статистика: выборка, типы выборок. Описательная статистика, меры центральной тенденции. Среднее, мода, медиана, стандартное отклонение, процентили, минимум, максимум.
- Пакет Pandas
- Небольшое дз в питоне №1: небольшие задачки на описательную статистику, использование pandas
Тема 3. Визуализация данных
- Основные виды графиков: гистограмма, bar chart, scatterplot. Использование графиков при подготовке данных.
- Зачем нужна визуализация данных в бизнесе
- Основные ошибки при визуализации
- Небольшое дз в питоне №2
Тема 4. Регрессия
- Определение регрессии, нулевая гипотеза, ошибки первого и нулевого рода.
- Метрики регрессии: MAE, MAPE, MSE, R2
- Описание и постановка задач для регрессии
Небольшое дз в питоне №3
Тема 5. Классификация: KNN, Алгоритм решающих деревьев
- Определение классификации, метрики: доля правильных ответов (accuracy), точность (precision), полнотa (recall). PR-кривая. ROC-кривая.
- Обучение с учителем и без учителя. Валидация.
- Задачи классификации
- Алгоритмы классификации и их отличия
- Небольшое дз в питоне №4
Тема 6. Анализ текстовых данных
- Подробное изучение бизнес-кейса с тональностью комментариев к отелям с Tripadvisor
- Распознавание текста комментариев и их тональности. Изучение библиотек работы с текстом. Метод сбора данных из открытых источников.
- Разметка комментариев по тональности
- Обучение модельки, которая выявляет тональности у комментариев на размеченной выборке
- Применение модельки на новых комментариях
- Оценка результатов
- Дз в питоне №5: Накидать новые переменные в разобранную на семинаре модель, описать получившийся результат
Тема 7. Защита проектов с применением машинного обучения
- Необходимо разобрать реальный бизнес-кейс, который был решён при помощи машинного обучения и искусственного интеллекта.
- Описать бизнес-задачу, использованные методы и результаты.