Введение в Data Science — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (добавил питонтюттор)
м (reference course added)
 
(не показана одна промежуточная версия 8 участников)
Строка 3: Строка 3:
  
 
[https://www.hse.ru/edu/courses/214347690 Программа курса]
 
[https://www.hse.ru/edu/courses/214347690 Программа курса]
 +
 +
[https://www.edureka.co/data-science-python-certification-course Data Science with Python]
  
 
== Критерии оценки ==
 
== Критерии оценки ==
Строка 31: Строка 33:
 
|-
 
|-
 
|2 || Обзор инструментов. Python || [https://drive.google.com/file/d/1CIN2jvRKzT4LCn1yeqDwg6jEZ_GG4pD0/view?usp=sharing Презентация к лекции 2]
 
|2 || Обзор инструментов. Python || [https://drive.google.com/file/d/1CIN2jvRKzT4LCn1yeqDwg6jEZ_GG4pD0/view?usp=sharing Презентация к лекции 2]
 +
|-
 +
|3 || Обзорная лекция про математику || [https://yadi.sk/i/RM1H38ZA3UTWcA Презентация к лекции 3]
 +
|-
 +
|4 || Этапы проекта. Рынок данных. Задачи Data Science || [https://yadi.sk/d/7UN_3Ybx3VKxow Презентация к лекции 4]
 +
|-
 +
|5 || Еще про Python. Кейс || Поток 1: [https://yadi.sk/i/oYPFkztu3Vt7dj Презентция]<br/> Поток 2: [https://yadi.sk/i/6Ux5uKNM3Vn774 Презентация к лекции 5]
 
|}
 
|}
  
Строка 51: Строка 59:
  
 
Для работы в классе (при желании) на собственных ноутбуках  и самостоятельного изучения рекомендуем установить [https://www.anaconda.com/download/#macos Anaconda], Python версии 3.6 и выше.  
 
Для работы в классе (при желании) на собственных ноутбуках  и самостоятельного изучения рекомендуем установить [https://www.anaconda.com/download/#macos Anaconda], Python версии 3.6 и выше.  
 +
 +
Внутри каждого IPython-ноутбука есть семинарский материал и задача для самостоятельного выполнения. Датасеты доступны либо в правом столбце, либо в каждом из ноутбуков есть ссылка на скачивание нужного датасета.
  
 
{| class="wikitable"
 
{| class="wikitable"
Строка 58: Строка 68:
 
|1 ||  Введение в язык || [https://drive.google.com/file/d/1DwknMxTcFXaRG_A9rk9IPDu_H2TsC1qm/view?usp=sharing Скачать IPython Notebook] || Нет
 
|1 ||  Введение в язык || [https://drive.google.com/file/d/1DwknMxTcFXaRG_A9rk9IPDu_H2TsC1qm/view?usp=sharing Скачать IPython Notebook] || Нет
 
|-
 
|-
|| 2 || Введение в Pandas || [https://drive.google.com/file/d/1C6T7LWMVaW6Vb2-Tv3NWZUUmz61A7XeT/view?usp=sharing Скачать IPython Notebook] || [https://drive.google.com/file/d/1Fe6BRqsp05V2bNhcUMXLJybC0XMQVbTL/view?usp=sharing Датасет для работы на семинаре]<br />
+
|| 2 || Введение в Pandas || [https://drive.google.com/file/d/1C6T7LWMVaW6Vb2-Tv3NWZUUmz61A7XeT/view?usp=sharing Скачать IPython Notebook]<br /> [https://drive.google.com/open?id=1XaDxM3nxl4WwpcA4PMndOGAZVeWDThxe Версия для семинаров после 2018-04-17] || [https://drive.google.com/file/d/1Fe6BRqsp05V2bNhcUMXLJybC0XMQVbTL/view?usp=sharing Датасет для работы на семинаре]<br />
[https://drive.google.com/file/d/16tb8VXhMcgaEDx_HGbhgGuHp5R8BQf6G/view?usp=sharing Датасет для самостоятельной работы]
+
[https://drive.google.com/file/d/16tb8VXhMcgaEDx_HGbhgGuHp5R8BQf6G/view?usp=sharing Датасет для самостоятельной работы]  
 
|-
 
|-
|| 3 || Описательная статистика в Python || [https://drive.google.com/file/d/1HgQP-_K_Tpibkp2LY3Fr51K_R9IPGXKd/view?usp=sharing Скачать IPython Notebook] || [https://drive.google.com/file/d/1sh0_GVMSPUR3IhtmXpXoBU4cEeRPU4y8/view?usp=sharing Датасет для самостоятельной работы]
+
|| 3 || Описательная статистика в Python || [https://drive.google.com/file/d/1cVcOdks4A6wuLqOgcsOY9wGnILro_qVH/view?usp=sharing Скачать IPython Notebook]<br /> [https://drive.google.com/file/d/1tgtiW6bml_STJGz5C2gZ2hERnLasruOF/view?usp=sharing Скачать IPython Notebook для БММ171 и БМБ178] || [https://drive.google.com/file/d/1sh0_GVMSPUR3IhtmXpXoBU4cEeRPU4y8/view?usp=sharing Датасет для самостоятельной работы]<br />
 +
[https://drive.google.com/file/d/1rjhFCTLrT9m-rjc3VMyH5bP01RnC8nJS/view?usp=sharing Датасет для работы на семинаре БММ171 и БМБ178]
 +
 
 
|-
 
|-
|| 4 ||  A/B-тестирование || [https://drive.google.com/file/d/1sLLkL5cTI1xpmrFkWNUYPS77niPSMXFc/view?usp=sharing Скачать IPython Notebook] || [https://drive.google.com/file/d/1YnEhORCGZnCRyLf7n_BP0bswH6qPqpxs/view?usp=sharing Датасет для работы в классе]<br />
+
|| 4 || Визуализация данных || [https://drive.google.com/file/d/1_bgzukQtG-bSeCF6HW3-f8DKwx6ZS29M/view?usp=sharing Скачать IPython Notebook]|| [https://drive.google.com/file/d/1rjhFCTLrT9m-rjc3VMyH5bP01RnC8nJS/view?usp=sharing Датасет для работы в классе]
 +
|-
 +
|| 5 ||  A/B-тестирование || [https://drive.google.com/file/d/1sLLkL5cTI1xpmrFkWNUYPS77niPSMXFc/view?usp=sharing Скачать IPython Notebook (старая версия)] <br />  [https://drive.google.com/open?id=1RIEi2fGdl56XqZtBo1LhfJbfOQyyDG02 Бутстрап-тестирование] <br />
 +
[https://drive.google.com/open?id=1IdMyBs5bgC-binh1MbG61KrwvQkp0NR1 Задание для самостоятельной работы БМБ 172 БМБ 175]
 +
|| [https://drive.google.com/file/d/1YnEhORCGZnCRyLf7n_BP0bswH6qPqpxs/view?usp=sharing Датасет для работы в классе (старая версия)] <br />  [https://drive.google.com/open?id=1Xa3V5AuPZZ54F5xp9WV7qtsYK9moYkwd Датасет для бутстрапа]<br />
 
[https://drive.google.com/file/d/1igElKsyaVe-TfcfQ5U5RA984GKmgYU9W/view?usp=sharing Датасет для самостоятельной работы]
 
[https://drive.google.com/file/d/1igElKsyaVe-TfcfQ5U5RA984GKmgYU9W/view?usp=sharing Датасет для самостоятельной работы]
 +
 
|-
 
|-
|| 5 || Визуализация данных || ||
+
|| 6 - 7|| Классификация. Метрики качества || [https://drive.google.com/open?id=13bX2Xbaj50CdkbkDH9UV5wGP5NtUCgEh Скачать IPython Notebook] <br />
|-
+
[https://drive.google.com/file/d/1XlLhwl31CQJJ4ep0SDCKdBb2SwCo3UPG/view?usp=sharing Скачать IPython Notebook для групп БМБ 172 БМБ 175 ] <br />
|| 6 - 7|| Классификация. Метрики качества || ||  
+
[https://drive.google.com/file/d/1EA3m_RqNka4hkeStq4qhh9jFJM4ncnSj/view?usp=sharing Скачать IPythonNotebook (для БММ171 и БМБ178)] <br />
|-
+
[https://drive.google.com/open?id=1WB8yINNXbQbX4g1PHntciJOs8SrqLgqW/view?usp=sharing Скачать IPythonNotebook (для БММ 172)]
|| 8 || Кластеризация || ||
+
||  
 +
[https://drive.google.com/open?id=1UXPjcNxd6ZmL2DBwR9AOF1Xwvor65WHJ Датасет для работы]
 +
 
 
|-
 
|-
|| 9 || Регрессия. Метрики качества || ||  
+
|| 8 || Кластеризация || [https://www.dropbox.com/s/thiwdx1byk6827o/Семинар_3_Кластеризация.ipynb?dl=0  ipython notebook] || [https://www.dropbox.com/s/xxzsr2j6lqi4bkb/FoodConsumptionInEurope.csv?dl=0 датасет]
 
|-
 
|-
|| 10 || Временные ряды || ||  
+
|| 9 || Регрессия. Метрики качества ||[https://yadi.sk/d/1F9cQGgX3WykbQ ipython notebook] || [https://yadi.sk/i/cj2Z5ZKg3Wykgs датасет]
 
|-
 
|-
|| 11 || Анализ текстов || ||  
+
|| 10 || Анализ текстов ||[https://yadi.sk/d/rSe-BnHU3XrkF4 ipython notebook] || [https://yadi.sk/i/UBd3Bzog3Xrm33 датасет для семинара] [https://yadi.sk/d/bb-Q7JUn3Xrm7C датасет для самостоятельной работы]
 
|}
 
|}
  
Строка 95: Строка 114:
 
[https://docs.google.com/spreadsheets/d/1iONOvIUpbYcbVPFijVQgUwgHwZmK9hfJNfxZkqXOwSA/edit?usp=sharing БМБ 178]<br />
 
[https://docs.google.com/spreadsheets/d/1iONOvIUpbYcbVPFijVQgUwgHwZmK9hfJNfxZkqXOwSA/edit?usp=sharing БМБ 178]<br />
  
== Источники данных ==
+
== Домашние задания ==
 +
=== Требования к датасетам ===
 +
* '''БМБ178, БММ171'''
 +
не менее 1000 объектов (строк),  не менее 5 признаков (5 колонок)
 +
 
 +
=== Источники данных ===
 
[https://www.kaggle.com/Datasets Kaggle Datasets]<br />
 
[https://www.kaggle.com/Datasets Kaggle Datasets]<br />
  
 
[http://archive.ics.uci.edu/ml/index.php UCI Machine Learning Repository]
 
[http://archive.ics.uci.edu/ml/index.php UCI Machine Learning Repository]
 +
 +
=== ДЗ №3 - постановка задачи ===
 +
[https://yadi.sk/i/BDwKaw8d3VhFfW Файл с заданием]<br />
 +
Срок - 25.05.2018 для всех групп.
 +
 +
=== Сроки сдачи ===
 +
{| class="wikitable"
 +
|-
 +
! Группа !! Адрес отправки ДЗ !! Дедлайн ДЗ1 !! Дедлайн ДЗ2 !! Дедлайн ДЗ3 !! Дедлайн ДЗ4 
 +
|-
 +
|БММ171 || managementdataculture@gmail.com || 31.05.2018, 23.59 (UTC +3) <br /> Тема письма: '''БММ171. ДЗ1. Фамилия'''<br /> [https://drive.google.com/file/d/1zI2kJYI-Wk1XJvcW_KEF1h-iGtD66P6P/view?usp=sharing Задание] || 16.06.2018, 23.59 (UTC +3)  Тема письма: БММ171. ДЗ2. Фамилия [https://docs.google.com/document/d/1DEfaeX72hG4jYOnNplHYwS0m4fHfDrxonHF7YiDttXg/edit?usp=sharing Задание] || [https://yadi.sk/i/BDwKaw8d3VhFfW Файл с заданием] 25.05.2018  || 16.06.2018, 23.59 (UTC +3) Тема письма: БММ171. ДЗ4. Фамилия [https://docs.google.com/document/d/1DEfaeX72hG4jYOnNplHYwS0m4fHfDrxonHF7YiDttXg/edit?usp=sharing Задание]
 +
|-
 +
|БММ172 || @ppillif в телеграме ||14.05.2018 || || ||
 +
|-
 +
|БММ173 || aaivanov_5@edu.hse.ru  || 11 мая 2018 г., 23.59 (UTC +3) || || ||
 +
|-
 +
|БМБ171 || marat.akhmatnurov@yandex.ru zhorasukasyan@ya.ru || 2018-05-11 23:59|| 2018-06-13 23:59|| || 2018-06-16 23:59
 +
|-
 +
|БМБ172 || eromanova@hse.ru || 10.05.2018, 23.59 (UTC +3) || || ||
 +
|-
 +
|БМБ173 || || || || ||
 +
|-
 +
|БМБ174 || || || || ||
 +
|-
 +
|БМБ175 || eromanova@hse.ru || 10.05.2018, 23.59 (UTC +3)  || || ||
 +
|-
 +
|БМБ176 || || || || ||
 +
|-
 +
|БМБ177 || || || || ||
 +
|-
 +
|БМБ178 || managementdataculture@gmail.com || 31.05.2018, 23.59 (UTC +3) <br /> Тема письма: '''БМБ178. ДЗ1. Фамилия'''<br /> [https://drive.google.com/file/d/1zI2kJYI-Wk1XJvcW_KEF1h-iGtD66P6P/view?usp=sharing Задание] || 16.06.2018, 23.59 (UTC +3) Тема письма: БМБ178. ДЗ2. Фамилия [https://docs.google.com/document/d/1DEfaeX72hG4jYOnNplHYwS0m4fHfDrxonHF7YiDttXg/edit?usp=sharing Задание] || [https://yadi.sk/i/BDwKaw8d3VhFfW Файл с заданием] 25.05.2018  || 16.06.2018, 23.59 (UTC +3) Тема письма: БМБ178. ДЗ4. Фамилия [https://docs.google.com/document/d/1DEfaeX72hG4jYOnNplHYwS0m4fHfDrxonHF7YiDttXg/edit?usp=sharing Задание]
 +
 +
|}
  
 
== Дополнительное ==
 
== Дополнительное ==
 
=== Материалы ===
 
=== Материалы ===
  
http://pythontutor.ru/ Интерактивное введение в python на русском языке
+
* [http://pythontutor.ru/ Интерактивное введение в python на русском языке]
  
https://hub.mybinder.org/user/ipython-ipython-in-depth-sb49fn69/notebooks/binder/Index.ipynb Введение в IPython
+
* [https://hub.mybinder.org/user/ipython-ipython-in-depth-sb49fn69/notebooks/binder/Index.ipynb Введение в IPython]
 
(Изучите хотя бы первую часть Notebook Basics (знакомство с интефейсом))
 
(Изучите хотя бы первую часть Notebook Basics (знакомство с интефейсом))
  
[https://github.com/rougier/numpy-100 100 упражнений для numpy]<br />
+
* [https://github.com/rougier/numpy-100 100 упражнений для numpy]<br />
 
Сборник из 100 упражнений для знакомства с библиотекой  numpy: есть версии без ответов и подсказок, с подсказками, с эталонными ответами
 
Сборник из 100 упражнений для знакомства с библиотекой  numpy: есть версии без ответов и подсказок, с подсказками, с эталонными ответами
 +
 +
* [https://assets.datacamp.com/blog_assets/PandasPythonForDataScience.pdf Pandas CheatSheet]
 +
 +
* [https://www.kaggle.com/learn/pandas Learn Pandas on Kaggle]<br />
 +
Короткие уроки на платформе Kaggle, чтобы закрепить навыки работы с Pandas. Нужно зарегистрироваться, открыть урок, нажать кнопку "Fork" и писать код :)
  
 
=== Мероприятия ===
 
=== Мероприятия ===
Строка 122: Строка 184:
 
* alexander.belugin@outlook.com
 
* alexander.belugin@outlook.com
  
Александр Антонов
+
'''[https://www.hse.ru/org/persons/218009892 Александр Антонов]'''
 
* [https://t.me/alantonov @alantonov]
 
* [https://t.me/alantonov @alantonov]
 
* alexantonov@gmail.com
 
* alexantonov@gmail.com
  
 
=== Семинары ===
 
=== Семинары ===
 +
 +
'''[https://www.hse.ru/staff/dmitryserg Дмитрий Сергеев]'''
 +
*@dmitryserg (Telegram)
 +
* [https://vk.com/id91857120 vk Дмитрий Сергеев]
  
 
'''[https://www.hse.ru/org/persons/218009880 Ульянкин Филипп ]'''
 
'''[https://www.hse.ru/org/persons/218009880 Ульянкин Филипп ]'''

Текущая версия на 10:30, 27 августа 2021

О курсе

Курс для студентов 1 курса ФБиМ направлений "Маркетинг и рыночная аналитика" и "Управление бизнесом"

Программа курса

Data Science with Python

Критерии оценки

Оценка за курс = 0.4*Семинары + 0.4*ДЗ + 0.2*Экзамен
Округление осуществляется по арифметическим правилам.

Семинары

  • На каждом семинаре выполняется небольшая самостоятельная работы по пройденной семе
  • Дедлайн семинарской работы - до конца занятия, но по решению преподавателя может быть отложен.
  • Система оценивания бинарная: 1 - если задание выполнено, 0 - если задание не сделано/сдано после дедлайна
  • Предусмотрено 11 семинаров
  • В конце семестра суммируется число выполненных заданий (max 11); сумма пропорционально переводится в 10-балльную шкалу
  • Студенты имеют право сдать строго 1 задание, не присутствуя на семинаре, в течение курса.

Домашние задания

  • В курсе предусмотрено 4 домашних задания
  • Дедлайны устаналиваются каждой группе индивидуально преподавателем. О сроках сдачи сообщают не менее, чем за 2 недели до дедлайна.

Экзамен

Материалы курса

Лекции

Тема Презентация !
1 Введение Презентация к лекции 1
2 Обзор инструментов. Python Презентация к лекции 2
3 Обзорная лекция про математику Презентация к лекции 3
4 Этапы проекта. Рынок данных. Задачи Data Science Презентация к лекции 4
5 Еще про Python. Кейс Поток 1: Презентция
Поток 2: Презентация к лекции 5

Инструкция по установке и запуску среды

Скачать и установить анаконду:

1. Заходим по ссылке https://www.anaconda.com/download В центре надпись Download for, выбираем нужную ОС

2. Нажимаем на кнопку Download (Python 3.6 version) Дальше следуем инструкции https://docs.anaconda.com/anaconda/install/windows (для windows) https://docs.anaconda.com/anaconda/install/mac-os#macos-graphical-install (для macOS)

Домашнее задание и семнары вы будете выполнять в Jupyter'е. Чтобы его запустить, нужно открыть Ananconda Navigator и там под иконкой Jupyter Notebook (не путать с Jupyterlab) нажать на launch.


Семинары

Для работы в классе (при желании) на собственных ноутбуках и самостоятельного изучения рекомендуем установить Anaconda, Python версии 3.6 и выше.

Внутри каждого IPython-ноутбука есть семинарский материал и задача для самостоятельного выполнения. Датасеты доступны либо в правом столбце, либо в каждом из ноутбуков есть ссылка на скачивание нужного датасета.

Тема Ноутбук Датасет
1 Введение в язык Скачать IPython Notebook Нет
2 Введение в Pandas Скачать IPython Notebook
Версия для семинаров после 2018-04-17
Датасет для работы на семинаре

Датасет для самостоятельной работы

3 Описательная статистика в Python Скачать IPython Notebook
Скачать IPython Notebook для БММ171 и БМБ178
Датасет для самостоятельной работы

Датасет для работы на семинаре БММ171 и БМБ178

4 Визуализация данных Скачать IPython Notebook Датасет для работы в классе
5 A/B-тестирование Скачать IPython Notebook (старая версия)
Бутстрап-тестирование

Задание для самостоятельной работы БМБ 172 БМБ 175

Датасет для работы в классе (старая версия)
Датасет для бутстрапа

Датасет для самостоятельной работы

6 - 7 Классификация. Метрики качества Скачать IPython Notebook

Скачать IPython Notebook для групп БМБ 172 БМБ 175
Скачать IPythonNotebook (для БММ171 и БМБ178)
Скачать IPythonNotebook (для БММ 172)

Датасет для работы

8 Кластеризация ipython notebook датасет
9 Регрессия. Метрики качества ipython notebook датасет
10 Анализ текстов ipython notebook датасет для семинара датасет для самостоятельной работы

Рабочие ведомости

Маркетинг и рыночная аналитика

БММ 171
БММ 172
БММ 173

Управление бизнесом

БМБ 171
БМБ 172
БМБ 173
БМБ 174
БМБ 175
БМБ 176
БМБ 177
БМБ 178

Домашние задания

Требования к датасетам

  • БМБ178, БММ171

не менее 1000 объектов (строк), не менее 5 признаков (5 колонок)

Источники данных

Kaggle Datasets

UCI Machine Learning Repository

ДЗ №3 - постановка задачи

Файл с заданием
Срок - 25.05.2018 для всех групп.

Сроки сдачи

Группа Адрес отправки ДЗ Дедлайн ДЗ1 Дедлайн ДЗ2 Дедлайн ДЗ3 Дедлайн ДЗ4
БММ171 managementdataculture@gmail.com 31.05.2018, 23.59 (UTC +3)
Тема письма: БММ171. ДЗ1. Фамилия
Задание
16.06.2018, 23.59 (UTC +3) Тема письма: БММ171. ДЗ2. Фамилия Задание Файл с заданием 25.05.2018 16.06.2018, 23.59 (UTC +3) Тема письма: БММ171. ДЗ4. Фамилия Задание
БММ172 @ppillif в телеграме 14.05.2018
БММ173 aaivanov_5@edu.hse.ru 11 мая 2018 г., 23.59 (UTC +3)
БМБ171 marat.akhmatnurov@yandex.ru zhorasukasyan@ya.ru 2018-05-11 23:59 2018-06-13 23:59 2018-06-16 23:59
БМБ172 eromanova@hse.ru 10.05.2018, 23.59 (UTC +3)
БМБ173
БМБ174
БМБ175 eromanova@hse.ru 10.05.2018, 23.59 (UTC +3)
БМБ176
БМБ177
БМБ178 managementdataculture@gmail.com 31.05.2018, 23.59 (UTC +3)
Тема письма: БМБ178. ДЗ1. Фамилия
Задание
16.06.2018, 23.59 (UTC +3) Тема письма: БМБ178. ДЗ2. Фамилия Задание Файл с заданием 25.05.2018 16.06.2018, 23.59 (UTC +3) Тема письма: БМБ178. ДЗ4. Фамилия Задание

Дополнительное

Материалы

(Изучите хотя бы первую часть Notebook Basics (знакомство с интефейсом))

Сборник из 100 упражнений для знакомства с библиотекой numpy: есть версии без ответов и подсказок, с подсказками, с эталонными ответами

Короткие уроки на платформе Kaggle, чтобы закрепить навыки работы с Pandas. Нужно зарегистрироваться, открыть урок, нажать кнопку "Fork" и писать код :)

Мероприятия

Data & Science: управление проектами, 14 апреля 2018, Москва — События Яндекса

Преподаватели

Лекции

Александр Белугин

Александр Антонов

Семинары

Дмитрий Сергеев

Ульянкин Филипп

  • @ppilif (Telegram)
  • /ppilif (vk.com)

Василий Панин

  • @VasilyPanin (Telegram)

Валерий Бабушкин

Елена Романова

Ольга Дайховская

Элен Теванян


Марат Ахматнуров

  • marat.akhmatnurov@yandex.ru
  • @maratakhmatnurov (Telegram, in case of emergency)