Анализ данных в Python 2020-2021 — различия между версиями
Rogovich (обсуждение | вклад) |
Rogovich (обсуждение | вклад) |
||
(не показана одна промежуточная версия этого же участника) | |||
Строка 4: | Строка 4: | ||
* [https://www.hse.ru/ba/political/courses/375301964.html Программа] | * [https://www.hse.ru/ba/political/courses/375301964.html Программа] | ||
* [https://t.me/joinchat/BVSknBmorE6t6qtUtwhucA Чат курса в Telegram] | * [https://t.me/joinchat/BVSknBmorE6t6qtUtwhucA Чат курса в Telegram] | ||
+ | * [https://docs.google.com/spreadsheets/d/1cBEsiEBY86Fu6BgwXrOXBpI00FnRfT0rG96m8Ltp8p4/edit#gid=0 Ведомость] | ||
==Преподаватель== | ==Преподаватель== | ||
Строка 20: | Строка 21: | ||
Записи занятий на youtube: [https://www.youtube.com/playlist?list=PLEwK9wdS5g0pQEYHkLoQRynJM5UmICCAW жмяк] | Записи занятий на youtube: [https://www.youtube.com/playlist?list=PLEwK9wdS5g0pQEYHkLoQRynJM5UmICCAW жмяк] | ||
===Лекции и семинары=== | ===Лекции и семинары=== | ||
+ | Все блокноты и семинары: [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python репозиторий] | ||
+ | |||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! Дата !! № !! Блокноты !! Данные !! Доп. материалы | + | ! Дата !! № !! Блокноты и презентации !! Данные !! Доп. материалы |
|- | |- | ||
|| 17.09, 24.09 || Python Refresher || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/tree/master/01_Python_Refresher Блокноты] || || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/tree/master/01_Python_Refresher/%40Problems Задачи и решения] | || 17.09, 24.09 || Python Refresher || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/tree/master/01_Python_Refresher Блокноты] || || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/tree/master/01_Python_Refresher/%40Problems Задачи и решения] | ||
|- | |- | ||
− | || 1.10 || Numpy. | + | || 1.10 || Numpy || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/02_Numpy/2_1_Numpy.ipynb Блокнот] || || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/02_Numpy/2_2_Numpy_Problems.ipynb Задачи для самопроверки] |
+ | |- | ||
+ | || 15.10, 27.10 || Intro to Pandas (Titanic) || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/03_Pandas/3_1_Pandas_Intro.ipynb Блокнот] || [https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/train.csv train.csv] || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/03_Pandas/3_2_Pandas_Problems.ipynb Задачи для самопроверки] | ||
+ | |- | ||
+ | || 3.11 || Pandas DateTime. Визуализация с Matplotlib || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/03_Pandas/3_3_Pandas_Datetime.ipynb DataTime блокнот] [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/04_VIZ_Matplotlib/4_1_Viz_Matplotlib.ipynb Matplotlib блокнот] | ||
+ | || [https://raw.githubusercontent.com/rogovich/Data/master/data/ufo/ufo.csv ufo.csv] [https://raw.githubusercontent.com/rogovich/Data/master/data/populations.txt populations.csv] [https://raw.githubusercontent.com/rogovich/Data/master/data/crimeRatesByState2005.tsv crimeRatesByState2005.tsv] [https://raw.githubusercontent.com/rogovich/Data/master/data/gapminderData.csv gapminderData.csv] [https://raw.githubusercontent.com/rogovich/Data/master/data/bodycount_Directors_Genra.csv Films] || | ||
+ | |- | ||
+ | || 10.11 || Визуализация в Plotly. || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/05_VIZ_Plotly/5_1_Plotly.ipynb Plotly блокнот] | ||
+ | [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/05_VIZ_Plotly/5_2_Plotly_Spiderchart.ipynb Spiderchart блокнот] | ||
+ | || [https://raw.githubusercontent.com/rogovich/Data/master/data/countries_radar_plot.txt Spidertchart data] [https://raw.githubusercontent.com/rogovich/Data/master/data/iris.csv iris data] [https://raw.githubusercontent.com/rogovich/Data/master/data/biggest_tests.csv Nuclear tests] [https://raw.githubusercontent.com/rogovich/Data/master/data/tests_coor.csv Coordinates] || | ||
+ | |- | ||
+ | || 17.11 || Web-scraping ||[https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/tree/master/06_Scraping Блокноты] || || | ||
+ | |- | ||
+ | || 20.11 || Введение в ML || [https://docs.google.com/presentation/d/1iz_64A_nWXcFhHi0_rv931SPKQ-ONI28AvUKMey1BCo/edit?usp=sharing Что такое данные и какие задачи может решать ML? Презентация] || || | ||
+ | |- | ||
+ | || 24.11 || Логика решения задач ML || [https://docs.google.com/presentation/d/1bgDLXdZy2FIh1D-OhvrmCT5E6wQ1-hAu5b4y0UWccPs/edit?usp=sharing Презентация] [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/07_ML_Intro/7_1_Titanic_Kaggle_Predictions.ipynb Kaggle блокнот] || [https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/gender_submission.csv gender_submission] [https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/train.csv train.csv] [https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/test.csv test.csv] || | ||
+ | |- | ||
+ | || 1.12 - 4.12 || Логика машинного обучения. Решающее дерево и случайный лес || [https://docs.google.com/presentation/d/10FrEl-4Qrz41c3-g-EtgAS8O6VDxOKojZKbcw2cpp7g/edit?usp=sharing Презентация] [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/07_ML_Intro/7_2_Houses_EDA.ipynb EDA Блокнот] [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/07_ML_Intro/7_3_Houses_ML.ipynb Предсказываем цену домов. Блокнот] [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/07_ML_Intro/7_3_Houses_ML.ipynb Дома. Для урока] || [https://raw.githubusercontent.com/rogovich/Data/master/data/house_data.csv Дома. Данные] || | ||
+ | |- | ||
+ | || 8.12 || ML: задача классификации. Cross validation и grid search || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/07_ML_Intro/7_5_Titanic_Kaggle.ipynb Титаник: блокнот для занятия] || || | ||
|- | |- | ||
|} | |} | ||
Строка 34: | Строка 56: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! ДЗ !! Дедлайн !! | + | ! ДЗ !! Дедлайн !! Файлы |
|- | |- | ||
− | || ДЗ1: Python || 1.10 23.59 || | + | || ДЗ1: Python || 1.10 23.59 || |
|- | |- | ||
− | || ДЗ2: Pandas & Viz || | + | || ДЗ2: Pandas & Viz || 1.12 23.59 || [https://docs.google.com/document/d/1cYtkPh11xbMIT6wEsgamx9T_n7gr2zsDro_rpd_sRMs/edit?usp=sharing ДЗ] |
|- | |- | ||
− | || ДЗ3: KNN || | + | || ДЗ3: KNN || 11.12 23.59 || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/%40HW/3HW/HW_3_KNN.ipynb ДЗ3] |
|- | |- | ||
− | || ДЗ4: ML || | + | || ДЗ4: ML || 15.12 23.59 || Демо-вариант КР |
|- | |- | ||
Строка 65: | Строка 87: | ||
===Дополнительные баллы=== | ===Дополнительные баллы=== | ||
+ | |||
+ | '''Дополнительные баллы рассчитываются по следующей формуле: | ||
+ | |||
+ | * 8+ заданий: 1.5 балла | ||
+ | * 5-7 заданий: 1 балл | ||
+ | * <5 заданий: 0 баллов | ||
+ | |||
+ | Баллы прибавляются к итоговой оценке до округления.''' | ||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | ! Номер !! Платформа !! Дедлайн | ||
+ | |- | ||
+ | | 1 || DataCamp. Pandas || 3 ноября 23.59 | ||
+ | |- | ||
+ | | 2 || LMS. Pandas || 11 ноября 23.59 | ||
+ | |- | ||
+ | | 3 || DataCamp. Viz || 18 ноября 23.59 | ||
+ | |- | ||
+ | | 4 || DataCamp. Project || 25 ноября 23.59 | ||
+ | |- | ||
+ | | 5 || Scraping || 3 декабря 23.59 | ||
+ | |- | ||
+ | | 6 || KNN (ДЗ) + 2 балла || 11 декабря 23.59 | ||
+ | |- | ||
+ | | 7 || DC || 20 декабря 23.59 | ||
+ | |- | ||
+ | | 8 || DC + 2 балла || 27 декабря 23.59 | ||
+ | |- | ||
+ | |} | ||
+ | |||
У студентов есть возможность получить до полутора | У студентов есть возможность получить до полутора | ||
Строка 83: | Строка 135: | ||
Задания будут выложены на вики и в ЛМС, решенные блокноты принимаются в ЛМС. После дедлайна задания не принимаются. | Задания будут выложены на вики и в ЛМС, решенные блокноты принимаются в ЛМС. После дедлайна задания не принимаются. | ||
В качестве некоторых заданий будет предложено пройти часть онлайн курса или выполнить его задания. | В качестве некоторых заданий будет предложено пройти часть онлайн курса или выполнить его задания. | ||
− | Оценка за задание не ставится, задание считается выполненным, если оно | + | Оценка за задание не ставится, задание считается выполненным, если оно выполнено на 100% (допускаются небольшие помарки, в этом случае выполнение засчитывается на усмотрение преподавателя). |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
===Экзамен=== | ===Экзамен=== | ||
− | + | [https://docs.google.com/document/d/1va0obkBPIpdLTZa4vT_RO0nFKjFUiuTV1neuBItFdoE/edit?usp=sharing Описание экзамена и требования] | |
===Оценка=== | ===Оценка=== |
Текущая версия на 14:28, 15 декабря 2020
Содержание
О курсе
"Анализ данных в Python" читается на 4 курсе, в 1 и 2 модуле.
Преподаватель
Рогович Татьяна Владимировна
Ассистент
Инсан-Александр Латыпов
- @Le_Figaro в Telegram
Материалы курса
Дистрибутив для установки Anaconda на собственные компьютеры Пожалуйста, устанавливайте версию Python 3.7 и выше.
Лекции и семинары
Записи занятий на youtube: жмяк
Лекции и семинары
Все блокноты и семинары: репозиторий
Дата | № | Блокноты и презентации | Данные | Доп. материалы |
---|---|---|---|---|
17.09, 24.09 | Python Refresher | Блокноты | Задачи и решения | |
1.10 | Numpy | Блокнот | Задачи для самопроверки | |
15.10, 27.10 | Intro to Pandas (Titanic) | Блокнот | train.csv | Задачи для самопроверки |
3.11 | Pandas DateTime. Визуализация с Matplotlib | DataTime блокнот Matplotlib блокнот | ufo.csv populations.csv crimeRatesByState2005.tsv gapminderData.csv Films | |
10.11 | Визуализация в Plotly. | Plotly блокнот | Spidertchart data iris data Nuclear tests Coordinates | |
17.11 | Web-scraping | Блокноты | ||
20.11 | Введение в ML | Что такое данные и какие задачи может решать ML? Презентация | ||
24.11 | Логика решения задач ML | Презентация Kaggle блокнот | gender_submission train.csv test.csv | |
1.12 - 4.12 | Логика машинного обучения. Решающее дерево и случайный лес | Презентация EDA Блокнот Предсказываем цену домов. Блокнот Дома. Для урока | Дома. Данные | |
8.12 | ML: задача классификации. Cross validation и grid search | Титаник: блокнот для занятия |
Домашние задания
Домашние задания находим в проектах в ЛМС и там же сдаем.
ДЗ | Дедлайн | Файлы |
---|---|---|
ДЗ1: Python | 1.10 23.59 | |
ДЗ2: Pandas & Viz | 1.12 23.59 | ДЗ |
ДЗ3: KNN | 11.12 23.59 | ДЗ3 |
ДЗ4: ML | 15.12 23.59 | Демо-вариант КР |
Контрольные работы
КР | ДАТА | Тестовый вариант |
---|---|---|
КР1: Python | 8.10 11:10 | Жмяк |
КР2: Анализ данных и ML | 18.12 |
КР1
- Проводится во время занятия по расписанию.
- Тест и задачи будут опубликованы на online.hse.ru (проверьте логины заранее, мы не сможем вам оперативно помочь!)
- Задания по типу и количеству аналогичны демонстрационному варианту.
- Во время контрольной у вас должна быть включена камера в zoom и предоставлен доступ к экрану (прокторинг нашими силами на минималках).
Дополнительные баллы
Дополнительные баллы рассчитываются по следующей формуле:
- 8+ заданий: 1.5 балла
- 5-7 заданий: 1 балл
- <5 заданий: 0 баллов
Баллы прибавляются к итоговой оценке до округления.
Номер | Платформа | Дедлайн |
---|---|---|
1 | DataCamp. Pandas | 3 ноября 23.59 |
2 | LMS. Pandas | 11 ноября 23.59 |
3 | DataCamp. Viz | 18 ноября 23.59 |
4 | DataCamp. Project | 25 ноября 23.59 |
5 | Scraping | 3 декабря 23.59 |
6 | KNN (ДЗ) + 2 балла | 11 декабря 23.59 |
7 | DC | 20 декабря 23.59 |
8 | DC + 2 балла | 27 декабря 23.59 |
У студентов есть возможность получить до полутора
дополнительных баллов за выполнение необязательных заданий в течение
семестра. Дополнительные баллы учитываются в итоговой оценке до
округления с весом 1. Обратите внимания, что дополнительные задания,
выполненные в рамках онлайн курса засчитываются только при условии
прохождения исключительно с корпоративного почтового адреса студента.
Подключение студентов к онлайн курсу на платформе НПОО
(https://openedu.ru/) производит Дирекция по онлайн обучению НИУ ВШЭ
по заявке администратора учебного офиса образовательной программы.
Скрытая сессия для студентов ВШЭ автоматически появляется в личном
аккаунте на платформе. Регистрироваться на открытую сессию для всех
желающих слушателей нельзя. На платформе DataCamp слушатели
приглашаются в специальную сессию, созданную преподавателем курса.
Всего за семестр будет дано 10 небольших заданий. У каждого свой дедлайн. Задания будут выложены на вики и в ЛМС, решенные блокноты принимаются в ЛМС. После дедлайна задания не принимаются. В качестве некоторых заданий будет предложено пройти часть онлайн курса или выполнить его задания. Оценка за задание не ставится, задание считается выполненным, если оно выполнено на 100% (допускаются небольшие помарки, в этом случае выполнение засчитывается на усмотрение преподавателя).
Экзамен
Описание экзамена и требования
Оценка
Окончательная оценка = Округление(0.35 * среднее(Домашние задания) + 0.35 * среднее(Контрольные работы) + 0.3 * Экзамен)
Домашние задания выдаются по темам: программирование на Python, скрейпинг, визуализация, реализация алгоритма kNN. Контрольные работы по темам: программирование на Python, работа с данными Pandas.
Формат контрольных работ пока не определен (очно или дистанционно), будет сообщено позднее.
Преподаватель оставляет за собой право изменить темы домашних и контрольных работы, а также устроить устную защиту любой из форм контроля.
Домашнее задание должно быть сдано до установленного дедлайна. В случае сдачи в течение суток после дедлайна, оценка снижается на 1 балл. В случае сдачи в течение недели после дедлайна, оценка снижается на 2 балла. Работы, сданные позже, не принимаются и за них выставляется оценка «0».
Список рекомендуемых материалов
Линейная алгебра и статистика
- Hastie, Tibshirani, Friedman. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction.
- Lavine. (2013). Introduction to Statistical Thought
- MIT Open course: Linear Algebra by Strang
Python
- Pandas Cheat Sheet
- Python RegExp Cheat Sheet
- O'Reilly: Python for Data Analysis
- Базовый курс по программированию на Stepik
Machine learning
- Bishop. (2006). Pattern Recognition and Machine Learning
- Курс по машинному обучению К.В. Воронцова
- Coursera: Machine Learning by Andrew Ng
- O'Reilly: Machine Learning for Hackers
Материала по ML
- Simple Decision Tree
- Andreas C. Müller, Sarah Guido. Introduction to Machine Learning with Python: A Guide for Data Scientists
Статистика
- Бослав С. Статистика для всех (Есть в библиотеке)
- Gravetter F, Wallnau L. Statistics for behavioral sciences (Есть в библиотеке)