Анализ данных в Python 2019-2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Дополнительные баллы)
Строка 25: Строка 25:
 
! Дата !! № !! Блокноты !! Данные !! Доп. материалы
 
! Дата !! № !! Блокноты !! Данные !! Доп. материалы
 
|-
 
|-
|| 11 сентября || Введение. Refresher: синтаксис Python для анализа данных ||  [https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/1week_Syntax_Refresher/1_Refresher_revised.ipynb Week 1 Syntax Refresher IPYNB]|| [http://www.py4inf.com/code/mbox.txt Mbox]|| [http://math-info.hse.ru/2018-19/%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D1%8B_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%B2_Python Вики-страница курса "Основы программирования в Python"] [https://courses.openedu.ru/courses/course-v1:hse+PYTHON+fall_2019/info Курс "Python для обработки и извлечения данных"] [http://nbviewer.math-hse.info/github/ischurov/pythonhse/blob/master/Lecture%205.ipynb Блокнот И. Щурова про словари, списковые включения, функцию map]
+
|| 11 сентября || Введение. Refresher: синтаксис Python для анализа данных ||  [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/1week_Syntax_Refresher/1_Refresher_revised.ipynb Week 1 Python Syntax Refresher]|| [http://www.py4inf.com/code/mbox.txt Mbox]|| [http://math-info.hse.ru/2018-19/%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D1%8B_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F_%D0%B2_Python Вики-страница курса "Основы программирования в Python"] [https://courses.openedu.ru/courses/course-v1:hse+PYTHON+fall_2019/info Курс "Python для обработки и извлечения данных"] [http://nbviewer.math-hse.info/github/ischurov/pythonhse/blob/master/Lecture%205.ipynb Блокнот И. Щурова про словари, списковые включения, функцию map]
 
|-
 
|-
|| 18 сентября || Введение в pandas: загружаем, фильтруем и агрегируем данные. || [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/2week_Pandas_Intro_Titanic/2_Pandas_Intro.ipynb Pandas Intro] || [https://github.com/rogovich/2019_POS_Sociology/blob/master/Data/2_3_Seminar.zip Titanic Train] || [https://pandas.pydata.org/ Документация Pandas] [https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html 10 min intro to Pandas] [https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf Pandas Cheat Sheet]
+
|| 18 сентября || Введение в pandas: загружаем, фильтруем и агрегируем данные. || [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/2week_Pandas_Intro_Titanic/2_Pandas_Intro.ipynb Week 2: Pandas Intro (Titanic)] || [https://raw.githubusercontent.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/master/2week_Pandas_Intro_Titanic/train.csv Данные Titanic] || [https://pandas.pydata.org/ Документация Pandas] [https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html 10 min intro to Pandas] [https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf Pandas Cheat Sheet]
 
|-
 
|-
|| 25 сентября || Продолжаем с Pandas. Знакомимся с Kaggle. Работаем с датами в Pandas. Упражнения || [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/3week_Pandas_Kaggle_DataTime/3week_Titanic_Kaggle_Predictions.ipynb Titanic Kaggle] [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/3week_Pandas_Kaggle_DataTime/3week_Pandas_Datetime.ipynb Pandas DateTime] [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/3week_Pandas_Kaggle_DataTime/3week_Exercise_MLopen_Olympics.ipynb Олимпийские упражнения] [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/3week_Pandas_Kaggle_DataTime/3week_Exercise_Datacamp_Iowa.ipynb DataCamp Iowa Exercise] || [https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/tree/master/3week_Pandas_Kaggle_DataTime Данные] || [https://nbviewer.jupyter.org/github/Yorko/mlcourse.ai/blob/master/jupyter_english/assignments_demo/assignment02_analyzing_cardiovascular_desease_data.ipynb?flush_cache=true Для тех, кто справился с "олимпийским" заданием] [https://jakevdp.github.io/PythonDataScienceHandbook/03.11-working-with-time-series.html Pandas Datetime like a pro] [https://nbviewer.jupyter.org/github/Yorko/mlcourse.ai/blob/master/jupyter_russian/topic01_pandas_data_analysis/topic1_habr_pandas.ipynb ODS Первичный анализ данных в Python (Telecom Churn)]
+
|| 25 сентября || Продолжаем с Pandas. Знакомимся с Kaggle. Работаем с датами в Pandas. Упражнения || [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/3week_Pandas_Kaggle_DataTime/3week_Titanic_Kaggle_Predictions.ipynb Week 3 Titanic Basic Predictions Kaggle]  
 +
[https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/3week_Pandas_Kaggle_DataTime/3week_Pandas_Datetime.ipynb Week 3 DateTime]  
 +
|| [https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv Данные для Datetime] [https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/tree/master/3week_Pandas_Kaggle_DataTime Данные для Титаника]
 +
|| [https://nbviewer.jupyter.org/github/Yorko/mlcourse.ai/blob/master/jupyter_russian/topic01_pandas_data_analysis/topic1_habr_pandas.ipynb ODS Первичный анализ данных в Python (Telecom Churn)]
 +
|-
 +
|| 2 октбяря || Самостоятельная работа || || ||
 +
|-
 +
|| 16 октября || Упражнения по Pandas. Разбираем кейс с парсингом почтовых адресов с помощью регулярных выражений || [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/5week_Pandas_Exercises/5week_Emails_parsing.ipynb Emails] [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/5week_Pandas_Exercises/5Week_Exercise_MLopen_Olympics.ipynb Pandas Упражнения] [https://nbviewer.jupyter.org/github/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/5week_Pandas_Exercises/5week_Exercise_MLopen_Olympics_Solution.ipynb Упражнения с решением] || [https://raw.githubusercontent.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/master/5week_Pandas_Exercises/data_contacts.csv Данные для email] [https://raw.githubusercontent.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/master/5week_Pandas_Exercises/athlete_events.csv Данные для упражнений]||
 +
[https://nbviewer.jupyter.org/github/Yorko/mlcourse.ai/blob/master/jupyter_english/assignments_demo/assignment02_analyzing_cardiovascular_desease_data.ipynb?flush_cache=true Для тех, кто справился с "олимпийским" заданием] [https://jakevdp.github.io/PythonDataScienceHandbook/03.11-working-with-time-series.html Pandas Datetime like a pro]
 +
|-
 +
|| 30 октября || Визуализация данных в matplotlib. ||  || [https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/tree/master/7week_Viz_Matplotlib Данные] [https://www.ssa.gov/oact/babynames/limits.html Данные по именам детей]
 
|}
 
|}
 
https://raw.githubusercontent.com/justmarkham/pandas-videos/master/data/ufo.csv
 
  
 
===Контрольные работы и домашние задания ===
 
===Контрольные работы и домашние задания ===

Версия 11:58, 31 октября 2019

О курсе

"Анализ данных в Python" читается на 4 курсе, в 1 и 2 модуле.

Преподаватель

Рогович Татьяна Владимировна

Ассистент

Инсан-Александр Латыпов

@Le_Figaro в Telegram

Материалы курса

Дистрибутив для установки Anaconda на собственные компьютеры

Пожалуйста, устанавливайте версию Python 3.7 и выше.

Лекции и семинары

Лекции и семинары

Дата Блокноты Данные Доп. материалы
11 сентября Введение. Refresher: синтаксис Python для анализа данных Week 1 Python Syntax Refresher Mbox Вики-страница курса "Основы программирования в Python" Курс "Python для обработки и извлечения данных" Блокнот И. Щурова про словари, списковые включения, функцию map
18 сентября Введение в pandas: загружаем, фильтруем и агрегируем данные. Week 2: Pandas Intro (Titanic) Данные Titanic Документация Pandas 10 min intro to Pandas Pandas Cheat Sheet
25 сентября Продолжаем с Pandas. Знакомимся с Kaggle. Работаем с датами в Pandas. Упражнения Week 3 Titanic Basic Predictions Kaggle

Week 3 DateTime

Данные для Datetime Данные для Титаника ODS Первичный анализ данных в Python (Telecom Churn)
2 октбяря Самостоятельная работа
16 октября Упражнения по Pandas. Разбираем кейс с парсингом почтовых адресов с помощью регулярных выражений Emails Pandas Упражнения Упражнения с решением Данные для email Данные для упражнений

Для тех, кто справился с "олимпийским" заданием Pandas Datetime like a pro

30 октября Визуализация данных в matplotlib. Данные Данные по именам детей

Контрольные работы и домашние задания

Дата Тема Файлы Оценки
2.10 13.40 Контрольная работа по синтаксису Python для решения задач Пробный вариант
TBA Контрольная работа по работе с данными в pandas
TBA Домашнее задание 1: сбор, анализ и визуализация данных
TBA Домашнее задание 2: скрейпинг, обработка и анализ текста

Дополнительные баллы

Задание Дедлайн Файлы Условия зачета
Задание 1 25.09 23.59 Задание 1 Правильно решить 10/11 задач
Задание 2 9.10 23.59 DataCamp курса Пройти курс по Pandas

Дополнительные баллы. Ведомость

Всего за семестр будет дано 12 небольших заданий. У каждого свой дедлайн. Задания будут выложены на вики и в ЛМС, решенные блокноты принимаются в ЛМС. После дедлайна задания не принимаются. В качестве некоторых заданий будет предложено пройти часть онлайн курса или выполнить его задания. Оценка за задание не ставится, задание считается выполненным, если оно выполено на 100% (допускаются небольшие помарки, в этом случае выполнение засчитывается на усмотрение преподавателя).

Дополнительные баллы рассчитываются по следующей формуле:

  • 12: 3 балла
  • 9+: 2 балла
  • 6-8: 1 балл
  • <6: 0 баллов

Баллы прибавляются к итоговой оценке до округления.

Экзамен

TBA

Оценка

Окончательная оценка = Округление(0.7 * ((КР1 + КР2 + ДЗ1 + ДЗ2) / 4) + 0.3 * Проект + ДБ)

Преподаватель оставляет за собой право устроить устную защиту любой из форм контроля.

Домашнее задание должно быть сдано до установленного дедлайна. В случае сдачи в течение суток после дедлайна, оценка снижается на 1 балл. В случае сдачи в течение недели после дедлайна, оценка снижается на 2 балла. Работы, сданные позже, не принимаются и за них выставляется оценка «0».

Дополнительные баллы. У студентов есть возможность получить до трех дополнительных баллов за выполнение необязательных заданий в течение семестра. Дополнительные баллы учитываются в итоговой оценке до округления с весом 1. Обратите внимания, что дополнительные задания, выполненные в рамках онлайн курса засчитываются только при условии прохождения исключительно с корпоративного почтового адреса студента. Подключение студентов к онлайн курсу на платформе НПОО (https://openedu.ru/) производит Дирекция по онлайн обучению НИУ ВШЭ по заявке администратора учебного офиса образовательной программы. Скрытая сессия для студентов ВШЭ автоматически появляется в личном аккаунте на платформе. Регистрироваться на открытую сессию для всех желающих слушателей нельзя. На платформе DataCamp слушатели приглашаются в специальную сессию, созданную преподавателем курса.

Список рекомендуемых материалов

Линейная алгебра и статистика

Python

Machine learning

Материала по ML

Статистика

  • Бослав С. Статистика для всех (Есть в библиотеке)
  • Gravetter F, Wallnau L. Statistics for behavioral sciences (Есть в библиотеке)

Web scraping