Анализ данных в Python 2020-2021 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Новая страница: «== О курсе == "Анализ данных в Python" читается на 4 курсе, в 1 и 2 модуле. * [https://www.hse.ru/ba/political/courses/…»)
 
 
(не показаны 42 промежуточные версии этого же участника)
Строка 4: Строка 4:
 
* [https://www.hse.ru/ba/political/courses/375301964.html Программа]
 
* [https://www.hse.ru/ba/political/courses/375301964.html Программа]
 
* [https://t.me/joinchat/BVSknBmorE6t6qtUtwhucA Чат курса в Telegram]
 
* [https://t.me/joinchat/BVSknBmorE6t6qtUtwhucA Чат курса в Telegram]
 +
* [https://docs.google.com/spreadsheets/d/1cBEsiEBY86Fu6BgwXrOXBpI00FnRfT0rG96m8Ltp8p4/edit#gid=0 Ведомость]
  
 
==Преподаватель==
 
==Преподаватель==
Строка 11: Строка 12:
 
==Ассистент==
 
==Ассистент==
 
Инсан-Александр Латыпов
 
Инсан-Александр Латыпов
@Le_Figaro в Telegram
+
* @Le_Figaro в Telegram
  
 
== Материалы курса ==
 
== Материалы курса ==
Строка 18: Строка 19:
  
 
== Лекции и семинары ==
 
== Лекции и семинары ==
 +
Записи занятий на youtube: [https://www.youtube.com/playlist?list=PLEwK9wdS5g0pQEYHkLoQRynJM5UmICCAW жмяк]
 
===Лекции и семинары===
 
===Лекции и семинары===
 +
Все блокноты и семинары: [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python репозиторий]
 +
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
! Дата !! № !! Блокноты !! Данные !! Доп. материалы
+
! Дата !! № !! Блокноты и презентации !! Данные !! Доп. материалы
 +
|-
 +
|| 17.09, 24.09 || Python Refresher ||  [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/tree/master/01_Python_Refresher Блокноты] || || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/tree/master/01_Python_Refresher/%40Problems Задачи и решения]
 +
|-
 +
|| 1.10 || Numpy ||  [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/02_Numpy/2_1_Numpy.ipynb Блокнот] ||  || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/02_Numpy/2_2_Numpy_Problems.ipynb Задачи для самопроверки]
 +
|-
 +
|| 15.10, 27.10 || Intro to Pandas (Titanic) ||  [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/03_Pandas/3_1_Pandas_Intro.ipynb Блокнот] || [https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/train.csv train.csv] || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/03_Pandas/3_2_Pandas_Problems.ipynb Задачи для самопроверки]
 +
|-
 +
|| 3.11 || Pandas DateTime. Визуализация с Matplotlib || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/03_Pandas/3_3_Pandas_Datetime.ipynb DataTime блокнот] [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/04_VIZ_Matplotlib/4_1_Viz_Matplotlib.ipynb Matplotlib блокнот]
 +
|| [https://raw.githubusercontent.com/rogovich/Data/master/data/ufo/ufo.csv ufo.csv] [https://raw.githubusercontent.com/rogovich/Data/master/data/populations.txt populations.csv] [https://raw.githubusercontent.com/rogovich/Data/master/data/crimeRatesByState2005.tsv crimeRatesByState2005.tsv] [https://raw.githubusercontent.com/rogovich/Data/master/data/gapminderData.csv gapminderData.csv] [https://raw.githubusercontent.com/rogovich/Data/master/data/bodycount_Directors_Genra.csv Films] ||
 +
|-
 +
|| 10.11 || Визуализация в Plotly. || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/05_VIZ_Plotly/5_1_Plotly.ipynb Plotly блокнот]
 +
[https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/05_VIZ_Plotly/5_2_Plotly_Spiderchart.ipynb Spiderchart блокнот]
 +
|| [https://raw.githubusercontent.com/rogovich/Data/master/data/countries_radar_plot.txt Spidertchart data] [https://raw.githubusercontent.com/rogovich/Data/master/data/iris.csv iris data] [https://raw.githubusercontent.com/rogovich/Data/master/data/biggest_tests.csv Nuclear tests] [https://raw.githubusercontent.com/rogovich/Data/master/data/tests_coor.csv Coordinates] ||
 +
|-
 +
|| 17.11 || Web-scraping ||[https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/tree/master/06_Scraping Блокноты] || ||
 +
|-
 +
|| 20.11 || Введение в ML || [https://docs.google.com/presentation/d/1iz_64A_nWXcFhHi0_rv931SPKQ-ONI28AvUKMey1BCo/edit?usp=sharing Что такое данные и какие задачи может решать ML? Презентация]  || ||
 +
|-
 +
|| 24.11 || Логика решения задач ML || [https://docs.google.com/presentation/d/1bgDLXdZy2FIh1D-OhvrmCT5E6wQ1-hAu5b4y0UWccPs/edit?usp=sharing Презентация] [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/07_ML_Intro/7_1_Titanic_Kaggle_Predictions.ipynb Kaggle блокнот] || [https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/gender_submission.csv gender_submission] [https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/train.csv train.csv] [https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/test.csv test.csv] ||
 +
|-
 +
|| 1.12 - 4.12 || Логика машинного обучения. Решающее дерево и случайный лес || [https://docs.google.com/presentation/d/10FrEl-4Qrz41c3-g-EtgAS8O6VDxOKojZKbcw2cpp7g/edit?usp=sharing Презентация] [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/07_ML_Intro/7_2_Houses_EDA.ipynb EDA Блокнот] [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/07_ML_Intro/7_3_Houses_ML.ipynb Предсказываем цену домов. Блокнот] [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/07_ML_Intro/7_3_Houses_ML.ipynb Дома. Для урока] || [https://raw.githubusercontent.com/rogovich/Data/master/data/house_data.csv Дома. Данные] ||
 
|-
 
|-
|| 17.09 || Python Refresher || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/tree/master/01_Python_Refresher Блокноты] || ||
+
|| 8.12 || ML: задача классификации. Cross validation и grid search || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/07_ML_Intro/7_5_Titanic_Kaggle.ipynb Титаник: блокнот для занятия] || ||
 
|-
 
|-
 
|}
 
|}
 +
 +
===Домашние задания===
 +
Домашние задания находим в проектах в ЛМС и там же сдаем.
 +
{| class="wikitable"
 +
|-
 +
! ДЗ !! Дедлайн !! Файлы
 +
|-
 +
|| ДЗ1: Python || 1.10 23.59 ||
 +
|-
 +
|| ДЗ2: Pandas & Viz || 1.12 23.59 || [https://docs.google.com/document/d/1cYtkPh11xbMIT6wEsgamx9T_n7gr2zsDro_rpd_sRMs/edit?usp=sharing ДЗ]
 +
|-
 +
|| ДЗ3: KNN || 11.12 23.59 || [https://github.com/rogovich/2020_POL_Data_Analysis_in_Python/blob/master/%40HW/3HW/HW_3_KNN.ipynb ДЗ3]
 +
|-
 +
|| ДЗ4: ML || 15.12 23.59 || Демо-вариант КР
 +
|-
 +
 +
|}
 +
 +
===Контрольные работы===
 +
{| class="wikitable"
 +
|-
 +
! КР !! ДАТА !! Тестовый вариант
 +
|-
 +
|| КР1: Python || 8.10 11:10 || [https://online.hse.ru/mod/quiz/view.php?id=156049 Жмяк]
 +
|-
 +
|| КР2: Анализ данных и ML || 18.12 ||
 +
|-
 +
|}
 +
 +
'''КР1'''
 +
*  Проводится во время занятия по расписанию.
 +
*  Тест и задачи будут опубликованы на online.hse.ru (проверьте логины заранее, мы не сможем вам оперативно помочь!)
 +
*  Задания по типу и количеству аналогичны демонстрационному варианту.
 +
*  Во время контрольной у вас должна быть включена камера в zoom и предоставлен доступ к экрану (прокторинг нашими силами на минималках).
  
 
===Дополнительные баллы===
 
===Дополнительные баллы===
 +
 +
'''Дополнительные баллы рассчитываются по следующей формуле:
 +
 +
* 8+ заданий: 1.5 балла
 +
* 5-7 заданий: 1 балл
 +
* <5 заданий: 0 баллов
 +
 +
Баллы прибавляются к итоговой оценке до округления.'''
 +
{| class="wikitable"
 +
|-
 +
! Номер !! Платформа !! Дедлайн
 +
|-
 +
| 1 || DataCamp. Pandas || 3 ноября 23.59
 +
|-
 +
| 2 || LMS. Pandas || 11 ноября 23.59
 +
|-
 +
| 3 || DataCamp. Viz || 18 ноября 23.59
 +
|-
 +
| 4 || DataCamp. Project || 25 ноября 23.59
 +
|-
 +
| 5 || Scraping || 3 декабря 23.59
 +
|-
 +
| 6 || KNN (ДЗ) + 2 балла || 11 декабря 23.59
 +
|-
 +
| 7 || DC || 20 декабря 23.59
 +
|-
 +
| 8 || DC + 2 балла || 27 декабря 23.59
 +
|-
 +
|}
 +
  
 
У студентов есть возможность получить до полутора
 
У студентов есть возможность получить до полутора
Строка 46: Строка 135:
 
Задания будут выложены на вики и в ЛМС, решенные блокноты принимаются в ЛМС. После дедлайна задания не принимаются.
 
Задания будут выложены на вики и в ЛМС, решенные блокноты принимаются в ЛМС. После дедлайна задания не принимаются.
 
В качестве некоторых заданий будет предложено пройти часть онлайн курса или выполнить его задания.
 
В качестве некоторых заданий будет предложено пройти часть онлайн курса или выполнить его задания.
Оценка за задание не ставится, задание считается выполненным, если оно выполено на 100% (допускаются небольшие помарки, в этом случае выполнение засчитывается на усмотрение преподавателя).
+
Оценка за задание не ставится, задание считается выполненным, если оно выполнено на 100% (допускаются небольшие помарки, в этом случае выполнение засчитывается на усмотрение преподавателя).
 
+
Дополнительные баллы рассчитываются по следующей формуле:
+
 
+
* 8+: 1.5 балла
+
* 5-7: 1 балл
+
* <5: 0 баллов
+
 
+
Баллы прибавляются к итоговой оценке до округления.
+
  
 
===Экзамен===
 
===Экзамен===
TBA
+
[https://docs.google.com/document/d/1va0obkBPIpdLTZa4vT_RO0nFKjFUiuTV1neuBItFdoE/edit?usp=sharing Описание экзамена и требования]
  
 
===Оценка===
 
===Оценка===
Строка 74: Строка 155:
 
сдачи в течение недели после дедлайна, оценка снижается на 2 балла. Работы,
 
сдачи в течение недели после дедлайна, оценка снижается на 2 балла. Работы,
 
сданные позже, не принимаются и за них выставляется оценка «0».
 
сданные позже, не принимаются и за них выставляется оценка «0».
 
 
  
 
== Список рекомендуемых материалов ==
 
== Список рекомендуемых материалов ==

Текущая версия на 14:28, 15 декабря 2020

О курсе

"Анализ данных в Python" читается на 4 курсе, в 1 и 2 модуле.

Преподаватель

Рогович Татьяна Владимировна

Ассистент

Инсан-Александр Латыпов

  • @Le_Figaro в Telegram

Материалы курса

Дистрибутив для установки Anaconda на собственные компьютеры Пожалуйста, устанавливайте версию Python 3.7 и выше.

Лекции и семинары

Записи занятий на youtube: жмяк

Лекции и семинары

Все блокноты и семинары: репозиторий

Дата Блокноты и презентации Данные Доп. материалы
17.09, 24.09 Python Refresher Блокноты Задачи и решения
1.10 Numpy Блокнот Задачи для самопроверки
15.10, 27.10 Intro to Pandas (Titanic) Блокнот train.csv Задачи для самопроверки
3.11 Pandas DateTime. Визуализация с Matplotlib DataTime блокнот Matplotlib блокнот ufo.csv populations.csv crimeRatesByState2005.tsv gapminderData.csv Films
10.11 Визуализация в Plotly. Plotly блокнот

Spiderchart блокнот

Spidertchart data iris data Nuclear tests Coordinates
17.11 Web-scraping Блокноты
20.11 Введение в ML Что такое данные и какие задачи может решать ML? Презентация
24.11 Логика решения задач ML Презентация Kaggle блокнот gender_submission train.csv test.csv
1.12 - 4.12 Логика машинного обучения. Решающее дерево и случайный лес Презентация EDA Блокнот Предсказываем цену домов. Блокнот Дома. Для урока Дома. Данные
8.12 ML: задача классификации. Cross validation и grid search Титаник: блокнот для занятия

Домашние задания

Домашние задания находим в проектах в ЛМС и там же сдаем.

ДЗ Дедлайн Файлы
ДЗ1: Python 1.10 23.59
ДЗ2: Pandas & Viz 1.12 23.59 ДЗ
ДЗ3: KNN 11.12 23.59 ДЗ3
ДЗ4: ML 15.12 23.59 Демо-вариант КР

Контрольные работы

КР ДАТА Тестовый вариант
КР1: Python 8.10 11:10 Жмяк
КР2: Анализ данных и ML 18.12

КР1

  • Проводится во время занятия по расписанию.
  • Тест и задачи будут опубликованы на online.hse.ru (проверьте логины заранее, мы не сможем вам оперативно помочь!)
  • Задания по типу и количеству аналогичны демонстрационному варианту.
  • Во время контрольной у вас должна быть включена камера в zoom и предоставлен доступ к экрану (прокторинг нашими силами на минималках).

Дополнительные баллы

Дополнительные баллы рассчитываются по следующей формуле:

  • 8+ заданий: 1.5 балла
  • 5-7 заданий: 1 балл
  • <5 заданий: 0 баллов

Баллы прибавляются к итоговой оценке до округления.

Номер Платформа Дедлайн
1 DataCamp. Pandas 3 ноября 23.59
2 LMS. Pandas 11 ноября 23.59
3 DataCamp. Viz 18 ноября 23.59
4 DataCamp. Project 25 ноября 23.59
5 Scraping 3 декабря 23.59
6 KNN (ДЗ) + 2 балла 11 декабря 23.59
7 DC 20 декабря 23.59
8 DC + 2 балла 27 декабря 23.59


У студентов есть возможность получить до полутора дополнительных баллов за выполнение необязательных заданий в течение семестра. Дополнительные баллы учитываются в итоговой оценке до округления с весом 1. Обратите внимания, что дополнительные задания, выполненные в рамках онлайн курса засчитываются только при условии прохождения исключительно с корпоративного почтового адреса студента. Подключение студентов к онлайн курсу на платформе НПОО (https://openedu.ru/) производит Дирекция по онлайн обучению НИУ ВШЭ по заявке администратора учебного офиса образовательной программы. Скрытая сессия для студентов ВШЭ автоматически появляется в личном аккаунте на платформе. Регистрироваться на открытую сессию для всех желающих слушателей нельзя. На платформе DataCamp слушатели приглашаются в специальную сессию, созданную преподавателем курса.

Всего за семестр будет дано 10 небольших заданий. У каждого свой дедлайн. Задания будут выложены на вики и в ЛМС, решенные блокноты принимаются в ЛМС. После дедлайна задания не принимаются. В качестве некоторых заданий будет предложено пройти часть онлайн курса или выполнить его задания. Оценка за задание не ставится, задание считается выполненным, если оно выполнено на 100% (допускаются небольшие помарки, в этом случае выполнение засчитывается на усмотрение преподавателя).

Экзамен

Описание экзамена и требования

Оценка

Окончательная оценка = Округление(0.35 * среднее(Домашние задания) + 0.35 * среднее(Контрольные работы) + 0.3 * Экзамен)

Домашние задания выдаются по темам: программирование на Python, скрейпинг, визуализация, реализация алгоритма kNN. Контрольные работы по темам: программирование на Python, работа с данными Pandas.

Формат контрольных работ пока не определен (очно или дистанционно), будет сообщено позднее.

Преподаватель оставляет за собой право изменить темы домашних и контрольных работы, а также устроить устную защиту любой из форм контроля.

Домашнее задание должно быть сдано до установленного дедлайна. В случае сдачи в течение суток после дедлайна, оценка снижается на 1 балл. В случае сдачи в течение недели после дедлайна, оценка снижается на 2 балла. Работы, сданные позже, не принимаются и за них выставляется оценка «0».

Список рекомендуемых материалов

Линейная алгебра и статистика

Python

Machine learning

Материала по ML

Статистика

  • Бослав С. Статистика для всех (Есть в библиотеке)
  • Gravetter F, Wallnau L. Statistics for behavioral sciences (Есть в библиотеке)

Web scraping