Анализ данных в Python 2019-2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Лекции и семинары)
Строка 49: Строка 49:
 
|| 19 ноября || Введение в ML. Реализация KNN ||[https://docs.google.com/presentation/d/1EIUKdPijxgJ5A_z2gQUNLQAxeEoDVo1thommIqOBotI/edit?usp=sharing Презентация по ML, KNN и решающим деревьям] [https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/12week_ML_Intro/12week_Classes_KNN.ipynb Реализация метода KNN] || [https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data Ирисы] ||
 
|| 19 ноября || Введение в ML. Реализация KNN ||[https://docs.google.com/presentation/d/1EIUKdPijxgJ5A_z2gQUNLQAxeEoDVo1thommIqOBotI/edit?usp=sharing Презентация по ML, KNN и решающим деревьям] [https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/12week_ML_Intro/12week_Classes_KNN.ipynb Реализация метода KNN] || [https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data Ирисы] ||
 
|-
 
|-
|| 20 ноября - 24 ноября || Разведывательный анализ данных. Решающие деревья. Случайный лес || [https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/12week_ML_Intro/12week_House_Data_EDA.ipynb Разведывательный анализ Housing Data] [https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/12week_ML_Intro/12week_ML_Intro_DecisionTree_RandomForest.ipynb Решающие деревья и случайный лес Housing data]  || [https://raw.githubusercontent.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/master/12week_ML_Intro/fake_or_real_news.csv Fake News] [https://raw.githubusercontent.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/master/12week_ML_Intro/house_data.csv Housing Data] ||
+
|| 20 ноября - 24 ноября || Разведывательный анализ данных. Решающие деревья. Случайный лес || [https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/12week_ML_Intro/12week_House_Data_EDA.ipynb Разведывательный анализ Housing Data] [https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/12week_ML_Intro/12week_ML_Intro_DecisionTree_RandomForest.ipynb Решающие деревья и случайный лес Housing data]  || [https://raw.githubusercontent.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/master/12week_ML_Intro/fake_or_real_news.csv Fake News] [https://raw.githubusercontent.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/master/12week_ML_Intro/house_data.csv Housing Data] || [http://www.r2d3.us/visual-intro-to-machine-learning-part-1/ Визуальное объяснение решающих деревьев]
 
|}
 
|}
 
*Для того, чтобы графики отображались - скачайте блокнот и откройте его в Jupyter Notebook.
 
*Для того, чтобы графики отображались - скачайте блокнот и откройте его в Jupyter Notebook.

Версия 19:53, 26 ноября 2019

О курсе

"Анализ данных в Python" читается на 4 курсе, в 1 и 2 модуле.

Преподаватель

Рогович Татьяна Владимировна

Ассистент

Инсан-Александр Латыпов

@Le_Figaro в Telegram

Материалы курса

Дистрибутив для установки Anaconda на собственные компьютеры

Пожалуйста, устанавливайте версию Python 3.7 и выше.

Лекции и семинары

Лекции и семинары

Дата Блокноты Данные Доп. материалы
11 сентября Введение. Refresher: синтаксис Python для анализа данных Week 1 Python Syntax Refresher Mbox Вики-страница курса "Основы программирования в Python" Курс "Python для обработки и извлечения данных" Блокнот И. Щурова про словари, списковые включения, функцию map
18 сентября Введение в pandas: загружаем, фильтруем и агрегируем данные. Week 2: Pandas Intro (Titanic) Данные Titanic Документация Pandas 10 min intro to Pandas Pandas Cheat Sheet
25 сентября Продолжаем с Pandas. Знакомимся с Kaggle. Работаем с датами в Pandas. Упражнения Week 3 Titanic Basic Predictions Kaggle

Week 3 DateTime

Данные для Datetime Данные для Титаника ODS Первичный анализ данных в Python (Telecom Churn)
2 октбяря Самостоятельная работа
16 октября Упражнения по Pandas. Разбираем кейс с парсингом почтовых адресов с помощью регулярных выражений Emails Pandas Упражнения Упражнения с решением Данные для email Данные для упражнений

Для тех, кто справился с "олимпийским" заданием Pandas Datetime like a pro

30 октября Визуализация данных в matplotlib. Визуализация данных в Matplotlib Данные Данные по именам детей
5 - 6 ноября Визуализация данных в Matplotlib (продолжение). Введение в Plotly Matplotlib (continued) Plotly* Данные про фильмы [Данные для Plotly Ирисы Данные для карты
12 ноября Spiderchart в Plotly. Scraping Plotly Spiderchart Spiderchart Данные Wiki для скрэйпинга html refresher nplus 1 scraping
13 ноября Scraping. Regex Скрейпинг вики-таблицы Сохраняем файлы и переходим по страницам Регулярные выражения Regex упражнения
19 ноября Введение в ML. Реализация KNN Презентация по ML, KNN и решающим деревьям Реализация метода KNN Ирисы
20 ноября - 24 ноября Разведывательный анализ данных. Решающие деревья. Случайный лес Разведывательный анализ Housing Data Решающие деревья и случайный лес Housing data Fake News Housing Data Визуальное объяснение решающих деревьев
  • Для того, чтобы графики отображались - скачайте блокнот и откройте его в Jupyter Notebook.

Контрольные работы и домашние задания

Дата Тема Файлы Оценки
2.10 13.40 Контрольная работа по синтаксису Python для решения задач Пробный вариант
6.11 13.40 Контрольная работа по работе с данными в pandas
25.11 23.59 Домашнее задание 1: сбор, анализ и визуализация данных ДЗ1Решения загружать в ЛМС
TBA Домашнее задание 2: скрейпинг, обработка и анализ текста

Дополнительные баллы

Задание Дедлайн Файлы Условия зачета
Задание 1 25.09 23.59 Задание 1 Правильно решить 10/11 задач
Задание 2 9.10 23.59 DataCamp курса Пройти курс по Pandas
Задание 3 16.10 23.59 DataCamp Два проекта в Pandas
Задание 4 27.10 23.59 DataCamp Пройти курс по Pandas-2
Задание 5 13.11 23.59 ЛМС
https://github.com/rogovich/2019-2020_PolSci_Data_Analysis_in_Python/blob/master/%40Bonus/5/Bonus_5_13Nov.ipynb Задания по визуализации данных (2.25 балла)]
Задание 6 20.11 23.59 DataCamp Курс по слиянию и преобразованию таблиц (1 балл)
Задание 7 4.12 23.59 DataCamp Курс по предобработке данных для машинного обучения (1 балл)

Дополнительные баллы. Ведомость

Всего за семестр будет дано 10 небольших заданий. У каждого свой дедлайн. Задания будут выложены на вики и в ЛМС, решенные блокноты принимаются в ЛМС. После дедлайна задания не принимаются. В качестве некоторых заданий будет предложено пройти часть онлайн курса или выполнить его задания. Оценка за задание не ставится, задание считается выполненным, если оно выполено на 100% (допускаются небольшие помарки, в этом случае выполнение засчитывается на усмотрение преподавателя).

Дополнительные баллы рассчитываются по следующей формуле:

  • 11: 3 балла
  • 8+: 2 балла
  • 5-7: 1 балл
  • <5: 0 баллов

Баллы прибавляются к итоговой оценке до округления.

Экзамен

Требования к проекту и дедлайны

Оценка

Окончательная оценка = Округление(0.7 * ((КР1 + КР2 + ДЗ1 + ДЗ2) / 4) + 0.3 * Проект + ДБ)

Преподаватель оставляет за собой право устроить устную защиту любой из форм контроля.

Домашнее задание должно быть сдано до установленного дедлайна. В случае сдачи в течение суток после дедлайна, оценка снижается на 1 балл. В случае сдачи в течение недели после дедлайна, оценка снижается на 2 балла. Работы, сданные позже, не принимаются и за них выставляется оценка «0».

Дополнительные баллы. У студентов есть возможность получить до трех дополнительных баллов за выполнение необязательных заданий в течение семестра. Дополнительные баллы учитываются в итоговой оценке до округления с весом 1. Обратите внимания, что дополнительные задания, выполненные в рамках онлайн курса засчитываются только при условии прохождения исключительно с корпоративного почтового адреса студента. Подключение студентов к онлайн курсу на платформе НПОО (https://openedu.ru/) производит Дирекция по онлайн обучению НИУ ВШЭ по заявке администратора учебного офиса образовательной программы. Скрытая сессия для студентов ВШЭ автоматически появляется в личном аккаунте на платформе. Регистрироваться на открытую сессию для всех желающих слушателей нельзя. На платформе DataCamp слушатели приглашаются в специальную сессию, созданную преподавателем курса.

Список рекомендуемых материалов

Линейная алгебра и статистика

Python

Machine learning

Материала по ML

Статистика

  • Бослав С. Статистика для всех (Есть в библиотеке)
  • Gravetter F, Wallnau L. Statistics for behavioral sciences (Есть в библиотеке)

Web scraping