Анализ данных в Python 2019-2020
Содержание
О курсе
"Анализ данных в Python" читается на 4 курсе, в 1 и 2 модуле.
Преподаватель
Рогович Татьяна Владимировна
Ассистент
Инсан-Александр Латыпов
@Le_Figaro в Telegram
Материалы курса
Дистрибутив для установки Anaconda на собственные компьютеры
Пожалуйста, устанавливайте версию Python 3.7 и выше.
Лекции и семинары
Лекции и семинары
- Для того, чтобы графики отображались - скачайте блокнот и откройте его в Jupyter Notebook.
Контрольные работы и домашние задания
Дата | Тема | Файлы | Оценки |
---|---|---|---|
2.10 13.40 | Контрольная работа по синтаксису Python для решения задач | Пробный вариант | |
6.11 13.40 | Контрольная работа по работе с данными в pandas | ||
25.11 23.59 | Домашнее задание 1: сбор, анализ и визуализация данных | ДЗ1Решения загружать в ЛМС | Оценки |
TBA | Домашнее задание 2: обработка и анализ текста | ДЗ2 Настройка параметров на collab и загрузка файлов Kaggle&LMS |
Дополнительные баллы
Задание | Дедлайн | Файлы | Условия зачета |
---|---|---|---|
Задание 1 | 25.09 23.59 | Задание 1 | Правильно решить 10/11 задач |
Задание 2 | 9.10 23.59 | DataCamp курса | Пройти курс по Pandas |
Задание 3 | 16.10 23.59 | DataCamp | Два проекта в Pandas |
Задание 4 | 27.10 23.59 | DataCamp | Пройти курс по Pandas-2 |
Задание 5-6 | 13.11 23.59 | ЛМС | Задания по визуализации данных (2.25 балла) |
Задание 7 | 20.11 23.59 | DataCamp | Курс по слиянию и преобразованию таблиц (1 балл) |
Задание 8-9 | 4.12 23.59 | DataCamp | Курс по предобработке данных для машинного обучения (2 балла) |
Задание 10 | 11.12.23.59 | DataCamp | Проект по МобиДику. Html файл выполненного блокнота принимается в ЛМС (0.75 балла) |
Задание 11 | 18.12.23.59 | DataCamp | Пройти курс на DataCamp по Supervised Machine Learning (1 балл) |
Дополнительные баллы. Ведомость
Всего за семестр будет дано 10 небольших заданий. У каждого свой дедлайн. Задания будут выложены на вики и в ЛМС, решенные блокноты принимаются в ЛМС. После дедлайна задания не принимаются. В качестве некоторых заданий будет предложено пройти часть онлайн курса или выполнить его задания. Оценка за задание не ставится, задание считается выполненным, если оно выполено на 100% (допускаются небольшие помарки, в этом случае выполнение засчитывается на усмотрение преподавателя).
Дополнительные баллы рассчитываются по следующей формуле:
- 11: 3 балла
- 8+: 2 балла
- 5-7: 1 балл
- <5: 0 баллов
Баллы прибавляются к итоговой оценке до округления.
Экзамен
Требования к проекту и дедлайны
Оценка
Окончательная оценка = Округление(0.7 * ((КР1 + КР2 + ДЗ1 + ДЗ2) / 4) + 0.3 * Проект + ДБ)
Преподаватель оставляет за собой право устроить устную защиту любой из форм контроля.
Домашнее задание должно быть сдано до установленного дедлайна. В случае сдачи в течение суток после дедлайна, оценка снижается на 1 балл. В случае сдачи в течение недели после дедлайна, оценка снижается на 2 балла. Работы, сданные позже, не принимаются и за них выставляется оценка «0».
Дополнительные баллы. У студентов есть возможность получить до трех дополнительных баллов за выполнение необязательных заданий в течение семестра. Дополнительные баллы учитываются в итоговой оценке до округления с весом 1. Обратите внимания, что дополнительные задания, выполненные в рамках онлайн курса засчитываются только при условии прохождения исключительно с корпоративного почтового адреса студента. Подключение студентов к онлайн курсу на платформе НПОО (https://openedu.ru/) производит Дирекция по онлайн обучению НИУ ВШЭ по заявке администратора учебного офиса образовательной программы. Скрытая сессия для студентов ВШЭ автоматически появляется в личном аккаунте на платформе. Регистрироваться на открытую сессию для всех желающих слушателей нельзя. На платформе DataCamp слушатели приглашаются в специальную сессию, созданную преподавателем курса.
Список рекомендуемых материалов
Линейная алгебра и статистика
- Hastie, Tibshirani, Friedman. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction.
- Lavine. (2013). Introduction to Statistical Thought
- MIT Open course: Linear Algebra by Strang
Python
- Pandas Cheat Sheet
- Python RegExp Cheat Sheet
- O'Reilly: Python for Data Analysis
- Базовый курс по программированию на Stepik
Machine learning
- Bishop. (2006). Pattern Recognition and Machine Learning
- Курс по машинному обучению К.В. Воронцова
- Coursera: Machine Learning by Andrew Ng
- O'Reilly: Machine Learning for Hackers
Материала по ML
- Simple Decision Tree
- Andreas C. Müller, Sarah Guido. Introduction to Machine Learning with Python: A Guide for Data Scientists
Статистика
- Бослав С. Статистика для всех (Есть в библиотеке)
- Gravetter F, Wallnau L. Statistics for behavioral sciences (Есть в библиотеке)