Data analysis (Software Engineering) — различия между версиями
Apogentus (обсуждение | вклад) (→Lecture materials) |
Tipt0p (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
+ | '''Таблица результатов [https://drive.google.com/open?id=1TQ97B8rqC7sUxTnCMKXoskgRPXO8rAyWoBWBezY58h4 здесь]''' | ||
+ | |||
'''Почта курса:''' cshse.ml@gmail.com | '''Почта курса:''' cshse.ml@gmail.com | ||
+ | |||
+ | '''Обратная связь:''' [http://goo.gl/forms/CT3h4QaMeB написать комментарий или пожелание по курсу] | ||
'''Контакты преподавателей:''' | '''Контакты преподавателей:''' | ||
Строка 7: | Строка 11: | ||
Лобачева Екатерина elobacheva@hse.ru | Лобачева Екатерина elobacheva@hse.ru | ||
− | |||
<br /> | <br /> | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
== Краткое описание == | == Краткое описание == | ||
Строка 27: | Строка 20: | ||
От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей. | От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей. | ||
− | + | В ходе курса | |
== Программа курса == | == Программа курса == | ||
Строка 63: | Строка 56: | ||
Additional materials: [http://www.machinelearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf Лекция К.В.Воронцова], [http://arxiv.org/pdf/1306.6709v4.pdf Metric learning survey 1], [http://web.cse.ohio-state.edu/~kulis/pubs/ftml_metric_learning.pdf Metric learning survey 2] | Additional materials: [http://www.machinelearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf Лекция К.В.Воронцова], [http://arxiv.org/pdf/1306.6709v4.pdf Metric learning survey 1], [http://web.cse.ohio-state.edu/~kulis/pubs/ftml_metric_learning.pdf Metric learning survey 2] | ||
− | == | + | == Seminars == |
+ | '''Seminar 1. Introduction to Data Analysis in Python ''' | ||
+ | |||
+ | [https://drive.google.com/open?id=0B7TWwiIrcJstdkJyam9rNHpEcDg Practical task 1], [https://drive.google.com/open?id=0B7TWwiIrcJstQldxcThZRnF3ZVk data] | ||
− | ''' | + | Additional materials: [http://nbviewer.ipython.org/gist/anonymous/fba8bf7f1ad379df9d63 Examples] |
− | + | ||
− | + | == Оформление писем и заданий == | |
+ | Вопросы и домашние задания присылайте на почтовый адрес '''cshse.ml@gmail.com'''. | ||
+ | На почту присылайте письма со следующими темами: | ||
+ | * Для ''вопросов'' (общих, по лабораторным, по теории и т. д.): "Вопрос - Фамилия Имя - Группа" | ||
+ | * Для ''заданий'': "Практика/Теория {Номер работы} - Фамилия Имя - Группа" | ||
+ | |||
+ | ''Пример'': Практика 1 - Иванов Иван - 131(1) | ||
+ | |||
+ | Если вопрос адресован конкретному преподавателю, то также укажите его имя в теме письма. | ||
+ | |||
+ | Когда отвечаете на наши письма или досылаете какие-то решения, пишите письма в '''тот же''' тред. | ||
− | + | Практические задания нужно сдавать в ipython notebook, а теоретические формате pdf. В качестве названия для файла с работой используйте свою фамилию на английском языке. Не нужно архивировать файлы перед отправкой. | |
== Полезные ссылки == | == Полезные ссылки == |
Версия 18:52, 15 января 2016
Таблица результатов здесь
Почта курса: cshse.ml@gmail.com
Обратная связь: написать комментарий или пожелание по курсу
Контакты преподавателей:
Виктор Китов v.v.kitov@yandex.ru
Лобачева Екатерина elobacheva@hse.ru
Содержание
[убрать]Краткое описание
В курсе рассматриваются основные задачи анализа данных и обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности, ранжирование, коллаборативная фильрация. По изложению для каждой рассматриваемой задачи изучаются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.
Большое внимание уделено освоению практических навыков анализа данных, отрабатываемых на семинарах, которое будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.
От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей.
В ходе курса
Программа курса
- Introduction to machine learning.
- K-nearest neighbours classification and regression. Extensions. Optimization techniques.
- Decision tree methods.
- Bayesian decision theory. Model evaluation:
- confusion matrix, accuaracy, ROC, AUC.
- Linear classification methods. Adding regularization to linear methods.
- Regression.
- Kernel generalization of standard methods.
- Neural networks.
- Ensemble methods: bagging, boosting, etc.
- Feature selection.
- based on correlation, mutual information, forward-stagewise, backward-stagewise, forward-backward, L1, tree-based importances.
- Feature extraction
- PCA, SVD
- EM algorithm. Density estimation using mixtures.
- Clustering
- Collaborative filtering
- Ranking
Lecture materials
Lecture 1. Introduction to data science and machine learning.
Additional materials: The Field Guide to Data Science, Лекция К.В.Воронцова
Lecture 2. K nearest neighbours method.
Additional materials: Лекция К.В.Воронцова, Metric learning survey 1, Metric learning survey 2
Seminars
Seminar 1. Introduction to Data Analysis in Python
Additional materials: Examples
Оформление писем и заданий
Вопросы и домашние задания присылайте на почтовый адрес cshse.ml@gmail.com. На почту присылайте письма со следующими темами:
- Для вопросов (общих, по лабораторным, по теории и т. д.): "Вопрос - Фамилия Имя - Группа"
- Для заданий: "Практика/Теория {Номер работы} - Фамилия Имя - Группа"
Пример: Практика 1 - Иванов Иван - 131(1)
Если вопрос адресован конкретному преподавателю, то также укажите его имя в теме письма.
Когда отвечаете на наши письма или досылаете какие-то решения, пишите письма в тот же тред.
Практические задания нужно сдавать в ipython notebook, а теоретические формате pdf. В качестве названия для файла с работой используйте свою фамилию на английском языке. Не нужно архивировать файлы перед отправкой.
Полезные ссылки
Машинное обучение
- machinelearning.ru
- Одна из классических и наиболее полных книг по машинному обучению. Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani, Jerome Friedman)
Python
- Официальный сайт
- Библиотеки: NumPy, Pandas, SciKit-Learn, Matplotlib.
- Небольшой пример для начинающих: краткое руководство с примерами по Python 2
- Питон с нуля: A Crash Course in Python for Scientists
- Лекции Scientific Python
- Книга: Wes McKinney «Python for Data Analysis»
- Коллекция интересных IPython ноутбуков