Data analysis (Software Engineering) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 65: Строка 65:
  
 
[http://nbviewer.ipython.org/gist/anonymous/fba8bf7f1ad379df9d63 Материал] в помощь.
 
[http://nbviewer.ipython.org/gist/anonymous/fba8bf7f1ad379df9d63 Материал] в помощь.
 +
 +
== Полезные ссылки ==
 +
=== Машинное обучение ===
 +
* [http://www.machinelearning.ru/wiki/index.php?title=Заглавная_страница machinelearning.ru]
 +
* Одна из классических и наиболее полных книг по машинному обучению. [http://web.stanford.edu/~hastie/local.ftp/Springer/ESLII_print10.pdf Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani, Jerome Friedman)]
 +
=== Python ===
 +
* [http://python.org Официальный сайт]
 +
* Библиотеки: [http://www.numpy.org/ NumPy], [http://pandas.pydata.org/ Pandas], [http://scikit-learn.org/stable/ SciKit-Learn], [http://matplotlib.org/ Matplotlib].
 +
* Небольшой пример для начинающих: [http://nbviewer.ipython.org/gist/voron13e02/83a86f2e0fc5e7f8424d краткое руководство с примерами по Python 2]
 +
* Питон с нуля: [http://nbviewer.ipython.org/gist/rpmuller/5920182 A Crash Course in Python for Scientists]
 +
* Лекции [https://github.com/jrjohansson/scientific-python-lectures#online-read-only-versions Scientific Python]
 +
* Книга: [http://www.cin.ufpe.br/~embat/Python%20for%20Data%20Analysis.pdf Wes McKinney «Python for Data Analysis»]
 +
* [https://github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks Коллекция интересных IPython ноутбуков]
 +
 +
=== Установка и настройка Python ===
 +
* [[Анализ данных (Программная инженерия)/Установка и настройка Python#Windows|Windows]]
 +
* [[Анализ данных (Программная инженерия)/Установка и настройка Python#Mac_OS|Mac OS]]
 +
* [[Анализ данных (Программная инженерия)/Установка и настройка Python#Linux | Linux]]

Версия 06:46, 14 января 2016

Почта курса: cshse.ml@gmail.com

Контакты преподавателей:

Виктор Китов v.v.kitov@yandex.ru

Лобачева Екатерина elobacheva@hse.ru

Обратная связь: написать комментарий или пожелание по курсу

Оформление писем

Вопросы и домашние задания присылайте на почтовый адрес cshse.ml@gmail.com. На почту присылайте письма со следующими темами:

  • Для вопросов (общих, по лабораторным, по теории и т. д.): "Вопрос - Фамилия Имя Отчество - Группа"
  • Для лабораторных: "Лабораторная {Номер лабораторной работы} - Фамилия Имя Отчество - Группа (Семинарист)"

Когда отвечаете на наши письма или досылаете какие-то решения, пишите письма в тот же тред.

Большая просьба ко всем сдавать свои работы в ipython notebook, это очень упростит нам проверку. В качестве названия для файла с работой используйте свою фамилию на английском языке. Не нужно архивировать файлы перед отправкой.

Краткое описание

В курсе рассматриваются основные задачи анализа данных и обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности, ранжирование, коллаборативная фильрация. По изложению для каждой рассматриваемой задачи изучаются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.

Большое внимание уделено освоению практических навыков анализа данных, отрабатываемых на семинарах, которое будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.

От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей.


Программа курса

  1. Introduction to machine learning.
  2. K-nearest neighbours classification and regression. Extensions. Optimization techniques.
  3. Decision tree methods.
  4. Bayesian decision theory. Model evaluation:
  • confusion matrix, accuaracy, ROC, AUC.
  1. Linear classification methods. Adding regularization to linear methods.
  2. Regression.
  3. Kernel generalization of standard methods.
  4. Neural networks.
  5. Ensemble methods: bagging, boosting, etc.
  6. Feature selection.
  • based on correlation, mutual information, forward-stagewise, backward-stagewise, forward-backward, L1, tree-based importances.
  1. Feature extraction
  • PCA, SVD
  1. EM algorithm. Density estimation using mixtures.
  2. Clustering
  3. Collaborative filtering
  4. Ranking

Темы лекций

Лекция 1. Основные понятия и примеры прикладных задач.

Загрузить

Дополнительные материалы: The Field Guide to Data Science

Семинары

Семинар 1. Инструментарий Знакомство с языком Python. [ Лабораторная 1], [ данные].

Материал в помощь.

Полезные ссылки

Машинное обучение

Python

Установка и настройка Python