Data analysis (Software Engineering) — различия между версиями
Tipt0p (обсуждение | вклад) |
Tipt0p (обсуждение | вклад) |
||
Строка 65: | Строка 65: | ||
[http://nbviewer.ipython.org/gist/anonymous/fba8bf7f1ad379df9d63 Материал] в помощь. | [http://nbviewer.ipython.org/gist/anonymous/fba8bf7f1ad379df9d63 Материал] в помощь. | ||
+ | |||
+ | == Полезные ссылки == | ||
+ | === Машинное обучение === | ||
+ | * [http://www.machinelearning.ru/wiki/index.php?title=Заглавная_страница machinelearning.ru] | ||
+ | * Одна из классических и наиболее полных книг по машинному обучению. [http://web.stanford.edu/~hastie/local.ftp/Springer/ESLII_print10.pdf Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani, Jerome Friedman)] | ||
+ | === Python === | ||
+ | * [http://python.org Официальный сайт] | ||
+ | * Библиотеки: [http://www.numpy.org/ NumPy], [http://pandas.pydata.org/ Pandas], [http://scikit-learn.org/stable/ SciKit-Learn], [http://matplotlib.org/ Matplotlib]. | ||
+ | * Небольшой пример для начинающих: [http://nbviewer.ipython.org/gist/voron13e02/83a86f2e0fc5e7f8424d краткое руководство с примерами по Python 2] | ||
+ | * Питон с нуля: [http://nbviewer.ipython.org/gist/rpmuller/5920182 A Crash Course in Python for Scientists] | ||
+ | * Лекции [https://github.com/jrjohansson/scientific-python-lectures#online-read-only-versions Scientific Python] | ||
+ | * Книга: [http://www.cin.ufpe.br/~embat/Python%20for%20Data%20Analysis.pdf Wes McKinney «Python for Data Analysis»] | ||
+ | * [https://github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks Коллекция интересных IPython ноутбуков] | ||
+ | |||
+ | === Установка и настройка Python === | ||
+ | * [[Анализ данных (Программная инженерия)/Установка и настройка Python#Windows|Windows]] | ||
+ | * [[Анализ данных (Программная инженерия)/Установка и настройка Python#Mac_OS|Mac OS]] | ||
+ | * [[Анализ данных (Программная инженерия)/Установка и настройка Python#Linux | Linux]] |
Версия 06:46, 14 января 2016
Почта курса: cshse.ml@gmail.com
Контакты преподавателей:
Виктор Китов v.v.kitov@yandex.ru
Лобачева Екатерина elobacheva@hse.ru
Обратная связь: написать комментарий или пожелание по курсу
Содержание
[убрать]Оформление писем
Вопросы и домашние задания присылайте на почтовый адрес cshse.ml@gmail.com. На почту присылайте письма со следующими темами:
- Для вопросов (общих, по лабораторным, по теории и т. д.): "Вопрос - Фамилия Имя Отчество - Группа"
- Для лабораторных: "Лабораторная {Номер лабораторной работы} - Фамилия Имя Отчество - Группа (Семинарист)"
Когда отвечаете на наши письма или досылаете какие-то решения, пишите письма в тот же тред.
Большая просьба ко всем сдавать свои работы в ipython notebook, это очень упростит нам проверку. В качестве названия для файла с работой используйте свою фамилию на английском языке. Не нужно архивировать файлы перед отправкой.
Краткое описание
В курсе рассматриваются основные задачи анализа данных и обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности, ранжирование, коллаборативная фильрация. По изложению для каждой рассматриваемой задачи изучаются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.
Большое внимание уделено освоению практических навыков анализа данных, отрабатываемых на семинарах, которое будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.
От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей.
Программа курса
- Introduction to machine learning.
- K-nearest neighbours classification and regression. Extensions. Optimization techniques.
- Decision tree methods.
- Bayesian decision theory. Model evaluation:
- confusion matrix, accuaracy, ROC, AUC.
- Linear classification methods. Adding regularization to linear methods.
- Regression.
- Kernel generalization of standard methods.
- Neural networks.
- Ensemble methods: bagging, boosting, etc.
- Feature selection.
- based on correlation, mutual information, forward-stagewise, backward-stagewise, forward-backward, L1, tree-based importances.
- Feature extraction
- PCA, SVD
- EM algorithm. Density estimation using mixtures.
- Clustering
- Collaborative filtering
- Ranking
Темы лекций
Лекция 1. Основные понятия и примеры прикладных задач.
Дополнительные материалы: The Field Guide to Data Science
Семинары
Семинар 1. Инструментарий Знакомство с языком Python. [ Лабораторная 1], [ данные].
Материал в помощь.
Полезные ссылки
Машинное обучение
- machinelearning.ru
- Одна из классических и наиболее полных книг по машинному обучению. Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani, Jerome Friedman)
Python
- Официальный сайт
- Библиотеки: NumPy, Pandas, SciKit-Learn, Matplotlib.
- Небольшой пример для начинающих: краткое руководство с примерами по Python 2
- Питон с нуля: A Crash Course in Python for Scientists
- Лекции Scientific Python
- Книга: Wes McKinney «Python for Data Analysis»
- Коллекция интересных IPython ноутбуков