Data analysis (Software Engineering) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Программа курса)
Строка 41: Строка 41:
  
 
Дополнительные материалы: [https://yadi.sk/i/x2lrKdbVmr2bf The Field Guide to Data Science]
 
Дополнительные материалы: [https://yadi.sk/i/x2lrKdbVmr2bf The Field Guide to Data Science]
 +
 +
== Семинары ==
 +
 +
 +
'''Семинар 1. Инструментарий '''
 +
Знакомство с языком Python.
 +
[ Лабораторная 1], [ данные].
 +
 +
[http://nbviewer.ipython.org/gist/anonymous/fba8bf7f1ad379df9d63 Материал] в помощь.

Версия 06:40, 14 января 2016

Контакты: Виктор Китов v.v.kitov@yandex.ru

Обратная связь: написать комментарий или пожелание по курсу

Краткое описание

В курсе рассматриваются основные задачи анализа данных и обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности, ранжирование, коллаборативная фильрация. По изложению для каждой рассматриваемой задачи изучаются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.

Большое внимание уделено освоению практических навыков анализа данных, отрабатываемых на семинарах, которое будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.

От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей.


Программа курса

  1. Introduction to machine learning.
  2. K-nearest neighbours classification and regression. Extensions. Optimization techniques.
  3. Decision tree methods.
  4. Bayesian decision theory. Model evaluation:
  • confusion matrix, accuaracy, ROC, AUC.
  1. Linear classification methods. Adding regularization to linear methods.
  2. Regression.
  3. Kernel generalization of standard methods.
  4. Neural networks.
  5. Ensemble methods: bagging, boosting, etc.
  6. Feature selection.
  • based on correlation, mutual information, forward-stagewise, backward-stagewise, forward-backward, L1, tree-based importances.
  1. Feature extraction
  • PCA, SVD
  1. EM algorithm. Density estimation using mixtures.
  2. Clustering
  3. Collaborative filtering
  4. Ranking

Темы лекций

Лекция 1. Основные понятия и примеры прикладных задач.

Загрузить

Дополнительные материалы: The Field Guide to Data Science

Семинары

Семинар 1. Инструментарий Знакомство с языком Python. [ Лабораторная 1], [ данные].

Материал в помощь.