Data analysis (Software Engineering) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Программа курса)
Строка 15: Строка 15:
 
== Программа курса ==
 
== Программа курса ==
  
 
+
# Introduction to machine learning.
 
+
# K-nearest neighbours classification and regression. Extensions. Optimization techniques.
 +
# Decision tree methods.
 +
# Bayesian decision theory. Model evaluation:
 +
::*confusion matrix, accuaracy, ROC, AUC.
 +
# Linear classification methods. Adding regularization to linear methods.
 +
# Regression.
 +
# Kernel generalization of standard methods.
 +
# Neural networks.
 +
# Ensemble methods: bagging, boosting, etc.
 +
# Feature selection.
 +
::* based on correlation, mutual information, forward-stagewise, backward-stagewise, forward-backward, L1, tree-based importances.
 +
# Feature extraction
 +
::* PCA, SVD
 +
# EM algorithm. Density estimation using mixtures.
 +
# Clustering
 +
# Collaborative filtering
 +
# Ranking
  
 
== Темы лекций ==
 
== Темы лекций ==

Версия 00:40, 13 января 2016

Контакты: Виктор Китов v.v.kitov@yandex.ru

Обратная связь: написать комментарий или пожелание по курсу

Краткое описание

В курсе рассматриваются основные задачи анализа данных и обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности, ранжирование, коллаборативная фильрация. По изложению для каждой рассматриваемой задачи изучаются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.

Большое внимание уделено освоению практических навыков анализа данных, отрабатываемых на семинарах, которое будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.

От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей.


Программа курса

  1. Introduction to machine learning.
  2. K-nearest neighbours classification and regression. Extensions. Optimization techniques.
  3. Decision tree methods.
  4. Bayesian decision theory. Model evaluation:
  • confusion matrix, accuaracy, ROC, AUC.
  1. Linear classification methods. Adding regularization to linear methods.
  2. Regression.
  3. Kernel generalization of standard methods.
  4. Neural networks.
  5. Ensemble methods: bagging, boosting, etc.
  6. Feature selection.
  • based on correlation, mutual information, forward-stagewise, backward-stagewise, forward-backward, L1, tree-based importances.
  1. Feature extraction
  • PCA, SVD
  1. EM algorithm. Density estimation using mixtures.
  2. Clustering
  3. Collaborative filtering
  4. Ranking

Темы лекций

Лекция 1. Основные понятия и примеры прикладных задач.

Загрузить

Дополнительные материалы: The Field Guide to Data Science