Data analysis (Software Engineering) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Lecture materials)
Строка 1: Строка 1:
 +
'''Таблица результатов [https://drive.google.com/open?id=1TQ97B8rqC7sUxTnCMKXoskgRPXO8rAyWoBWBezY58h4 здесь]'''
 +
 
'''Почта курса:''' cshse.ml@gmail.com
 
'''Почта курса:''' cshse.ml@gmail.com
 +
 +
'''Обратная связь:''' [http://goo.gl/forms/CT3h4QaMeB написать комментарий или пожелание по курсу]
  
 
'''Контакты преподавателей:'''  
 
'''Контакты преподавателей:'''  
Строка 7: Строка 11:
 
Лобачева Екатерина elobacheva@hse.ru
 
Лобачева Екатерина elobacheva@hse.ru
  
'''Обратная связь:''' [http://goo.gl/forms/CT3h4QaMeB написать комментарий или пожелание по курсу]
 
 
<br />
 
<br />
<br />
 
 
== Оформление писем ==
 
Вопросы и домашние задания присылайте на почтовый адрес '''cshse.ml@gmail.com'''.
 
На почту присылайте письма со следующими темами:
 
* Для ''вопросов'' (общих, по лабораторным, по теории и т. д.): "Вопрос - Фамилия Имя Отчество - Группа"
 
* Для ''лабораторных'': "Лабораторная {Номер лабораторной работы} - Фамилия Имя Отчество - Группа (Семинарист)"
 
Когда отвечаете на наши письма или досылаете какие-то решения, пишите письма в '''тот же''' тред.
 
 
Большая просьба ко всем сдавать свои работы в ipython notebook, это очень упростит нам проверку. В качестве названия для файла с работой используйте свою фамилию на английском языке. Не нужно архивировать файлы перед отправкой.
 
  
 
== Краткое описание ==
 
== Краткое описание ==
Строка 27: Строка 20:
 
От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей.
 
От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей.
  
 
+
В ходе курса
 
== Программа курса ==
 
== Программа курса ==
  
Строка 63: Строка 56:
 
Additional materials: [http://www.machinelearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf Лекция К.В.Воронцова], [http://arxiv.org/pdf/1306.6709v4.pdf Metric learning survey 1], [http://web.cse.ohio-state.edu/~kulis/pubs/ftml_metric_learning.pdf Metric learning survey 2]
 
Additional materials: [http://www.machinelearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf Лекция К.В.Воронцова], [http://arxiv.org/pdf/1306.6709v4.pdf Metric learning survey 1], [http://web.cse.ohio-state.edu/~kulis/pubs/ftml_metric_learning.pdf Metric learning survey 2]
  
== Семинары ==
+
== Seminars ==
  
 +
'''Seminar 1. Introduction to Data Analysis in Python '''
 +
 +
[https://drive.google.com/open?id=0B7TWwiIrcJstdkJyam9rNHpEcDg Practical task 1], [https://drive.google.com/open?id=0B7TWwiIrcJstQldxcThZRnF3ZVk data]
  
'''Семинар 1. Инструментарий '''
+
Additional materials: [http://nbviewer.ipython.org/gist/anonymous/fba8bf7f1ad379df9d63 Examples]
Знакомство с языком Python.  
+
 
[https://drive.google.com/open?id=0B7TWwiIrcJstdkJyam9rNHpEcDg Practical task 1], [https://drive.google.com/open?id=0B7TWwiIrcJstQldxcThZRnF3ZVk data set]
+
== Оформление писем и заданий ==
 +
Вопросы и домашние задания присылайте на почтовый адрес '''cshse.ml@gmail.com'''.
 +
На почту присылайте письма со следующими темами:
 +
* Для ''вопросов'' (общих, по лабораторным, по теории и т. д.): "Вопрос - Фамилия Имя - Группа"
 +
* Для ''заданий'': "Практика/Теория {Номер работы} - Фамилия Имя - Группа"
 +
 
 +
''Пример'': Практика 1 - Иванов Иван - 131(1)
 +
 
 +
Если вопрос адресован конкретному преподавателю, то также укажите его имя в теме письма.
 +
 
 +
Когда отвечаете на наши письма или досылаете какие-то решения, пишите письма в '''тот же''' тред.
  
[http://nbviewer.ipython.org/gist/anonymous/fba8bf7f1ad379df9d63 Материал] в помощь.
+
Практические задания нужно сдавать в ipython notebook, а теоретические формате pdf. В качестве названия для файла с работой используйте свою фамилию на английском языке. Не нужно архивировать файлы перед отправкой.
  
 
== Полезные ссылки ==
 
== Полезные ссылки ==

Версия 18:52, 15 января 2016

Таблица результатов здесь

Почта курса: cshse.ml@gmail.com

Обратная связь: написать комментарий или пожелание по курсу

Контакты преподавателей:

Виктор Китов v.v.kitov@yandex.ru

Лобачева Екатерина elobacheva@hse.ru


Краткое описание

В курсе рассматриваются основные задачи анализа данных и обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности, ранжирование, коллаборативная фильрация. По изложению для каждой рассматриваемой задачи изучаются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.

Большое внимание уделено освоению практических навыков анализа данных, отрабатываемых на семинарах, которое будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.

От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей.

В ходе курса

Программа курса

  1. Introduction to machine learning.
  2. K-nearest neighbours classification and regression. Extensions. Optimization techniques.
  3. Decision tree methods.
  4. Bayesian decision theory. Model evaluation:
  • confusion matrix, accuaracy, ROC, AUC.
  1. Linear classification methods. Adding regularization to linear methods.
  2. Regression.
  3. Kernel generalization of standard methods.
  4. Neural networks.
  5. Ensemble methods: bagging, boosting, etc.
  6. Feature selection.
  • based on correlation, mutual information, forward-stagewise, backward-stagewise, forward-backward, L1, tree-based importances.
  1. Feature extraction
  • PCA, SVD
  1. EM algorithm. Density estimation using mixtures.
  2. Clustering
  3. Collaborative filtering
  4. Ranking

Lecture materials

Lecture 1. Introduction to data science and machine learning.

Download

Additional materials: The Field Guide to Data Science, Лекция К.В.Воронцова

Lecture 2. K nearest neighbours method.

Download

Additional materials: Лекция К.В.Воронцова, Metric learning survey 1, Metric learning survey 2

Seminars

Seminar 1. Introduction to Data Analysis in Python

Practical task 1, data

Additional materials: Examples

Оформление писем и заданий

Вопросы и домашние задания присылайте на почтовый адрес cshse.ml@gmail.com. На почту присылайте письма со следующими темами:

  • Для вопросов (общих, по лабораторным, по теории и т. д.): "Вопрос - Фамилия Имя - Группа"
  • Для заданий: "Практика/Теория {Номер работы} - Фамилия Имя - Группа"

Пример: Практика 1 - Иванов Иван - 131(1)

Если вопрос адресован конкретному преподавателю, то также укажите его имя в теме письма.

Когда отвечаете на наши письма или досылаете какие-то решения, пишите письма в тот же тред.

Практические задания нужно сдавать в ipython notebook, а теоретические формате pdf. В качестве названия для файла с работой используйте свою фамилию на английском языке. Не нужно архивировать файлы перед отправкой.

Полезные ссылки

Машинное обучение

Python

Установка и настройка Python