Data analysis (Software Engineering) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Оформление писем и заданий)
(Seminars)
Строка 71: Строка 71:
 
[https://drive.google.com/open?id=0B7TWwiIrcJstdkJyam9rNHpEcDg Practical task 1], [https://drive.google.com/open?id=0B7TWwiIrcJstQldxcThZRnF3ZVk data]
 
[https://drive.google.com/open?id=0B7TWwiIrcJstdkJyam9rNHpEcDg Practical task 1], [https://drive.google.com/open?id=0B7TWwiIrcJstQldxcThZRnF3ZVk data]
  
Additional materials: [http://nbviewer.ipython.org/gist/anonymous/fba8bf7f1ad379df9d63 Examples]
+
Additional materials: [http://nbviewer.ipython.org/gist/anonymous/fba8bf7f1ad379df9d63 1], [https://drive.google.com/open?id=0B7TWwiIrcJstRzVRSlRFcEl3VGM 2]
  
 
== Отчётность по курсу и критерии оценки ==
 
== Отчётность по курсу и критерии оценки ==

Версия 11:19, 16 января 2016

Таблица результатов и дедлайнов здесь

Почта курса: cshse.ml@gmail.com

Обратная связь: написать комментарий или пожелание по курсу

Контакты преподавателей:

Виктор Китов v.v.kitov@yandex.ru

Лобачева Екатерина elobacheva@hse.ru

Бартунов Сергей

Кондрашкин Дмитрий

Краткое описание

В курсе рассматриваются основные задачи анализа данных и обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности, ранжирование, коллаборативная фильрация. По изложению для каждой рассматриваемой задачи изучаются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.

Большое внимание уделено освоению практических навыков анализа данных, отрабатываемых на семинарах, которое будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.

От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей.

Курс включает в себя:

  1. Лекции и семинары
  2. Практические и теоретические домашние задания
  3. Одно соревновательное задание (информация будет уточнена позднее)
  4. Два теоретических коллоквиума: в середине и в конце семестра
  5. Письменный экзамен в конце семестра

Программа курса

  1. Introduction to machine learning.
  2. K-nearest neighbours classification and regression. Extensions. Optimization techniques.
  3. Decision tree methods.
  4. Bayesian decision theory. Model evaluation:
  • confusion matrix, accuaracy, ROC, AUC.
  1. Linear classification methods. Adding regularization to linear methods.
  2. Regression.
  3. Kernel generalization of standard methods.
  4. Neural networks.
  5. Ensemble methods: bagging, boosting, etc.
  6. Feature selection.
  • based on correlation, mutual information, forward-stagewise, backward-stagewise, forward-backward, L1, tree-based importances.
  1. Feature extraction
  • PCA, SVD
  1. EM algorithm. Density estimation using mixtures.
  2. Clustering
  3. Collaborative filtering
  4. Ranking

Lecture materials

Lecture 1. Introduction to data science and machine learning.

Download

Additional materials: The Field Guide to Data Science, Лекция К.В.Воронцова

Lecture 2. K nearest neighbours method.

Download

Additional materials: Лекция К.В.Воронцова, Metric learning survey 1, Metric learning survey 2

Seminars

Seminar 1. Introduction to Data Analysis in Python

Practical task 1, data

Additional materials: 1, 2

Отчётность по курсу и критерии оценки

Оценка за курс. Итоговая оценка за курс складывается из оценок за домашние задания, оценок за коллоквиумы и оценки за экзамен. Оценка за соревновательное задание будет являться бонусной. Точные критерии оценивания будут выложены позднее.

Плагиат. Всем, у кого обнаружен плагиат ставится 0 баллов и отметка о плагиате. И тем, кто списал, и тем, у кого списали. Мы не будем искать первоисточник работы. Также Вы должны понимать, что плагиат будет иметь и другие последствия. При обнаружении плагиата у одного и того же человека более одного раза на него будет оформляться докладная на имя декана.

Дедлайны

Точные даты дедлайнов указаны на второй вкладке здесь.

Для сдачи домашних заданий будет два вида дедлайнов: обычный и поздний. При сдаче задания до обычного дедлайна можно получить за него полное количество баллов. За сдачу задания после обычного дедлайна, но до позднего дедлайна можно получить только 50% от полного количества баллов. Решения присланные после позднего дедлайна не принимаются, кроме случаев наличия уважительных причин у студента (завалы на учебе или работе уважительными причинами не считаются).

Стандартный срок для выполнения практического домашнего задания (обычный и поздний дедлайны): 2 и 4 недели, для теоретического задания: 1 и 2 недели. Исключение: 1 практическое задание.

Время дедлайнов: 23:59 в день, предшествующий дню семинара (воскресенье для групп с семинарами по понедельникам и среда для групп с семинарами по четвергам).

Оформление писем и заданий

Вопросы и домашние задания присылайте на почтовый адрес cshse.ml@gmail.com. На почту присылайте письма со следующими темами:

  • Для вопросов (общих, по лабораторным, по теории и т. д.): "Вопрос - Фамилия Имя - Группа(подгруппа)"
  • Для заданий: "Практика/Теория {Номер работы} - Фамилия Имя - Группа(подгруппа)"

Пример: Практика 1 - Иванов Иван - 131(1)

Если вопрос адресован конкретному преподавателю, то также укажите его имя в теме письма.

Когда отвечаете на наши письма или досылаете какие-то решения, пишите письма в тот же тред.

Практические задания нужно сдавать в ipython notebook, а теоретические формате pdf. В качестве названия для файла с работой используйте свою фамилию на английском языке. Не нужно архивировать файлы перед отправкой.

Просьба не смешивать темы, то есть не нужно присылать в одном письме практическое задание и домашнее.

Задания можно отправлять только один раз!

Полезные ссылки

Машинное обучение

Python

Установка и настройка Python