Машинное обучение (факультет экономических наук) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Соревнование)
(Лекции)
Строка 130: Строка 130:
 
'''Лекция 12''' (24 ноября). Нейронные сети.
 
'''Лекция 12''' (24 ноября). Нейронные сети.
 
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture11-dl.pdf Конспект]
 
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture11-dl.pdf Конспект]
 +
 +
'''Лекция 13''' (1 декабря). Обучение без учителя. Кластеризация и визуализация данных.
 +
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture12-unsupervised.pdf Конспект]
 +
 +
'''Лекция 14''' (8 декабря). Рекомендательные системы.
 +
[https://docviewer.yandex.ru/view/225299609/?*=eg3%2Fws1V8WdAujUPtML5zpB1%2BLB7InVybCI6InlhLWRpc2stcHVibGljOi8vRWRyQWROWGhLWWxJQzJNaS9iQmgzQm5ISDBxSXI2TWZyTFc0L3ptRGNrVT0iLCJ0aXRsZSI6IlJlY29tbWVuZGVyIHN5c3RlbXMucGRmIiwidWlkIjoiMjI1Mjk5NjA5IiwieXUiOiI2NDI2NzEyMTQzNzk5NjM3OCIsIm5vaWZyYW1lIjpmYWxzZSwidHMiOjE1MTI2NzkzMjY0NjF9 Слайды], [https://github.com/esokolov/ml-course-hse/blob/master/2016-spring/lecture-notes/lecture19-recommender.pdf Конспект]
  
 
'''Следующая лекция:'''
 
'''Следующая лекция:'''
  
Обучение без учителя. Кластеризация и визуализация данных.
+
Ранжирование.
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture12-unsupervised.pdf Конспект]
+
[https://github.com/esokolov/ml-course-hse/blob/master/2016-spring/lecture-notes/lecture24-ranking.pdf Конспект 1], [https://github.com/esokolov/ml-course-hse/blob/master/2016-spring/lecture-notes/lecture25-ranking.pdf Конспект 2]
  
 
== Семинары ==
 
== Семинары ==

Версия 00:36, 10 декабря 2017

О курсе

Лекторы: Екатерина Лобачева, Алексей Артемов
Лекции проходят по пятницам, 10:30 - 11:50, ауд. 5215.

Полезные ссылки

[ Программа курса]
Репозиторий на GitHub с материалами курса
Репозиторий на GitHub с конспектами лекций Евгения Соколова

Почта курса: ml.econom.hse@gmail.com
Формат темы письма (обязательно соблюдайте его, так как у нас стоят автоматические фильтры):

  • Вопрос - номер группы по данному курсу - Фамилия Имя — для вопросов;
  • Практика {номер задания} - номер группы по данному курсу - Фамилия Имя — для сдачи практических домашних заданий.

Возможные курсы по данному курсу: 4 простая, 4 сложная, 3 простая, 3 сложная, совбак простая, совбак сложная.
Пример: Практика 1 - 4 простая - Иванов Иван

Канал в telegram для объявлений: https://t.me/joinchat/AAAAAERI0duQMnhSawsR2A
Чат в telegram для обсуждений: https://t.me/joinchat/ABAXWEIJR7rcclSWVZfFhg

Таблица с оценками

Оставить анонимный отзыв на курс: форма

Семинары

3 курс, сложная группа, заполните форму: https://goo.gl/forms/GUom80x8zoiQ3ZyX2

Группа Преподаватель Учебный ассистент Чат Расписание
4 курс эконома, простая Артем Филатов Анастасия Рогачевская пятница 12:10, ауд. 5215
4 курс эконома, сложная Борис Демешев Никита Герман пятница 12:10, ауд. 2205
3 курс эконома, простая Елена Кантонистова Елизавета Вахрамеева тут суббота 16:40, ауд. 2205
3 курс эконома, сложная Евгений Егоров Мария Такташева обязательно понедельник 9:00, ауд. 3316
совбак, простая Илья Щуров Дмитрий Пчелкин вторник, 18:10, ауд. 3317
совбак, сложная Артем Филатов Ксения Вальчук среда 13:40, ауд. 4428

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и выполнение теоретических домашних заданий
  • Практические домашние работы на Python
  • Соревнование по анализу данных
  • Устный коллоквиум в конце 1-го модуля
  • Устный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз

Оценка за работу в семестре вычисляется по формуле

Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум

Накопленная и итоговая оценки округляются арифметически. Никакие промежуточные оценки, в том числе оценки за домашние задания, самостоятельные работы или коллоквиум, не округляются.

Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности.

По курсу возможно получение оценки автоматом без сдачи экзамена. Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.

Правила сдачи заданий

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок).

Коллоквиум

После первого модуля будет проведен устный коллоквиум.

Даты:

  • для эконома --- 25 октября с 9:30 до 15:00, ауд. 5406 и 5407. 3 курс приходит к 9:30, 4 курс - к 10:30.
  • для совбака --- 2 ноября с 18:00 до 21:00, ауд. 5215

Общее правило по датам: на неделе после сессии коллоквиум могут сдавать только студенты совбака! Студенты эконома, посещающие занятия с группами совбака, должны прийти на коллоквиум 25 октября! Желающие студенты совбака могут также прийти 25 октября, мы вас даже к этому призываем, так как 2 ноября у нас будет мало времени.

Правила

  • на коллоквиуме каждому будет выдан билет с 1 теоретическим вопрсом из списка ниже и 1 задачей
  • список теоретических вопросов вопросов здесь
  • задачи будут либо близки к задачам из теоретических домашних заданий, либо простыми задачами на понимание материала (например, на построение ROC-кривой для конкретных данных, на понимание формы разделяющей поверхности для разных методов классификации, на доказательство, что функция является ядром и т.д.)
  • на подготовку и ответ будет выделено примерно по 10 минут
  • пользоваться при подготовке ничем нельзя

Экзамен

В конце курса будет проведен устный экзамен. Правила сдачи экзамена и список вопросов появится позднее. Экзамен назначен на 27 декабря. Ориентировочно студентам совбака нужно будет приходить к 9:00, а студентам эконома к 11:30 в аудиторию 5215.

Лекции

Лекция 1 (1 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. Конспект

Лекция 2 (8 сентября). Линейная регрессия: обучение и разные функционалы ошибки. Градиентный спуск. Конспект

Лекция 3 (15 сентября). Регуляризация. Методы оценивания обобщающей способности, кросс-валидация. Конспект Слайды

Лекция 4 (22 сентября). Аппроксимация эмпирического риска. Задача оценивания вероятностей, логистическая регрессия. Идея калибровки вероятностей. Персептрон. Метрики качества в задачах классификации. Конспект Слайды

Лекция 5 (29 сентября). Метод опорных векторов, его двойственная задача (без ядер). Обобщённые линейные модели. Постановки задач multiclass- и multilabel-классификации. Конспект

Лекция 6 (6 октября). Пропущенные значения. Обработка текстов. Хеширование. Слайды

Лекция 7 (13 октября). Методы отбора признаков. Метод главных компонент и singular spectrum analysis. Слайды1, Слайды2

Лекция 8 (20 октября). Ядровые методы. Ядровой переход в SVM. Коспект по ядрам, Конспект по SVM

Лекция 9 (3 ноября). Решающие деревья, их построение и применение. Конспект

Лекция 10 (10 ноября). Композиции алгоритмов. Бэггинг, случайные леса. Разложение ошибки на смещение и разброс. Конспект

Лекция 11 (17 ноября). Композиции алгоритмов. Градиентный бустинг. Конспект

Лекция 12 (24 ноября). Нейронные сети. Конспект

Лекция 13 (1 декабря). Обучение без учителя. Кластеризация и визуализация данных. Конспект

Лекция 14 (8 декабря). Рекомендательные системы. Слайды, Конспект

Следующая лекция:

Ранжирование. Конспект 1, Конспект 2

Семинары

Семинар 1. Python, numpy, pandas, matplotlib и прочие страшные звери. Notebook.

Семинар 2. Градиентный спуск и линейная регрессия Notebook

Семинар 3. Проверка обобщающей способности, переобучение. Notebook

Семинар 4. Линейные классификаторы, персептрон, логистическая регрессия, метрики качества

Семинар 5. SVD и SVM

Семинар 6. Ядра и двойственная задача

Семинар 7. Деревья. задачи


Свалка задач ко всем семинарам

Практические задания

Задание 1. Numpy, pandas, matplotlib.

Дата выдачи: 05.09.2017

Дедлайн: 19.09.2017 23:59MSK

Условие

Задание 2. Numpy,linear regression, gradient descent.

Дата выдачи: 21.09.2017

Дедлайн: 08.10.2017 23:59MSK

Условие


Задание 3. SVM, SVD, PCA.

Дата выдачи: 29.10.2017

Дедлайн: 15.11.2017 23:59MSK

Условие

Задание 4. Decision Tree, NN, Boosting

Дата выдачи: 29.11.2017

Дедлайн: 15.12.2017 23:59MSK

Условие

Теоретические задания

Задание 1. Круг первый. Дифференцирование.

Дата выдачи: 08.09.2017

Проверочные начнутся на семинарах с 15.09.2017.

Условие

Задание 2. Лёд тронулся. Квантильная регрессия и переобучение.

Дата выдачи: 15.09.2017

Проверочные начнутся на семинарах с 22.09.2017.

Условие

Задание 3. Помоги Бандерлогу!

Задание 4. SVD и SVM!

Задание 5. Тексты и обработка признаков Условие Тетрадка с примерами

Дата выдачи: 06.10.2017 Проверочные начнутся на семинарах с 13.10.2017.

На забывайте про Свалку задач ко всем семинарам!

Соревнование

Зарегестрироваться на соревнование можно здесь. Предварительно вам нужно зарегистрироваться на платформе [kaggle.com kaggle]. Правила участия вы найдете там же. Оценка выставляется следующим образом: вы можете претендовать на положительный балл, если преодолели medium baseline, иначе вы получаете 0. После того, как это произошло, ваша финальная оценка будет вычисляться по следующей формуле:

best_gap = разница между medium baseline и лучшим решением на private leaderboard.

my_gap = разница между medium baseline и решением студента на private leaderboard.

оценка = 6 + 4 * my_gap / best_gap

Оценка за соревнование идет, как оценка за одно домашнее задание.

Дополнительно к оценке за соревнование первые 6 мест получат +1.5 балла к итоговой накопленной оценке, вторые 6 мест получат +0.7 баллов.

В случае плохих показателей участников, утечки в данных и других непредвиденных обстоятельств организаторы оставляют за собой право изменить критерии. Соревнование закончится 09.12.17 в 03:00.

Ноутбук с решением нужно прислать до 23:59 10.12.17.

Полезные материалы

Книги

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  • Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

Курсы по машинному обучению и анализу данных