Машинное обучение (факультет экономических наук) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Теоретические задания)
(Экзамен)
 
(не показано 38 промежуточных версии 5 участников)
Строка 15: Строка 15:
 
* '''Практика {номер задания} - номер группы по данному курсу - Фамилия Имя''' — для сдачи практических домашних заданий.
 
* '''Практика {номер задания} - номер группы по данному курсу - Фамилия Имя''' — для сдачи практических домашних заданий.
  
Возможные курсы по данному курсу: 4 простая, 4 сложная, 3 простая, 3 сложная, совбак простая, совбак сложная.<br />
+
Возможные группы по данному курсу: 4 простая, 4 сложная, 3 простая, 3 сложная, совбак простая, совбак сложная.<br />
 
Пример: Практика 1 - 4 простая - Иванов Иван
 
Пример: Практика 1 - 4 простая - Иванов Иван
  
Строка 63: Строка 63:
  
 
O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>дз</sub> + 0.2 * О<sub>коллоквиум</sub>
 
O<sub>накопленная</sub> = 0.2 * O<sub>самостоятельные</sub> + 0.6 * О<sub>дз</sub> + 0.2 * О<sub>коллоквиум</sub>
 +
 +
Накопленная и итоговая оценки округляются арифметически. Никакие промежуточные оценки, в том числе оценки за домашние задания, самостоятельные работы или коллоквиум, не округляются.
  
 
Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу.  Количество баллов за разные задания может различаться в зависимости от их сложности.
 
Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу.  Количество баллов за разные задания может различаться в зависимости от их сложности.
Строка 75: Строка 77:
  
 
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок).
 
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок).
 +
 +
== Коллоквиум ==
 +
 +
После первого модуля будет проведен устный коллоквиум.
 +
 +
Даты:
 +
* для эконома --- 25 октября с 9:30 до 15:00, ауд. 5406 и 5407. 3 курс приходит к 9:30, 4 курс - к 10:30.
 +
* для совбака --- 2 ноября с 18:00 до 21:00, ауд. 5215
 +
 +
Общее правило по датам: на неделе после сессии коллоквиум могут сдавать только студенты совбака! Студенты эконома, посещающие занятия с группами совбака, должны прийти на коллоквиум 25 октября! Желающие студенты совбака могут также прийти 25 октября, мы вас даже к этому призываем, так как 2 ноября у нас будет мало времени.
 +
 +
'''Правила'''
 +
* на коллоквиуме каждому будет выдан билет с 1 теоретическим вопрсом из списка ниже и 1 задачей
 +
* список теоретических вопросов вопросов [https://drive.google.com/open?id=1HehYU2-nY5p79p1v_Hcqo1d8av9Pn8ui3mMfNFQItgo здесь]
 +
* задачи будут либо близки к задачам из теоретических домашних заданий, либо простыми задачами на понимание материала (например, на построение ROC-кривой для конкретных данных, на понимание формы разделяющей поверхности для разных методов классификации, на доказательство, что функция является ядром и т.д.)
 +
* на подготовку и ответ будет выделено примерно по 10 минут
 +
* пользоваться при подготовке ничем нельзя
 +
 +
== Экзамен ==
 +
В конце курса будет проведен устный экзамен. Экзамен назначен на 27 декабря. Cтудентам совбака нужно будет приходить к 9:30, а студентам эконома к 11:00 в аудиторию 5215.
 +
 +
'''Правила'''
 +
* на экзамене каждому будет выдан билет с 1 теоретическим вопросом из списка вопросов ниже
 +
* на подготовку будет выделено примерно 15-20 минут, пользоваться при подготовке ничем нельзя
 +
* общение с преподавателем будет состоять из трех частей: сдачи теоретического минимума, рассказа билета и решения задачи
 +
* незнание ответов на вопросы из теоретического минимума влечет нулевую оценку за экзамен
 +
* задачи будут либо близки к задачам из теоретических домашних заданий, либо простыми задачами на понимание материала (например, на построение ROC-кривой для конкретных данных, на понимание формы разделяющей поверхности для разных методов классификации, на доказательство, что функция является ядром и т.д.)
 +
* вопросы из теоретического минимума и задача выдается студенту непосредственно преподавателем в процессе общения
 +
* список теоретических вопросов и теоретический минимум  [https://docs.google.com/document/d/1J-5PEyfH3fybXa_Q0tSsXfnkhEhU-bm2p4rfZy-rj20/edit?usp=sharing здесь]
 +
 +
'''Пересдачи'''
 +
* пересдачи экзамена будут проводиться в 18:10 18 и 25 января. 18 января в аудитории 5410, 25 января - 4410.
 +
* совбаку официально пересдачи не положены, однако студенты могут прийти 18 февраля и попробовать пересдать экзамен.
 +
* комиссия будет 1 февраля в 18:10.
  
 
== Лекции ==
 
== Лекции ==
Строка 86: Строка 122:
 
'''Лекция 4''' (22 сентября). Аппроксимация эмпирического риска. Задача оценивания вероятностей, логистическая регрессия. Идея калибровки вероятностей. Персептрон. Метрики качества в задачах классификации. [https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture04-linclass.pdf Конспект] [https://github.com/artonson/hse-data-culture-fall-2017/blob/master/lecture-slides/lecture04.pdf Слайды]
 
'''Лекция 4''' (22 сентября). Аппроксимация эмпирического риска. Задача оценивания вероятностей, логистическая регрессия. Идея калибровки вероятностей. Персептрон. Метрики качества в задачах классификации. [https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture04-linclass.pdf Конспект] [https://github.com/artonson/hse-data-culture-fall-2017/blob/master/lecture-slides/lecture04.pdf Слайды]
  
'''Лекция 5''' (29 сентября). Метод опорных векторов, его двойственная задача (без ядер). Обобщённые линейные модели. Постановки задач multiclass- и multilabel-классификации. [https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture03-linregr.pdf Конспект]
+
'''Лекция 5''' (29 сентября). Метод опорных векторов, его двойственная задача (без ядер). Обобщённые линейные модели. Постановки задач multiclass- и multilabel-классификации. [https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture05-linclass.pdf Конспект]
  
 
'''Лекция 6''' (6 октября). Пропущенные значения. Обработка текстов. Хеширование.
 
'''Лекция 6''' (6 октября). Пропущенные значения. Обработка текстов. Хеширование.
 
[https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/lectures/lecture_6.pdf Слайды]
 
[https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/lectures/lecture_6.pdf Слайды]
  
'''Следующая лекция:'''
+
'''Лекция 7''' (13 октября). Методы отбора признаков. Метод главных компонент и singular spectrum analysis.
 +
[https://github.com/artonson/hse-data-culture-fall-2017/blob/master/lecture-slides/lecture07_1.pdf Слайды1], [https://github.com/artonson/hse-data-culture-fall-2017/blob/master/lecture-slides/lecture07_2.pdf Слайды2]
 +
 
 +
'''Лекция 8''' (20 октября). Ядровые методы. Ядровой переход в SVM.
 +
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture13-features.pdf Коспект по ядрам], [http://cs229.stanford.edu/notes/cs229-notes3.pdf Конспект по SVM]
 +
 
 +
'''Лекция 9''' (3 ноября). Решающие деревья, их построение и применение.
 +
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture07-trees.pdf Конспект]
 +
 
 +
'''Лекция 10''' (10 ноября). Композиции алгоритмов. Бэггинг, случайные леса. Разложение ошибки на смещение и разброс.
 +
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture08-ensembles.pdf Конспект]
 +
 
 +
'''Лекция 11''' (17 ноября). Композиции алгоритмов. Градиентный бустинг. Стекинг и блендинг.
 +
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture09-ensembles.pdf Конспект], [https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture10-ensembles.pdf Конспект (здесь про стекинг в конце)]
 +
 
 +
'''Лекция 12''' (24 ноября). Нейронные сети.
 +
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture11-dl.pdf Конспект]
 +
 
 +
'''Лекция 13''' (1 декабря). Обучение без учителя. Кластеризация и визуализация данных.
 +
[https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/lecture-notes/lecture12-unsupervised.pdf Конспект]
 +
 
 +
'''Лекция 14''' (8 декабря). Рекомендательные системы.
 +
[https://docviewer.yandex.ru/view/225299609/?*=eg3%2Fws1V8WdAujUPtML5zpB1%2BLB7InVybCI6InlhLWRpc2stcHVibGljOi8vRWRyQWROWGhLWWxJQzJNaS9iQmgzQm5ISDBxSXI2TWZyTFc0L3ptRGNrVT0iLCJ0aXRsZSI6IlJlY29tbWVuZGVyIHN5c3RlbXMucGRmIiwidWlkIjoiMjI1Mjk5NjA5IiwieXUiOiI2NDI2NzEyMTQzNzk5NjM3OCIsIm5vaWZyYW1lIjpmYWxzZSwidHMiOjE1MTI2NzkzMjY0NjF9 Слайды], [https://github.com/esokolov/ml-course-hse/blob/master/2016-spring/lecture-notes/lecture19-recommender.pdf Конспект]
 +
 
 +
'''Лекция 15''' (15 декабря). Ранжирование.
 +
[https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/lectures/%D0%A0%D0%B0%D0%BD%D0%B6%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%20-%20%D0%92%D0%A8%D0%AD.pdf Слайды], [https://github.com/esokolov/ml-course-hse/blob/master/2016-spring/lecture-notes/lecture24-ranking.pdf Конспект 1], [https://github.com/esokolov/ml-course-hse/blob/master/2016-spring/lecture-notes/lecture25-ranking.pdf Конспект 2]
  
 
== Семинары ==
 
== Семинары ==
Строка 101: Строка 162:
 
'''Семинар 3'''. Проверка обобщающей способности, переобучение. [https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/seminars/sem3/sem3.ipynb Notebook]
 
'''Семинар 3'''. Проверка обобщающей способности, переобучение. [https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/seminars/sem3/sem3.ipynb Notebook]
  
'''Семинар 4'''. Линейные классификаторы, персептрон, логистическая регрессия, метрики качества, [https://github.com/FilatovArtm/ML_Eco-NES_2017/raw/master/theory_problems/theory_pro.pdf задачки на семинар и дз]
+
'''Семинар 4'''. Линейные классификаторы, персептрон, логистическая регрессия, метрики качества
 +
 
 +
'''Семинар 5'''. SVD и SVM
 +
 
 +
'''Семинар 6'''. Ядра и двойственная задача
 +
 
 +
'''Семинар 7'''. Деревья. [https://github.com/esokolov/ml-course-hse/blob/master/2016-fall/seminars/sem07-trees.ipynb задачи]
 +
 
 +
 
 +
[https://github.com/bdemeshev/mlearn_pro/raw/master/mlearn_pro.pdf Свалка задач ко всем семинарам]
  
 
== Практические задания ==
 
== Практические задания ==
Строка 120: Строка 190:
  
 
[https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/homeworks/hw02-linregr.ipynb Условие]
 
[https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/homeworks/hw02-linregr.ipynb Условие]
 +
 +
 +
'''Задание 3.''' SVM, SVD, PCA.
 +
 +
Дата выдачи: 29.10.2017
 +
 +
Дедлайн: 15.11.2017 23:59MSK
 +
 +
[https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/homeworks/hw03-pca.ipynb Условие]
 +
 +
'''Задание 4.''' Decision Tree, NN, Boosting
 +
 +
Дата выдачи: 29.11.2017
 +
 +
Дедлайн: 15.12.2017 23:59MSK
 +
 +
[https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/homeworks/hw04-nn.ipynb Условие]
  
 
== Теоретические задания ==
 
== Теоретические задания ==
Строка 139: Строка 226:
 
[https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/theory_homeworks/hw_theory_2.pdf Условие]
 
[https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/theory_homeworks/hw_theory_2.pdf Условие]
  
'''Задание 3'''. Помоги Бандерлогу! [https://github.com/FilatovArtm/ML_Eco-NES_2017/raw/master/theory_problems/theory_pro.pdf Задачки на семинар и дз]
+
'''Задание 3'''. Помоги Бандерлогу!  
  
'''Задание 4'''. SVD и SVM! [https://github.com/FilatovArtm/ML_Eco-NES_2017/raw/master/theory_problems/theory_pro.pdf Задачки на семинар и дз]
+
'''Задание 4'''. SVD и SVM!  
  
'''Задание 5'''. Тексты и обработка признаков [https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/theory_homeworks/hw_theory_5.pdf Условие]
+
'''Задание 5'''. Тексты и обработка признаков [https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/theory_homeworks/hw_theory_5.pdf Условие] [https://github.com/FilatovArtm/ML_Eco-NES_2017/blob/master/seminars/sem5/Seminar5.ipynb Тетрадка с примерами]
  
 
Дата выдачи: 06.10.2017
 
Дата выдачи: 06.10.2017
 
 
Проверочные начнутся на семинарах с 13.10.2017.
 
Проверочные начнутся на семинарах с 13.10.2017.
 +
 +
На забывайте про [https://github.com/bdemeshev/mlearn_pro/raw/master/mlearn_pro.pdf Свалку задач ко всем семинарам]!
 +
 +
== Соревнование ==
 +
Зарегестрироваться на соревнование можно [https://www.kaggle.com/t/18f956df74c04a639e49b9b9cf431c73 здесь]. Предварительно вам нужно зарегистрироваться на платформе [kaggle.com kaggle]. Правила участия вы найдете там же. Оценка выставляется следующим образом: вы можете претендовать на положительный балл, если преодолели medium baseline, иначе вы получаете 0. После того, как это произошло, ваша финальная оценка будет вычисляться по следующей формуле:
 +
 +
best_gap = разница между medium baseline и лучшим решением на private leaderboard.
 +
 +
my_gap = разница между medium baseline и решением студента на private leaderboard.
 +
 +
оценка = 6 + 4 * my_gap / best_gap
 +
 +
Оценка за соревнование идет, как оценка за одно домашнее задание.
 +
 +
Дополнительно к оценке за соревнование первые 6 мест получат +1.5 балла к итоговой накопленной оценке, вторые 6 мест получат +0.7 баллов.
 +
 +
В случае плохих показателей участников, утечки в данных и других непредвиденных обстоятельств организаторы оставляют за собой право изменить критерии. Соревнование закончится 09.12.17 в 03:00.
 +
 +
Ноутбук с решением нужно прислать до 23:59 10.12.17.
  
 
== Полезные материалы ==
 
== Полезные материалы ==

Текущая версия на 13:57, 18 января 2018

О курсе

Лекторы: Екатерина Лобачева, Алексей Артемов
Лекции проходят по пятницам, 10:30 - 11:50, ауд. 5215.

Полезные ссылки

[ Программа курса]
Репозиторий на GitHub с материалами курса
Репозиторий на GitHub с конспектами лекций Евгения Соколова

Почта курса: ml.econom.hse@gmail.com
Формат темы письма (обязательно соблюдайте его, так как у нас стоят автоматические фильтры):

  • Вопрос - номер группы по данному курсу - Фамилия Имя — для вопросов;
  • Практика {номер задания} - номер группы по данному курсу - Фамилия Имя — для сдачи практических домашних заданий.

Возможные группы по данному курсу: 4 простая, 4 сложная, 3 простая, 3 сложная, совбак простая, совбак сложная.
Пример: Практика 1 - 4 простая - Иванов Иван

Канал в telegram для объявлений: https://t.me/joinchat/AAAAAERI0duQMnhSawsR2A
Чат в telegram для обсуждений: https://t.me/joinchat/ABAXWEIJR7rcclSWVZfFhg

Таблица с оценками

Оставить анонимный отзыв на курс: форма

Семинары

3 курс, сложная группа, заполните форму: https://goo.gl/forms/GUom80x8zoiQ3ZyX2

Группа Преподаватель Учебный ассистент Чат Расписание
4 курс эконома, простая Артем Филатов Анастасия Рогачевская пятница 12:10, ауд. 5215
4 курс эконома, сложная Борис Демешев Никита Герман пятница 12:10, ауд. 2205
3 курс эконома, простая Елена Кантонистова Елизавета Вахрамеева тут суббота 16:40, ауд. 2205
3 курс эконома, сложная Евгений Егоров Мария Такташева обязательно понедельник 9:00, ауд. 3316
совбак, простая Илья Щуров Дмитрий Пчелкин вторник, 18:10, ауд. 3317
совбак, сложная Артем Филатов Ксения Вальчук среда 13:40, ауд. 4428

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и выполнение теоретических домашних заданий
  • Практические домашние работы на Python
  • Соревнование по анализу данных
  • Устный коллоквиум в конце 1-го модуля
  • Устный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз

Оценка за работу в семестре вычисляется по формуле

Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум

Накопленная и итоговая оценки округляются арифметически. Никакие промежуточные оценки, в том числе оценки за домашние задания, самостоятельные работы или коллоквиум, не округляются.

Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности.

По курсу возможно получение оценки автоматом без сдачи экзамена. Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.

Правила сдачи заданий

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок).

Коллоквиум

После первого модуля будет проведен устный коллоквиум.

Даты:

  • для эконома --- 25 октября с 9:30 до 15:00, ауд. 5406 и 5407. 3 курс приходит к 9:30, 4 курс - к 10:30.
  • для совбака --- 2 ноября с 18:00 до 21:00, ауд. 5215

Общее правило по датам: на неделе после сессии коллоквиум могут сдавать только студенты совбака! Студенты эконома, посещающие занятия с группами совбака, должны прийти на коллоквиум 25 октября! Желающие студенты совбака могут также прийти 25 октября, мы вас даже к этому призываем, так как 2 ноября у нас будет мало времени.

Правила

  • на коллоквиуме каждому будет выдан билет с 1 теоретическим вопрсом из списка ниже и 1 задачей
  • список теоретических вопросов вопросов здесь
  • задачи будут либо близки к задачам из теоретических домашних заданий, либо простыми задачами на понимание материала (например, на построение ROC-кривой для конкретных данных, на понимание формы разделяющей поверхности для разных методов классификации, на доказательство, что функция является ядром и т.д.)
  • на подготовку и ответ будет выделено примерно по 10 минут
  • пользоваться при подготовке ничем нельзя

Экзамен

В конце курса будет проведен устный экзамен. Экзамен назначен на 27 декабря. Cтудентам совбака нужно будет приходить к 9:30, а студентам эконома к 11:00 в аудиторию 5215.

Правила

  • на экзамене каждому будет выдан билет с 1 теоретическим вопросом из списка вопросов ниже
  • на подготовку будет выделено примерно 15-20 минут, пользоваться при подготовке ничем нельзя
  • общение с преподавателем будет состоять из трех частей: сдачи теоретического минимума, рассказа билета и решения задачи
  • незнание ответов на вопросы из теоретического минимума влечет нулевую оценку за экзамен
  • задачи будут либо близки к задачам из теоретических домашних заданий, либо простыми задачами на понимание материала (например, на построение ROC-кривой для конкретных данных, на понимание формы разделяющей поверхности для разных методов классификации, на доказательство, что функция является ядром и т.д.)
  • вопросы из теоретического минимума и задача выдается студенту непосредственно преподавателем в процессе общения
  • список теоретических вопросов и теоретический минимум здесь

Пересдачи

  • пересдачи экзамена будут проводиться в 18:10 18 и 25 января. 18 января в аудитории 5410, 25 января - 4410.
  • совбаку официально пересдачи не положены, однако студенты могут прийти 18 февраля и попробовать пересдать экзамен.
  • комиссия будет 1 февраля в 18:10.

Лекции

Лекция 1 (1 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. Конспект

Лекция 2 (8 сентября). Линейная регрессия: обучение и разные функционалы ошибки. Градиентный спуск. Конспект

Лекция 3 (15 сентября). Регуляризация. Методы оценивания обобщающей способности, кросс-валидация. Конспект Слайды

Лекция 4 (22 сентября). Аппроксимация эмпирического риска. Задача оценивания вероятностей, логистическая регрессия. Идея калибровки вероятностей. Персептрон. Метрики качества в задачах классификации. Конспект Слайды

Лекция 5 (29 сентября). Метод опорных векторов, его двойственная задача (без ядер). Обобщённые линейные модели. Постановки задач multiclass- и multilabel-классификации. Конспект

Лекция 6 (6 октября). Пропущенные значения. Обработка текстов. Хеширование. Слайды

Лекция 7 (13 октября). Методы отбора признаков. Метод главных компонент и singular spectrum analysis. Слайды1, Слайды2

Лекция 8 (20 октября). Ядровые методы. Ядровой переход в SVM. Коспект по ядрам, Конспект по SVM

Лекция 9 (3 ноября). Решающие деревья, их построение и применение. Конспект

Лекция 10 (10 ноября). Композиции алгоритмов. Бэггинг, случайные леса. Разложение ошибки на смещение и разброс. Конспект

Лекция 11 (17 ноября). Композиции алгоритмов. Градиентный бустинг. Стекинг и блендинг. Конспект, Конспект (здесь про стекинг в конце)

Лекция 12 (24 ноября). Нейронные сети. Конспект

Лекция 13 (1 декабря). Обучение без учителя. Кластеризация и визуализация данных. Конспект

Лекция 14 (8 декабря). Рекомендательные системы. Слайды, Конспект

Лекция 15 (15 декабря). Ранжирование. Слайды, Конспект 1, Конспект 2

Семинары

Семинар 1. Python, numpy, pandas, matplotlib и прочие страшные звери. Notebook.

Семинар 2. Градиентный спуск и линейная регрессия Notebook

Семинар 3. Проверка обобщающей способности, переобучение. Notebook

Семинар 4. Линейные классификаторы, персептрон, логистическая регрессия, метрики качества

Семинар 5. SVD и SVM

Семинар 6. Ядра и двойственная задача

Семинар 7. Деревья. задачи


Свалка задач ко всем семинарам

Практические задания

Задание 1. Numpy, pandas, matplotlib.

Дата выдачи: 05.09.2017

Дедлайн: 19.09.2017 23:59MSK

Условие

Задание 2. Numpy,linear regression, gradient descent.

Дата выдачи: 21.09.2017

Дедлайн: 08.10.2017 23:59MSK

Условие


Задание 3. SVM, SVD, PCA.

Дата выдачи: 29.10.2017

Дедлайн: 15.11.2017 23:59MSK

Условие

Задание 4. Decision Tree, NN, Boosting

Дата выдачи: 29.11.2017

Дедлайн: 15.12.2017 23:59MSK

Условие

Теоретические задания

Задание 1. Круг первый. Дифференцирование.

Дата выдачи: 08.09.2017

Проверочные начнутся на семинарах с 15.09.2017.

Условие

Задание 2. Лёд тронулся. Квантильная регрессия и переобучение.

Дата выдачи: 15.09.2017

Проверочные начнутся на семинарах с 22.09.2017.

Условие

Задание 3. Помоги Бандерлогу!

Задание 4. SVD и SVM!

Задание 5. Тексты и обработка признаков Условие Тетрадка с примерами

Дата выдачи: 06.10.2017 Проверочные начнутся на семинарах с 13.10.2017.

На забывайте про Свалку задач ко всем семинарам!

Соревнование

Зарегестрироваться на соревнование можно здесь. Предварительно вам нужно зарегистрироваться на платформе [kaggle.com kaggle]. Правила участия вы найдете там же. Оценка выставляется следующим образом: вы можете претендовать на положительный балл, если преодолели medium baseline, иначе вы получаете 0. После того, как это произошло, ваша финальная оценка будет вычисляться по следующей формуле:

best_gap = разница между medium baseline и лучшим решением на private leaderboard.

my_gap = разница между medium baseline и решением студента на private leaderboard.

оценка = 6 + 4 * my_gap / best_gap

Оценка за соревнование идет, как оценка за одно домашнее задание.

Дополнительно к оценке за соревнование первые 6 мест получат +1.5 балла к итоговой накопленной оценке, вторые 6 мест получат +0.7 баллов.

В случае плохих показателей участников, утечки в данных и других непредвиденных обстоятельств организаторы оставляют за собой право изменить критерии. Соревнование закончится 09.12.17 в 03:00.

Ноутбук с решением нужно прислать до 23:59 10.12.17.

Полезные материалы

Книги

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  • Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

Курсы по машинному обучению и анализу данных