Машинное обучение (факультет экономических наук)

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Лекторы: Екатерина Лобачева, Алексей Артемов
Лекции проходят по пятницам, 10:30 - 11:50, ауд. 5215.

Полезные ссылки

[ Программа курса]
Репозиторий на GitHub с материалами курса
Репозиторий на GitHub с конспектами лекций Евгения Соколова

Почта курса: ml.econom.hse@gmail.com
Формат темы письма (обязательно соблюдайте его, так как у нас стоят автоматические фильтры):

  • Вопрос - номер группы по данному курсу - Фамилия Имя — для вопросов;
  • Практика {номер задания} - номер группы по данному курсу - Фамилия Имя — для сдачи практических домашних заданий.

Возможные курсы по данному курсу: 4 простая, 4 сложная, 3 простая, 3 сложная, совбак простая, совбак сложная.
Пример: Практика 1 - 4 простая - Иванов Иван

Канал в telegram для объявлений: https://t.me/joinchat/AAAAAERI0duQMnhSawsR2A
Чат в telegram для обсуждений: https://t.me/joinchat/ABAXWEIJR7rcclSWVZfFhg

Таблица с оценками

Оставить анонимный отзыв на курс: форма

Семинары

3 курс, сложная группа, заполните форму: https://goo.gl/forms/GUom80x8zoiQ3ZyX2

Группа Преподаватель Учебный ассистент Чат Расписание
4 курс эконома, простая Артем Филатов Анастасия Рогачевская пятница 12:10, ауд. 5215
4 курс эконома, сложная Борис Демешев Никита Герман пятница 12:10, ауд. 2205
3 курс эконома, простая Елена Кантонистова Елизавета Вахрамеева тут суббота 16:40, ауд. 2205
3 курс эконома, сложная Евгений Егоров Мария Такташева обязательно понедельник 9:00, ауд. 3316
совбак, простая Илья Щуров Дмитрий Пчелкин вторник, 18:10, ауд. 3317
совбак, сложная Артем Филатов Ксения Вальчук среда 13:40, ауд. 4428

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и выполнение теоретических домашних заданий
  • Практические домашние работы на Python
  • Соревнование по анализу данных
  • Устный коллоквиум в конце 1-го модуля
  • Устный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз

Оценка за работу в семестре вычисляется по формуле

Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум

Накопленная и итоговая оценки округляются арифметически. Никакие промежуточные оценки, в том числе оценки за домашние задания, самостоятельные работы или коллоквиум, не округляются.

Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности.

По курсу возможно получение оценки автоматом без сдачи экзамена. Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.

Правила сдачи заданий

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок).

Коллоквиум

После первого модуля будет проведен устный коллоквиум.

Даты:

  • для эконома --- 25 октября с 9:30 до 15:00, ауд. 5406 и 5407. 3 курс приходит к 9:30, 4 курс - к 10:30.
  • для совбака --- 2 ноября с 18:00 до 21:00, ауд. 5215

Общее правило по датам: на неделе после сессии коллоквиум могут сдавать только студенты совбака! Студенты эконома, посещающие занятия с группами совбака, должны прийти на коллоквиум 25 октября! Желающие студенты совбака могут также прийти 25 октября, мы вас даже к этому призываем, так как 2 ноября у нас будет мало времени.

Правила

  • на коллоквиуме каждому будет выдан билет с 1 теоретическим вопрсом из списка ниже и 1 задачей
  • список теоретических вопросов вопросов здесь
  • задачи будут либо близки к задачам из теоретических домашних заданий, либо простыми задачами на понимание материала (например, на построение ROC-кривой для конкретных данных, на понимание формы разделяющей поверхности для разных методов классификации, на доказательство, что функция является ядром и т.д.)
  • на подготовку и ответ будет выделено примерно по 10 минут
  • пользоваться при подготовке ничем нельзя

Экзамен

В конце курса будет проведен устный экзамен. Правила сдачи экзамена и список вопросов появится позднее. Экзамен назначен на 27 декабря. Ориентировочно студентам совбака нужно будет приходить к 9:00, а студентам эконома к 11:30 в аудиторию 5215.

Лекции

Лекция 1 (1 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. Конспект

Лекция 2 (8 сентября). Линейная регрессия: обучение и разные функционалы ошибки. Градиентный спуск. Конспект

Лекция 3 (15 сентября). Регуляризация. Методы оценивания обобщающей способности, кросс-валидация. Конспект Слайды

Лекция 4 (22 сентября). Аппроксимация эмпирического риска. Задача оценивания вероятностей, логистическая регрессия. Идея калибровки вероятностей. Персептрон. Метрики качества в задачах классификации. Конспект Слайды

Лекция 5 (29 сентября). Метод опорных векторов, его двойственная задача (без ядер). Обобщённые линейные модели. Постановки задач multiclass- и multilabel-классификации. Конспект

Лекция 6 (6 октября). Пропущенные значения. Обработка текстов. Хеширование. Слайды

Лекция 7 (13 октября). Методы отбора признаков. Метод главных компонент и singular spectrum analysis. Слайды1, Слайды2

Лекция 8 (20 октября). Ядровые методы. Ядровой переход в SVM. Коспект по ядрам, Конспект по SVM

Лекция 9 (3 ноября). Решающие деревья, их построение и применение. Конспект

Лекция 10 (10 ноября). Композиции алгоритмов. Бэггинг, случайные леса. Разложение ошибки на смещение и разброс. Конспект

Следующая лекция:

Градиентный бустинг. Конспект

Семинары

Семинар 1. Python, numpy, pandas, matplotlib и прочие страшные звери. Notebook.

Семинар 2. Градиентный спуск и линейная регрессия Notebook

Семинар 3. Проверка обобщающей способности, переобучение. Notebook

Семинар 4. Линейные классификаторы, персептрон, логистическая регрессия, метрики качества, задачки на семинар и дз

Семинар 5. SVD и SVM

Семинар 6. Ядра и двойственная задача

Семинар 7. Деревья. задачи

Практические задания

Задание 1. Numpy, pandas, matplotlib.

Дата выдачи: 05.09.2017

Дедлайн: 19.09.2017 23:59MSK

Условие

Задание 2. Numpy,linear regression, gradient descent.

Дата выдачи: 21.09.2017

Дедлайн: 08.10.2017 23:59MSK

Условие


Задание 3. SVM, SVD, PCA.

Дата выдачи: 29.10.2017

Дедлайн: 15.11.2017 23:59MSK

Условие

Теоретические задания

Задание 1. Круг первый. Дифференцирование.

Дата выдачи: 08.09.2017

Проверочные начнутся на семинарах с 15.09.2017.

Условие

Задание 2. Лёд тронулся. Квантильная регрессия и переобучение.

Дата выдачи: 15.09.2017

Проверочные начнутся на семинарах с 22.09.2017.

Условие

Задание 3. Помоги Бандерлогу! Задачки на семинар и дз

Задание 4. SVD и SVM! Задачки на семинар и дз

Задание 5. Тексты и обработка признаков Условие Тетрадка с примерами

Дата выдачи: 06.10.2017 Проверочные начнутся на семинарах с 13.10.2017.

Соревнование

Зарегестрироваться на соревнование можно здесь. Предварительно вам нужно зарегистрироваться на платформе [kaggle.com kaggle]. Правила участия вы найдете там же. Оценка выставляется следующим образом: вы можете претендовать на положительный балл, если преодолели medium baseline, иначе вы получаете 0. После того, как это произошло, ваша финальная оценка будет вычисляться по следующей формуле:

best_gap = разница между medium baseline и лучшим решением на private leaderboard.

my_gap = разница между medium baseline и решением студента на private leaderboard.

оценка = 6 + 4 * my_gap / best_gap

В случае плохих показателей участников, утечки в данных и других непредвиденных обстоятельств организаторы оставляют за собой право изменить критерии. Соревнование закончится 08.12.17.


Полезные материалы

Книги

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  • Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

Курсы по машинному обучению и анализу данных