Машинное обучение (факультет экономических наук)
Содержание
О курсе
Лекторы: Екатерина Лобачева, Алексей Артемов
Лекции проходят по пятницам, 10:30 - 11:50, ауд. 5215.
Полезные ссылки
[ Программа курса]
Репозиторий на GitHub с материалами курса
Репозиторий на GitHub с конспектами лекций Евгения Соколова
Почта курса: ml.econom.hse@gmail.com
Формат темы письма (обязательно соблюдайте его, так как у нас стоят автоматические фильтры):
- Вопрос - номер группы по данному курсу - Фамилия Имя — для вопросов;
- Практика {номер задания} - номер группы по данному курсу - Фамилия Имя — для сдачи практических домашних заданий.
Возможные группы по данному курсу: 4 простая, 4 сложная, 3 простая, 3 сложная, совбак простая, совбак сложная.
Пример: Практика 1 - 4 простая - Иванов Иван
Канал в telegram для объявлений: https://t.me/joinchat/AAAAAERI0duQMnhSawsR2A
Чат в telegram для обсуждений: https://t.me/joinchat/ABAXWEIJR7rcclSWVZfFhg
Оставить анонимный отзыв на курс: форма
Семинары
3 курс, сложная группа, заполните форму: https://goo.gl/forms/GUom80x8zoiQ3ZyX2
Группа | Преподаватель | Учебный ассистент | Чат | Расписание |
---|---|---|---|---|
4 курс эконома, простая | Артем Филатов | Анастасия Рогачевская | пятница 12:10, ауд. 5215 | |
4 курс эконома, сложная | Борис Демешев | Никита Герман | пятница 12:10, ауд. 2205 | |
3 курс эконома, простая | Елена Кантонистова | Елизавета Вахрамеева | тут | суббота 16:40, ауд. 2205 |
3 курс эконома, сложная | Евгений Егоров | Мария Такташева | обязательно | понедельник 9:00, ауд. 3316 |
совбак, простая | Илья Щуров | Дмитрий Пчелкин | вторник, 18:10, ауд. 3317 | |
совбак, сложная | Артем Филатов | Ксения Вальчук | среда 13:40, ауд. 4428 |
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
- Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и выполнение теоретических домашних заданий
- Практические домашние работы на Python
- Соревнование по анализу данных
- Устный коллоквиум в конце 1-го модуля
- Устный экзамен
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз
Оценка за работу в семестре вычисляется по формуле
Oнакопленная = 0.2 * Oсамостоятельные + 0.6 * Одз + 0.2 * Околлоквиум
Накопленная и итоговая оценки округляются арифметически. Никакие промежуточные оценки, в том числе оценки за домашние задания, самостоятельные работы или коллоквиум, не округляются.
Оценка за самостоятельную работу вычисляется как сумма баллов по всем самостоятельным, переведенная в 10 бальную шкалу. Оценка за домашнюю работу — как сумма баллов по всем практическим заданиям и соревнованию, переведенная в 10 бальную шкалу. Количество баллов за разные задания может различаться в зависимости от их сложности.
По курсу возможно получение оценки автоматом без сдачи экзамена. Необходимым условием для получения автомата является накопленная оценка, равная 8 или выше.
Правила сдачи заданий
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работы не принимаются.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок).
Коллоквиум
После первого модуля будет проведен устный коллоквиум.
Даты:
- для эконома --- 25 октября с 9:30 до 15:00, ауд. 5406 и 5407. 3 курс приходит к 9:30, 4 курс - к 10:30.
- для совбака --- 2 ноября с 18:00 до 21:00, ауд. 5215
Общее правило по датам: на неделе после сессии коллоквиум могут сдавать только студенты совбака! Студенты эконома, посещающие занятия с группами совбака, должны прийти на коллоквиум 25 октября! Желающие студенты совбака могут также прийти 25 октября, мы вас даже к этому призываем, так как 2 ноября у нас будет мало времени.
Правила
- на коллоквиуме каждому будет выдан билет с 1 теоретическим вопрсом из списка ниже и 1 задачей
- список теоретических вопросов вопросов здесь
- задачи будут либо близки к задачам из теоретических домашних заданий, либо простыми задачами на понимание материала (например, на построение ROC-кривой для конкретных данных, на понимание формы разделяющей поверхности для разных методов классификации, на доказательство, что функция является ядром и т.д.)
- на подготовку и ответ будет выделено примерно по 10 минут
- пользоваться при подготовке ничем нельзя
Экзамен
В конце курса будет проведен устный экзамен. Экзамен назначен на 27 декабря. Cтудентам совбака нужно будет приходить к 9:30, а студентам эконома к 11:00 в аудиторию 5215.
Правила
- на экзамене каждому будет выдан билет с 1 теоретическим вопросом из списка вопросов ниже
- на подготовку будет выделено примерно 15-20 минут, пользоваться при подготовке ничем нельзя
- общение с преподавателем будет состоять из трех частей: сдачи теоретического минимума, рассказа билета и решения задачи
- незнание ответов на вопросы из теоретического минимума влечет нулевую оценку за экзамен
- задачи будут либо близки к задачам из теоретических домашних заданий, либо простыми задачами на понимание материала (например, на построение ROC-кривой для конкретных данных, на понимание формы разделяющей поверхности для разных методов классификации, на доказательство, что функция является ядром и т.д.)
- вопросы из теоретического минимума и задача выдается студенту непосредственно преподавателем в процессе общения
- список теоретических вопросов и теоретический минимум здесь
Пересдачи
- пересдачи экзамена будут проводиться в 18:10 18 и 25 января. 18 января в аудитории 5410, 25 января - 4410.
- совбаку официально пересдачи не положены, однако студенты могут прийти 18 февраля и попробовать пересдать экзамен.
- комиссия будет 1 февраля в 18:10.
Лекции
Лекция 1 (1 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. Конспект
Лекция 2 (8 сентября). Линейная регрессия: обучение и разные функционалы ошибки. Градиентный спуск. Конспект
Лекция 3 (15 сентября). Регуляризация. Методы оценивания обобщающей способности, кросс-валидация. Конспект Слайды
Лекция 4 (22 сентября). Аппроксимация эмпирического риска. Задача оценивания вероятностей, логистическая регрессия. Идея калибровки вероятностей. Персептрон. Метрики качества в задачах классификации. Конспект Слайды
Лекция 5 (29 сентября). Метод опорных векторов, его двойственная задача (без ядер). Обобщённые линейные модели. Постановки задач multiclass- и multilabel-классификации. Конспект
Лекция 6 (6 октября). Пропущенные значения. Обработка текстов. Хеширование. Слайды
Лекция 7 (13 октября). Методы отбора признаков. Метод главных компонент и singular spectrum analysis. Слайды1, Слайды2
Лекция 8 (20 октября). Ядровые методы. Ядровой переход в SVM. Коспект по ядрам, Конспект по SVM
Лекция 9 (3 ноября). Решающие деревья, их построение и применение. Конспект
Лекция 10 (10 ноября). Композиции алгоритмов. Бэггинг, случайные леса. Разложение ошибки на смещение и разброс. Конспект
Лекция 11 (17 ноября). Композиции алгоритмов. Градиентный бустинг. Стекинг и блендинг. Конспект, Конспект (здесь про стекинг в конце)
Лекция 12 (24 ноября). Нейронные сети. Конспект
Лекция 13 (1 декабря). Обучение без учителя. Кластеризация и визуализация данных. Конспект
Лекция 14 (8 декабря). Рекомендательные системы. Слайды, Конспект
Лекция 15 (15 декабря). Ранжирование. Слайды, Конспект 1, Конспект 2
Семинары
Семинар 1. Python, numpy, pandas, matplotlib и прочие страшные звери. Notebook.
Семинар 2. Градиентный спуск и линейная регрессия Notebook
Семинар 3. Проверка обобщающей способности, переобучение. Notebook
Семинар 4. Линейные классификаторы, персептрон, логистическая регрессия, метрики качества
Семинар 5. SVD и SVM
Семинар 6. Ядра и двойственная задача
Семинар 7. Деревья. задачи
Свалка задач ко всем семинарам
Практические задания
Задание 1. Numpy, pandas, matplotlib.
Дата выдачи: 05.09.2017
Дедлайн: 19.09.2017 23:59MSK
Задание 2. Numpy,linear regression, gradient descent.
Дата выдачи: 21.09.2017
Дедлайн: 08.10.2017 23:59MSK
Задание 3. SVM, SVD, PCA.
Дата выдачи: 29.10.2017
Дедлайн: 15.11.2017 23:59MSK
Задание 4. Decision Tree, NN, Boosting
Дата выдачи: 29.11.2017
Дедлайн: 15.12.2017 23:59MSK
Теоретические задания
Задание 1. Круг первый. Дифференцирование.
Дата выдачи: 08.09.2017
Проверочные начнутся на семинарах с 15.09.2017.
Задание 2. Лёд тронулся. Квантильная регрессия и переобучение.
Дата выдачи: 15.09.2017
Проверочные начнутся на семинарах с 22.09.2017.
Задание 3. Помоги Бандерлогу!
Задание 4. SVD и SVM!
Задание 5. Тексты и обработка признаков Условие Тетрадка с примерами
Дата выдачи: 06.10.2017 Проверочные начнутся на семинарах с 13.10.2017.
На забывайте про Свалку задач ко всем семинарам!
Соревнование
Зарегестрироваться на соревнование можно здесь. Предварительно вам нужно зарегистрироваться на платформе [kaggle.com kaggle]. Правила участия вы найдете там же. Оценка выставляется следующим образом: вы можете претендовать на положительный балл, если преодолели medium baseline, иначе вы получаете 0. После того, как это произошло, ваша финальная оценка будет вычисляться по следующей формуле:
best_gap = разница между medium baseline и лучшим решением на private leaderboard.
my_gap = разница между medium baseline и решением студента на private leaderboard.
оценка = 6 + 4 * my_gap / best_gap
Оценка за соревнование идет, как оценка за одно домашнее задание.
Дополнительно к оценке за соревнование первые 6 мест получат +1.5 балла к итоговой накопленной оценке, вторые 6 мест получат +0.7 баллов.
В случае плохих показателей участников, утечки в данных и других непредвиденных обстоятельств организаторы оставляют за собой право изменить критерии. Соревнование закончится 09.12.17 в 03:00.
Ноутбук с решением нужно прислать до 23:59 10.12.17.
Полезные материалы
Книги
- Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.
- Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
- Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
- Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
- Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
- Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.