Машинное обучение (ФЭН) - 2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Семинар 8 и домашка 9)
(Семинары 10 и 11)
 
(не показано 8 промежуточных версии 2 участников)
Строка 59: Строка 59:
 
== Экзамен ==
 
== Экзамен ==
  
 +
Экзамен будет проходить в два потока: '''18 декабря c 9:30 до 10:50''' и '''29 декабря c 11:10 до 12:30'''.
 +
 +
Билеты тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Билеты%20для%20экзамена%20по%20машинному%20обучению%2C%20ФЭН-2020.docx
  
 
== Лекции ==
 
== Лекции ==
 
Материалы лекций: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Лекции
 
Материалы лекций: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Лекции
 
'''Лекция 1.''' Введение в машинное обучение: основные понятия, постановка задачи, обучение, цикл решения задачи анализа данных.
 
 
'''Лекция 2.''' Линейные методы регрессии: аналитическое решение задачи линейной регрессии, метод градиентного спуска и его вариации.
 
  
 
== Семинары ==
 
== Семинары ==
Строка 85: Строка 84:
  
 
'''Семинар 8.''' Теоретические задачки на снижение размерности. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%208/seminar_8.pdf Решения].
 
'''Семинар 8.''' Теоретические задачки на снижение размерности. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%208/seminar_8.pdf Решения].
 +
 +
'''Семинар 9.''' Теоретические задачки на деревья решений и бэггинг.
 +
 +
'''Семинар 10.''' Теоретические задачки на бустинг и смещение/разброс/шум, а также [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%2010/Ensembles.ipynb ноутбук].
 +
 +
''''Семинар 11.''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%2011/catboost_tutorial.ipynb Ноутбук] про Катбуст.
  
 
== Домашние задания ==
 
== Домашние задания ==
Строка 107: Строка 112:
 
'''Домашняя работа 8 (13 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%207/homework_8.ipynb Ноутбук] про mean encodings. Дедлайн 2020-11-13T00:00:00.
 
'''Домашняя работа 8 (13 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%207/homework_8.ipynb Ноутбук] про mean encodings. Дедлайн 2020-11-13T00:00:00.
  
'''Домашняя работа 9 (10 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%208/Задачник.pdf Домашка] из пятого параграфа.
+
'''Домашняя работа 9 (10 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%208/Задачник.pdf Домашка] из пятого параграфа. Дедлайн 2020-11-20T00:00:00.
 +
 
 +
'''Домашняя работа 10 (10 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%209/Задачник.pdf Домашка] из седьмого параграфа. Дедлайн 2020-12-04T00:00:00.
 +
 
 +
'''Домашняя работа 11 (10+ баллов).''' [https://www.kaggle.com/t/c70d9edc863e4b709f12256091e2d394 Kaggle]. Также есть дополнительное [http://wiki.cs.hse.ru/Машинное_обучение_1#.D0.A1.D0.BE.D1.80.D0.B5.D0.B2.D0.BD.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F описание]. Необходимо, чтобы в соревновании вы были записаны как [ФЭН] Имя Фамилия.
  
 
== Полезные материалы ==
 
== Полезные материалы ==

Текущая версия на 15:00, 6 декабря 2020

О курсе

Преподаватели:

Лекции - Кантонистова Елена Олеговна

Семинары - Кантонистова Елена Олеговна, Титов Владислав Валерьевич

Лекции и семинары

Канал курса: https://t.me/joinchat/AAAAAFNe-ZrRjXbXqrS2CA

Ссылка на youtube-канал с видеозаписями лекций и семинаров: https://www.youtube.com/playlist?list=PLEwK9wdS5g0pC9b61ea6jyYlSBl7yUCcu

Все материалы лекций и семинаров находятся здесь: https://github.com/Murcha1990/ML_Econom_2020-2021

Лекция (2 пара): https://zoom.us/j/96228524411

Семинар (3 пара): https://zoom.us/j/92946252020

Группа Преподаватель Учебный ассистент Инвайт в anytask Чат в telegram
Вторник Елена Кантонистова Кирилл Поликарпов jVh8mtz https://t.me/joinchat/EWf_G0jzIK_BprmpAvf6iQ
Пятница Влад Титов Широков Артемий RSYhTsc https://t.me/joinchat/EwOn9EWEZpve7WO9v_EXVQ

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • самостоятельные работы на семинарах (пятиминутки);
  • домашние задания (в том числе соревнование на Kaggle);
  • коллоквиум;
  • экзамен.

Все работы оцениваются в 10 баллов. Активная работа на семинаре добавляет +3 балла к следующей пятиминутке (максимум за пятиминутку в любом случае 10 баллов).

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

0.3 * Домашнее задание + 0.2 * Коллоквиум + 0.2 * Работа на семинаре + 0.3 * Экзамен

20% слушателей с наибольшим накопленным баллом получают автоматом 10 баллов за курс.

Коллоквиум

Коллоквиум будет проходить 20 октября в 15:00 и 26 октября в 11:10. Онлайн.

На коллоквиуме вам будет предложен билет, состоящий из одного теоретического вопроса и одной задачи из задачника. Кроме того, вы должны знать ответы на вопросы из списка "Теоретический минимум". Подробности по организации коллоквиума будут объявлены позже. Вопросы к коллоквиуму тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Вопросы%20к%20коллоквиуму.pdf

Ссылка для записи на коллоквиум: https://docs.google.com/forms/d/e/1FAIpQLSfhtQFZQC85jT8CNucXFYm9MNAIuifP0yvt87sEfaqWN2brIg/viewform?usp=sf_link

Экзамен

Экзамен будет проходить в два потока: 18 декабря c 9:30 до 10:50 и 29 декабря c 11:10 до 12:30.

Билеты тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Билеты%20для%20экзамена%20по%20машинному%20обучению%2C%20ФЭН-2020.docx

Лекции

Материалы лекций: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Лекции

Семинары

Материалы семинаров: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Семинары

Семинар 1. Матричное дифференцирование. Презентация.

Семинар 2. Линейная регрессия. Заполненный ноутбук.

Семинар 3. Обработка признаков для линейной регрессии. Заполенный ноутбук.

Семинар 4. Теоретические задачи параграфа 2 из задачника. Презентация про эмпирические функции риска. Ноутбук про вероятностные отсечки для задачи классификации.

Семинар 5. Теоретические задачи из параграфа 3 из задачника. Разбор некоторых задач.

Семинар 6. Теоретические задачи из параграфа 4 из задачника. Ноутбук про многоклассовую классификацию и калибровку вероятностей. Решения теоретических задачек.

Семинар 7. Обработка категориальных, вещественных и текстовых фичей. Заполненный ноутбук.

Семинар 8. Теоретические задачки на снижение размерности. Решения.

Семинар 9. Теоретические задачки на деревья решений и бэггинг.

Семинар 10. Теоретические задачки на бустинг и смещение/разброс/шум, а также ноутбук.

'Семинар 11. Ноутбук про Катбуст.

Домашние задания

На курсе планируется около 10 домашних заданий. Формула вычисления итоговой оценки: среднее из n-2 домашних заданий с максимальными баллами, где n - это итоговое количество домашек.

Все домашние работы, а также пятиминутки в начале семинаров необходимо сдавать в anytask.

Домашняя работа 1 (10 баллов). Задачи про матричное дифференцирование из задачника. Дедлайн прошел.

Домашняя работа 2 (10 баллов). Написать собственную многомерную линейную регрессию. Ноутбук с шаблоном. Дедлайн прошел.

Домашняя работа 3 (7 баллов). Задание на выполнение основных шагов при обучении модели. Ноутбук. Задание на одну неделю. Дедлайн прошел.

Домашняя работа 4 (10 баллов). Задачи в разделе "Домашнее задание" во втором параграфе из задачника. Дедлайн прошел.

Домашняя работа 5 (10 баллов). Обработка фичей и применение различных моделей. Ноутбук. Данные для домашки. Дедлайн 2020-11-06T00:00:00.

Домашняя работа 6 (10 баллов). Теоретические задачки на линейный SVM и логистическую регрессию. Домашка из третьего параграфа отсюда. Дедлайн 2020-11-06T00:00:00.

Домашняя работа 7 (10 баллов). Теоретические задачки на ядра. Домашка из четвертого параграфа отсюда. Дедлайн 2020-11-06T00:00:00.

Домашняя работа 8 (13 баллов). Ноутбук про mean encodings. Дедлайн 2020-11-13T00:00:00.

Домашняя работа 9 (10 баллов). Домашка из пятого параграфа. Дедлайн 2020-11-20T00:00:00.

Домашняя работа 10 (10 баллов). Домашка из седьмого параграфа. Дедлайн 2020-12-04T00:00:00.

Домашняя работа 11 (10+ баллов). Kaggle. Также есть дополнительное описание. Необходимо, чтобы в соревновании вы были записаны как [ФЭН] Имя Фамилия.

Полезные материалы

Книги

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.r, 2009.
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  • Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

Курсы по машинному обучению и анализу данных