Машинное обучение (ФЭН) - 2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Домашка 5)
(Семинары 10 и 11)
 
(не показано 16 промежуточных версии 2 участников)
Строка 46: Строка 46:
  
 
'''0.3 * Домашнее задание + 0.2 * Коллоквиум + 0.2 * Работа на семинаре + 0.3 * Экзамен'''
 
'''0.3 * Домашнее задание + 0.2 * Коллоквиум + 0.2 * Работа на семинаре + 0.3 * Экзамен'''
 +
 +
20% слушателей с наибольшим накопленным баллом получают автоматом 10 баллов за курс.
  
 
== Коллоквиум ==
 
== Коллоквиум ==
Строка 52: Строка 54:
 
На коллоквиуме вам будет предложен билет, состоящий из одного теоретического вопроса и одной задачи из задачника. Кроме того, вы должны знать ответы на вопросы из списка "Теоретический минимум". Подробности по организации коллоквиума будут объявлены позже.
 
На коллоквиуме вам будет предложен билет, состоящий из одного теоретического вопроса и одной задачи из задачника. Кроме того, вы должны знать ответы на вопросы из списка "Теоретический минимум". Подробности по организации коллоквиума будут объявлены позже.
 
Вопросы к коллоквиуму тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Вопросы%20к%20коллоквиуму.pdf
 
Вопросы к коллоквиуму тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Вопросы%20к%20коллоквиуму.pdf
 +
 +
Ссылка для записи на коллоквиум: https://docs.google.com/forms/d/e/1FAIpQLSfhtQFZQC85jT8CNucXFYm9MNAIuifP0yvt87sEfaqWN2brIg/viewform?usp=sf_link
  
 
== Экзамен ==
 
== Экзамен ==
  
 +
Экзамен будет проходить в два потока: '''18 декабря c 9:30 до 10:50''' и '''29 декабря c 11:10 до 12:30'''.
 +
 +
Билеты тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Билеты%20для%20экзамена%20по%20машинному%20обучению%2C%20ФЭН-2020.docx
  
 
== Лекции ==
 
== Лекции ==
 
Материалы лекций: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Лекции
 
Материалы лекций: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Лекции
 
'''Лекция 1.''' Введение в машинное обучение: основные понятия, постановка задачи, обучение, цикл решения задачи анализа данных.
 
 
'''Лекция 2.''' Линейные методы регрессии: аналитическое решение задачи линейной регрессии, метод градиентного спуска и его вариации.
 
  
 
== Семинары ==
 
== Семинары ==
Строка 75: Строка 78:
  
 
'''Семинар 5.''' Теоретические задачи из параграфа 3 из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/Zadachnik5.pdf задачника]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/seminar_5.pdf Разбор некоторых задач].
 
'''Семинар 5.''' Теоретические задачи из параграфа 3 из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/Zadachnik5.pdf задачника]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/seminar_5.pdf Разбор некоторых задач].
 +
 +
'''Семинар 6.''' Теоретические задачи из параграфа 4 из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%206/Задачник_2610.pdf задачника]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%206/Seminar6_new.ipynb Ноутбук про многоклассовую классификацию и калибровку вероятностей]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%206/seminar_6_solutions.pdf Решения теоретических задачек].
 +
 +
'''Семинар 7.''' Обработка категориальных, вещественных и текстовых фичей. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%207/Seminar7_filled.ipynb Заполненный ноутбук].
 +
 +
'''Семинар 8.''' Теоретические задачки на снижение размерности. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%208/seminar_8.pdf Решения].
 +
 +
'''Семинар 9.''' Теоретические задачки на деревья решений и бэггинг.
 +
 +
'''Семинар 10.''' Теоретические задачки на бустинг и смещение/разброс/шум, а также [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%2010/Ensembles.ipynb ноутбук].
 +
 +
''''Семинар 11.''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%2011/catboost_tutorial.ipynb Ноутбук] про Катбуст.
  
 
== Домашние задания ==
 
== Домашние задания ==
Строка 81: Строка 96:
 
Все домашние работы, а также пятиминутки в начале семинаров необходимо сдавать в [https://anytask.org/ anytask].  
 
Все домашние работы, а также пятиминутки в начале семинаров необходимо сдавать в [https://anytask.org/ anytask].  
  
'''Домашняя работа 1 (10 баллов).''' Задачи про матричное дифференцирование из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%201/seminar_1_with_homework.pdf задачника].
+
'''Домашняя работа 1 (10 баллов).''' Задачи про матричное дифференцирование из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%201/seminar_1_with_homework.pdf задачника]. Дедлайн прошел.
 +
 
 +
'''Домашняя работа 2 (10 баллов).''' Написать собственную многомерную линейную регрессию. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%202/Homework2.ipynb Ноутбук с шаблоном]. Дедлайн прошел.
 +
 
 +
'''Домашняя работа 3 (7 баллов).''' Задание на выполнение основных шагов при обучении модели. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%203/Hometask3_5points.ipynb Ноутбук]. '''Задание на одну неделю'''. Дедлайн прошел.
 +
 
 +
'''Домашняя работа 4 (10 баллов).''' Задачи в разделе "Домашнее задание" во втором параграфе из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%204/zadachnik_4.pdf задачника]. Дедлайн прошел.
 +
 
 +
'''Домашняя работа 5 (10 баллов).''' Обработка фичей и применение различных моделей. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/homework_5.ipynb Ноутбук]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/data.adult.csv Данные для домашки]. Дедлайн 2020-11-06T00:00:00.
 +
 
 +
'''Домашняя работа 6 (10 баллов).''' Теоретические задачки на линейный SVM и логистическую регрессию. Домашка из третьего параграфа [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/homework_6.pdf отсюда]. Дедлайн 2020-11-06T00:00:00.
 +
 
 +
'''Домашняя работа 7 (10 баллов).''' Теоретические задачки на ядра. Домашка из четвертого параграфа [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%206/Задачник_2610.pdf отсюда]. Дедлайн 2020-11-06T00:00:00.
  
'''Домашняя работа 2 (10 баллов).''' Написать собственную многомерную линейную регрессию. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%202/Homework2.ipynb Ноутбук с шаблоном].
+
'''Домашняя работа 8 (13 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%207/homework_8.ipynb Ноутбук] про mean encodings. Дедлайн 2020-11-13T00:00:00.
  
'''Домашняя работа 3 (5 баллов).''' Задание на выполнение основных шагов при обучении модели. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%203/Hometask3_5points.ipynb Ноутбук]. '''Задание на одну неделю'''.
+
'''Домашняя работа 9 (10 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%208/Задачник.pdf Домашка] из пятого параграфа. Дедлайн 2020-11-20T00:00:00.
  
'''Домашняя работа 4 (10 баллов).''' Задачи в разделе "Домашнее задание" во втором параграфе из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%204/zadachnik_4.pdf задачника].
+
'''Домашняя работа 10 (10 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%209/Задачник.pdf Домашка] из седьмого параграфа. Дедлайн 2020-12-04T00:00:00.
  
'''Домашняя работа 5 (10 баллов).''' Обработка фичей и применение различных моделей. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/homework_5.ipynb Ноутбук].
+
'''Домашняя работа 11 (10+ баллов).''' [https://www.kaggle.com/t/c70d9edc863e4b709f12256091e2d394 Kaggle]. Также есть дополнительное [http://wiki.cs.hse.ru/Машинное_обучение_1#.D0.A1.D0.BE.D1.80.D0.B5.D0.B2.D0.BD.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F описание]. Необходимо, чтобы в соревновании вы были записаны как [ФЭН] Имя Фамилия.
  
 
== Полезные материалы ==
 
== Полезные материалы ==

Текущая версия на 15:00, 6 декабря 2020

О курсе

Преподаватели:

Лекции - Кантонистова Елена Олеговна

Семинары - Кантонистова Елена Олеговна, Титов Владислав Валерьевич

Лекции и семинары

Канал курса: https://t.me/joinchat/AAAAAFNe-ZrRjXbXqrS2CA

Ссылка на youtube-канал с видеозаписями лекций и семинаров: https://www.youtube.com/playlist?list=PLEwK9wdS5g0pC9b61ea6jyYlSBl7yUCcu

Все материалы лекций и семинаров находятся здесь: https://github.com/Murcha1990/ML_Econom_2020-2021

Лекция (2 пара): https://zoom.us/j/96228524411

Семинар (3 пара): https://zoom.us/j/92946252020

Группа Преподаватель Учебный ассистент Инвайт в anytask Чат в telegram
Вторник Елена Кантонистова Кирилл Поликарпов jVh8mtz https://t.me/joinchat/EWf_G0jzIK_BprmpAvf6iQ
Пятница Влад Титов Широков Артемий RSYhTsc https://t.me/joinchat/EwOn9EWEZpve7WO9v_EXVQ

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • самостоятельные работы на семинарах (пятиминутки);
  • домашние задания (в том числе соревнование на Kaggle);
  • коллоквиум;
  • экзамен.

Все работы оцениваются в 10 баллов. Активная работа на семинаре добавляет +3 балла к следующей пятиминутке (максимум за пятиминутку в любом случае 10 баллов).

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

0.3 * Домашнее задание + 0.2 * Коллоквиум + 0.2 * Работа на семинаре + 0.3 * Экзамен

20% слушателей с наибольшим накопленным баллом получают автоматом 10 баллов за курс.

Коллоквиум

Коллоквиум будет проходить 20 октября в 15:00 и 26 октября в 11:10. Онлайн.

На коллоквиуме вам будет предложен билет, состоящий из одного теоретического вопроса и одной задачи из задачника. Кроме того, вы должны знать ответы на вопросы из списка "Теоретический минимум". Подробности по организации коллоквиума будут объявлены позже. Вопросы к коллоквиуму тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Вопросы%20к%20коллоквиуму.pdf

Ссылка для записи на коллоквиум: https://docs.google.com/forms/d/e/1FAIpQLSfhtQFZQC85jT8CNucXFYm9MNAIuifP0yvt87sEfaqWN2brIg/viewform?usp=sf_link

Экзамен

Экзамен будет проходить в два потока: 18 декабря c 9:30 до 10:50 и 29 декабря c 11:10 до 12:30.

Билеты тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Билеты%20для%20экзамена%20по%20машинному%20обучению%2C%20ФЭН-2020.docx

Лекции

Материалы лекций: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Лекции

Семинары

Материалы семинаров: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Семинары

Семинар 1. Матричное дифференцирование. Презентация.

Семинар 2. Линейная регрессия. Заполненный ноутбук.

Семинар 3. Обработка признаков для линейной регрессии. Заполенный ноутбук.

Семинар 4. Теоретические задачи параграфа 2 из задачника. Презентация про эмпирические функции риска. Ноутбук про вероятностные отсечки для задачи классификации.

Семинар 5. Теоретические задачи из параграфа 3 из задачника. Разбор некоторых задач.

Семинар 6. Теоретические задачи из параграфа 4 из задачника. Ноутбук про многоклассовую классификацию и калибровку вероятностей. Решения теоретических задачек.

Семинар 7. Обработка категориальных, вещественных и текстовых фичей. Заполненный ноутбук.

Семинар 8. Теоретические задачки на снижение размерности. Решения.

Семинар 9. Теоретические задачки на деревья решений и бэггинг.

Семинар 10. Теоретические задачки на бустинг и смещение/разброс/шум, а также ноутбук.

'Семинар 11. Ноутбук про Катбуст.

Домашние задания

На курсе планируется около 10 домашних заданий. Формула вычисления итоговой оценки: среднее из n-2 домашних заданий с максимальными баллами, где n - это итоговое количество домашек.

Все домашние работы, а также пятиминутки в начале семинаров необходимо сдавать в anytask.

Домашняя работа 1 (10 баллов). Задачи про матричное дифференцирование из задачника. Дедлайн прошел.

Домашняя работа 2 (10 баллов). Написать собственную многомерную линейную регрессию. Ноутбук с шаблоном. Дедлайн прошел.

Домашняя работа 3 (7 баллов). Задание на выполнение основных шагов при обучении модели. Ноутбук. Задание на одну неделю. Дедлайн прошел.

Домашняя работа 4 (10 баллов). Задачи в разделе "Домашнее задание" во втором параграфе из задачника. Дедлайн прошел.

Домашняя работа 5 (10 баллов). Обработка фичей и применение различных моделей. Ноутбук. Данные для домашки. Дедлайн 2020-11-06T00:00:00.

Домашняя работа 6 (10 баллов). Теоретические задачки на линейный SVM и логистическую регрессию. Домашка из третьего параграфа отсюда. Дедлайн 2020-11-06T00:00:00.

Домашняя работа 7 (10 баллов). Теоретические задачки на ядра. Домашка из четвертого параграфа отсюда. Дедлайн 2020-11-06T00:00:00.

Домашняя работа 8 (13 баллов). Ноутбук про mean encodings. Дедлайн 2020-11-13T00:00:00.

Домашняя работа 9 (10 баллов). Домашка из пятого параграфа. Дедлайн 2020-11-20T00:00:00.

Домашняя работа 10 (10 баллов). Домашка из седьмого параграфа. Дедлайн 2020-12-04T00:00:00.

Домашняя работа 11 (10+ баллов). Kaggle. Также есть дополнительное описание. Необходимо, чтобы в соревновании вы были записаны как [ФЭН] Имя Фамилия.

Полезные материалы

Книги

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.r, 2009.
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  • Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

Курсы по машинному обучению и анализу данных