Машинное обучение (ФЭН) - 2020 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Семинары 10 и 11)
 
(не показано 48 промежуточных версии 3 участников)
Строка 7: Строка 7:
 
Семинары - Кантонистова Елена Олеговна, Титов Владислав Валерьевич
 
Семинары - Кантонистова Елена Олеговна, Титов Владислав Валерьевич
  
 +
=== Лекции и семинары ===
 
Канал курса: https://t.me/joinchat/AAAAAFNe-ZrRjXbXqrS2CA
 
Канал курса: https://t.me/joinchat/AAAAAFNe-ZrRjXbXqrS2CA
  
 
Ссылка на youtube-канал с видеозаписями лекций и семинаров: https://www.youtube.com/playlist?list=PLEwK9wdS5g0pC9b61ea6jyYlSBl7yUCcu
 
Ссылка на youtube-канал с видеозаписями лекций и семинаров: https://www.youtube.com/playlist?list=PLEwK9wdS5g0pC9b61ea6jyYlSBl7yUCcu
  
=== Семинары ===
+
Все материалы лекций и семинаров находятся здесь: https://github.com/Murcha1990/ML_Econom_2020-2021
 +
 
 +
Лекция (2 пара): https://zoom.us/j/96228524411
 +
 
 +
Семинар (3 пара): https://zoom.us/j/92946252020
 +
 
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
 
! Группа !! Преподаватель !! Учебный ассистент || Инвайт в anytask || Чат в telegram  
 
! Группа !! Преподаватель !! Учебный ассистент || Инвайт в anytask || Чат в telegram  
 
|-
 
|-
| Среда || || Кирилл Поликарпов || ||
+
| Вторник || [https://telegram.me/murr4a Елена Кантонистова] || [https://telegram.me/polkarpovkirill Кирилл Поликарпов] || jVh8mtz || https://t.me/joinchat/EWf_G0jzIK_BprmpAvf6iQ
 
|-
 
|-
| Пятница || || [https://t.me/tema7707 Широков Артемий] || || https://t.me/joinchat/EwOn9EWEZpve7WO9v_EXVQ
+
| Пятница || [https://telegram.me/TitoVlad Влад Титов] || [https://t.me/tema7707 Широков Артемий] || RSYhTsc || https://t.me/joinchat/EwOn9EWEZpve7WO9v_EXVQ
 
|-
 
|-
 
|}
 
|}
Строка 26: Строка 32:
 
В курсе предусмотрено несколько форм контроля знания:
 
В курсе предусмотрено несколько форм контроля знания:
  
* самостоятельные работы на семинарах (пятиминутки)
+
* самостоятельные работы на семинарах (пятиминутки);
  
* домашние задания (в том числе соревнование на Kaggle)
+
* домашние задания (в том числе соревнование на Kaggle);
  
* коллоквиум
+
* коллоквиум;
  
* экзамен
+
* экзамен.
  
 
Все работы оцениваются в 10 баллов.  
 
Все работы оцениваются в 10 баллов.  
Активная работа на семинаре добавляет +3 балла к следующей пятиминутке (максимум за пятиминутку в любом случае 10 баллов)
+
Активная работа на семинаре добавляет +3 балла к следующей пятиминутке (максимум за пятиминутку в любом случае 10 баллов).
  
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Строка 41: Строка 47:
 
'''0.3 * Домашнее задание + 0.2 * Коллоквиум + 0.2 * Работа на семинаре + 0.3 * Экзамен'''
 
'''0.3 * Домашнее задание + 0.2 * Коллоквиум + 0.2 * Работа на семинаре + 0.3 * Экзамен'''
  
== Коллоквиум ==
+
20% слушателей с наибольшим накопленным баллом получают автоматом 10 баллов за курс.
  
 +
== Коллоквиум ==
 +
Коллоквиум будет проходить '''20 октября в 15:00 и 26 октября в 11:10'''. Онлайн.
  
'''Правила'''
+
На коллоквиуме вам будет предложен билет, состоящий из одного теоретического вопроса и одной задачи из задачника. Кроме того, вы должны знать ответы на вопросы из списка "Теоретический минимум". Подробности по организации коллоквиума будут объявлены позже.
 +
Вопросы к коллоквиуму тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Вопросы%20к%20коллоквиуму.pdf
  
 +
Ссылка для записи на коллоквиум: https://docs.google.com/forms/d/e/1FAIpQLSfhtQFZQC85jT8CNucXFYm9MNAIuifP0yvt87sEfaqWN2brIg/viewform?usp=sf_link
  
 
== Экзамен ==
 
== Экзамен ==
  
 +
Экзамен будет проходить в два потока: '''18 декабря c 9:30 до 10:50''' и '''29 декабря c 11:10 до 12:30'''.
 +
 +
Билеты тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Билеты%20для%20экзамена%20по%20машинному%20обучению%2C%20ФЭН-2020.docx
  
 
== Лекции ==
 
== Лекции ==
Все лекции и другие материалы курса можно скачать здесь: https://github.com/Murcha1990/ML_Econom_2020-2021
+
Материалы лекций: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Лекции
  
'''Лекция 1.''' Введение в машинное обучение: основные понятия, постановка задачи, обучение, цикл решения задачи анализа данных.
+
== Семинары ==
 +
Материалы семинаров: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Семинары
  
'''Лекция 2.''' Линейные методы регрессии: аналитическое решение задачи линейной регрессии, метод градиентного спуска и его вариации.
+
'''Семинар 1.''' Матричное дифференцирование. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%201/seminar_1.pdf Презентация].
  
== Семинары ==
+
'''Семинар 2.''' Линейная регрессия. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%202/Seminar2_full.ipynb Заполненный ноутбук].
Все материалы курса здесь: https://github.com/Murcha1990/ML_Econom_2020-2021
+
 
 +
'''Семинар 3.''' Обработка признаков для линейной регрессии. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%203/Seminar3_filled.ipynb Заполенный ноутбук].
 +
 
 +
'''Семинар 4.''' Теоретические задачи параграфа 2 из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%204/zadachnik_4.pdf задачника]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%204/risk_function_solution.pdf Презентация про эмпирические функции риска]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%204/Seminar4_metrics.ipynb Ноутбук про вероятностные отсечки для задачи классификации].
 +
 
 +
'''Семинар 5.''' Теоретические задачи из параграфа 3 из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/Zadachnik5.pdf задачника]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/seminar_5.pdf Разбор некоторых задач].
 +
 
 +
'''Семинар 6.''' Теоретические задачи из параграфа 4 из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%206/Задачник_2610.pdf задачника]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%206/Seminar6_new.ipynb Ноутбук про многоклассовую классификацию и калибровку вероятностей]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%206/seminar_6_solutions.pdf Решения теоретических задачек].
 +
 
 +
'''Семинар 7.''' Обработка категориальных, вещественных и текстовых фичей. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%207/Seminar7_filled.ipynb Заполненный ноутбук].
 +
 
 +
'''Семинар 8.''' Теоретические задачки на снижение размерности. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%208/seminar_8.pdf Решения].
 +
 
 +
'''Семинар 9.''' Теоретические задачки на деревья решений и бэггинг.
 +
 
 +
'''Семинар 10.''' Теоретические задачки на бустинг и смещение/разброс/шум, а также [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%2010/Ensembles.ipynb ноутбук].
 +
 
 +
''''Семинар 11.''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%2011/catboost_tutorial.ipynb Ноутбук] про Катбуст.
 +
 
 +
== Домашние задания ==
 +
На курсе планируется около 10 домашних заданий. Формула вычисления итоговой оценки: среднее из n-2 домашних заданий с максимальными баллами, где n - это итоговое количество домашек.
 +
 
 +
Все домашние работы, а также пятиминутки в начале семинаров необходимо сдавать в [https://anytask.org/ anytask].
 +
 
 +
'''Домашняя работа 1 (10 баллов).''' Задачи про матричное дифференцирование из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%201/seminar_1_with_homework.pdf задачника]. Дедлайн прошел.
 +
 
 +
'''Домашняя работа 2 (10 баллов).''' Написать собственную многомерную линейную регрессию. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%202/Homework2.ipynb Ноутбук с шаблоном]. Дедлайн прошел.
 +
 
 +
'''Домашняя работа 3 (7 баллов).''' Задание на выполнение основных шагов при обучении модели. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%203/Hometask3_5points.ipynb Ноутбук]. '''Задание на одну неделю'''. Дедлайн прошел.
 +
 
 +
'''Домашняя работа 4 (10 баллов).''' Задачи в разделе "Домашнее задание" во втором параграфе из [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%204/zadachnik_4.pdf задачника]. Дедлайн прошел.
 +
 
 +
'''Домашняя работа 5 (10 баллов).''' Обработка фичей и применение различных моделей. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/homework_5.ipynb Ноутбук]. [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/data.adult.csv Данные для домашки]. Дедлайн 2020-11-06T00:00:00.
 +
 
 +
'''Домашняя работа 6 (10 баллов).''' Теоретические задачки на линейный SVM и логистическую регрессию. Домашка из третьего параграфа [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%205/homework_6.pdf отсюда]. Дедлайн 2020-11-06T00:00:00.
 +
 
 +
'''Домашняя работа 7 (10 баллов).''' Теоретические задачки на ядра. Домашка из четвертого параграфа [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%206/Задачник_2610.pdf отсюда]. Дедлайн 2020-11-06T00:00:00.
 +
 
 +
'''Домашняя работа 8 (13 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%207/homework_8.ipynb Ноутбук] про mean encodings. Дедлайн 2020-11-13T00:00:00.
 +
 
 +
'''Домашняя работа 9 (10 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%208/Задачник.pdf Домашка] из пятого параграфа. Дедлайн 2020-11-20T00:00:00.
 +
 
 +
'''Домашняя работа 10 (10 баллов).''' [https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Семинары/Семинар%209/Задачник.pdf Домашка] из седьмого параграфа. Дедлайн 2020-12-04T00:00:00.
  
'''Семинар 1.''' Матричное дифференцирование.
+
'''Домашняя работа 11 (10+ баллов).''' [https://www.kaggle.com/t/c70d9edc863e4b709f12256091e2d394 Kaggle]. Также есть дополнительное [http://wiki.cs.hse.ru/Машинное_обучение_1#.D0.A1.D0.BE.D1.80.D0.B5.D0.B2.D0.BD.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F описание]. Необходимо, чтобы в соревновании вы были записаны как [ФЭН] Имя Фамилия.
  
 
== Полезные материалы ==
 
== Полезные материалы ==

Текущая версия на 15:00, 6 декабря 2020

О курсе

Преподаватели:

Лекции - Кантонистова Елена Олеговна

Семинары - Кантонистова Елена Олеговна, Титов Владислав Валерьевич

Лекции и семинары

Канал курса: https://t.me/joinchat/AAAAAFNe-ZrRjXbXqrS2CA

Ссылка на youtube-канал с видеозаписями лекций и семинаров: https://www.youtube.com/playlist?list=PLEwK9wdS5g0pC9b61ea6jyYlSBl7yUCcu

Все материалы лекций и семинаров находятся здесь: https://github.com/Murcha1990/ML_Econom_2020-2021

Лекция (2 пара): https://zoom.us/j/96228524411

Семинар (3 пара): https://zoom.us/j/92946252020

Группа Преподаватель Учебный ассистент Инвайт в anytask Чат в telegram
Вторник Елена Кантонистова Кирилл Поликарпов jVh8mtz https://t.me/joinchat/EWf_G0jzIK_BprmpAvf6iQ
Пятница Влад Титов Широков Артемий RSYhTsc https://t.me/joinchat/EwOn9EWEZpve7WO9v_EXVQ

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • самостоятельные работы на семинарах (пятиминутки);
  • домашние задания (в том числе соревнование на Kaggle);
  • коллоквиум;
  • экзамен.

Все работы оцениваются в 10 баллов. Активная работа на семинаре добавляет +3 балла к следующей пятиминутке (максимум за пятиминутку в любом случае 10 баллов).

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

0.3 * Домашнее задание + 0.2 * Коллоквиум + 0.2 * Работа на семинаре + 0.3 * Экзамен

20% слушателей с наибольшим накопленным баллом получают автоматом 10 баллов за курс.

Коллоквиум

Коллоквиум будет проходить 20 октября в 15:00 и 26 октября в 11:10. Онлайн.

На коллоквиуме вам будет предложен билет, состоящий из одного теоретического вопроса и одной задачи из задачника. Кроме того, вы должны знать ответы на вопросы из списка "Теоретический минимум". Подробности по организации коллоквиума будут объявлены позже. Вопросы к коллоквиуму тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Вопросы%20к%20коллоквиуму.pdf

Ссылка для записи на коллоквиум: https://docs.google.com/forms/d/e/1FAIpQLSfhtQFZQC85jT8CNucXFYm9MNAIuifP0yvt87sEfaqWN2brIg/viewform?usp=sf_link

Экзамен

Экзамен будет проходить в два потока: 18 декабря c 9:30 до 10:50 и 29 декабря c 11:10 до 12:30.

Билеты тут: https://github.com/Murcha1990/ML_Econom_2020-2021/blob/master/Билеты%20для%20экзамена%20по%20машинному%20обучению%2C%20ФЭН-2020.docx

Лекции

Материалы лекций: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Лекции

Семинары

Материалы семинаров: https://github.com/Murcha1990/ML_Econom_2020-2021/tree/master/Семинары

Семинар 1. Матричное дифференцирование. Презентация.

Семинар 2. Линейная регрессия. Заполненный ноутбук.

Семинар 3. Обработка признаков для линейной регрессии. Заполенный ноутбук.

Семинар 4. Теоретические задачи параграфа 2 из задачника. Презентация про эмпирические функции риска. Ноутбук про вероятностные отсечки для задачи классификации.

Семинар 5. Теоретические задачи из параграфа 3 из задачника. Разбор некоторых задач.

Семинар 6. Теоретические задачи из параграфа 4 из задачника. Ноутбук про многоклассовую классификацию и калибровку вероятностей. Решения теоретических задачек.

Семинар 7. Обработка категориальных, вещественных и текстовых фичей. Заполненный ноутбук.

Семинар 8. Теоретические задачки на снижение размерности. Решения.

Семинар 9. Теоретические задачки на деревья решений и бэггинг.

Семинар 10. Теоретические задачки на бустинг и смещение/разброс/шум, а также ноутбук.

'Семинар 11. Ноутбук про Катбуст.

Домашние задания

На курсе планируется около 10 домашних заданий. Формула вычисления итоговой оценки: среднее из n-2 домашних заданий с максимальными баллами, где n - это итоговое количество домашек.

Все домашние работы, а также пятиминутки в начале семинаров необходимо сдавать в anytask.

Домашняя работа 1 (10 баллов). Задачи про матричное дифференцирование из задачника. Дедлайн прошел.

Домашняя работа 2 (10 баллов). Написать собственную многомерную линейную регрессию. Ноутбук с шаблоном. Дедлайн прошел.

Домашняя работа 3 (7 баллов). Задание на выполнение основных шагов при обучении модели. Ноутбук. Задание на одну неделю. Дедлайн прошел.

Домашняя работа 4 (10 баллов). Задачи в разделе "Домашнее задание" во втором параграфе из задачника. Дедлайн прошел.

Домашняя работа 5 (10 баллов). Обработка фичей и применение различных моделей. Ноутбук. Данные для домашки. Дедлайн 2020-11-06T00:00:00.

Домашняя работа 6 (10 баллов). Теоретические задачки на линейный SVM и логистическую регрессию. Домашка из третьего параграфа отсюда. Дедлайн 2020-11-06T00:00:00.

Домашняя работа 7 (10 баллов). Теоретические задачки на ядра. Домашка из четвертого параграфа отсюда. Дедлайн 2020-11-06T00:00:00.

Домашняя работа 8 (13 баллов). Ноутбук про mean encodings. Дедлайн 2020-11-13T00:00:00.

Домашняя работа 9 (10 баллов). Домашка из пятого параграфа. Дедлайн 2020-11-20T00:00:00.

Домашняя работа 10 (10 баллов). Домашка из седьмого параграфа. Дедлайн 2020-12-04T00:00:00.

Домашняя работа 11 (10+ баллов). Kaggle. Также есть дополнительное описание. Необходимо, чтобы в соревновании вы были записаны как [ФЭН] Имя Фамилия.

Полезные материалы

Книги

  • Hastie T., Tibshirani R, Friedman J. The Elements of Statistical Learning (2nd edition). Springer, 2009.r, 2009.
  • Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006.
  • Mohri M., Rostamizadeh A., Talwalkar A. Foundations of Machine Learning. MIT Press, 2012.
  • Murphy K. Machine Learning: A Probabilistic Perspective. MIT Press, 2012.
  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Willi Richert, Luis Pedro Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2013.

Курсы по машинному обучению и анализу данных