Машинное обучение в экономике 2023-2024 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Список литературы)
(Дополнительные материалы)
 
(не показано 95 промежуточных версии 3 участников)
Строка 3: Строка 3:
 
Материалы данной страницы являются предварительными и могут содержать существенные неточности
 
Материалы данной страницы являются предварительными и могут содержать существенные неточности
  
== Неделя 1. Байесовский классификатор и его модификации ==
+
== Материалы для повторения ==
 +
 
 +
Викистранички курсов по теории вероятностей и математической статистике:
 +
 
 +
* [http://wiki.cs.hse.ru/Теория_вероятностей_и_статистика,_МИРЭК,_2023-2024 МИРЭК]
 +
* [http://wiki.cs.hse.ru/Econ_probability_2023-24 Экономика]
 +
 
 +
Видео про применение python в математической статистике:
 +
 
 +
* [https://youtu.be/F7dJmORBXzM Часть 1]
 +
* [https://youtu.be/VKHr1Po9ztI Часть 2]
 +
* [https://youtu.be/3ZGq472-XbE Часть 3]
 +
* [https://colab.research.google.com/drive/1OYq5b7d-ruOGppAmUdbQW-qQJ4XDmFXY?hl=ru#scrollTo=xR1xnEccTqXm Код к видео]
 +
 
 +
== Информация о курсе ==
 +
 
 +
'''Оценка''' = 0.01 * ДЗ1 + 0.29 * ДЗ2 + 0.7 * Экзамен
 +
 
 +
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%200.%20%D0%98%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D1%8F%20%D0%BE%20%D0%BA%D1%83%D1%80%D1%81%D0%B5.pdf Слайды]
 +
 
 +
== Домашнее задание ==
 +
 
 +
=== Домашнее задание 1 ===
 +
 
 +
'''Дедлайн''': 28-го апреля
 +
 
 +
Необходимо внести данные группы (до трех человек включительно), в которой будет выполняться второе домашнее задание, в [https://docs.google.com/spreadsheets/d/1QBT9BWQXPLO1QnZ7FfPGQck-y2h_TxlJAN_ojfZ0hT0/edit?usp=sharing таблицу].
 +
 
 +
=== Домашнее задание 2 ===
 +
 
 +
'''Дедлайн''': 9-го июня
 +
 
 +
Информация об оформлении и формате сдачи домашней работы указана в тексте задания.
 +
 
 +
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%94%D0%BE%D0%BC%D0%B0%D1%88%D0%BD%D0%B5%D0%B5%20%D0%B7%D0%B0%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5.%20%D0%9C%D0%9E.%202023-2024.pdf Домашнее задание]
 +
 
 +
'''Консультация о генерации данных''':
 +
 
 +
* [https://colab.research.google.com/drive/15l0cILQJZdi3RXKScGG8K0jjbLtbcS5G?usp=sharing Код консультации]
 +
* [https://youtu.be/B5w5HPFkbTo Видео, часть 1]
 +
* [https://youtu.be/PFbkJITNa7A Видео, часть 2]
 +
 
 +
== Экзамен ==
 +
 
 +
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%92%D1%81%D1%82%D1%83%D0%BF%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5%20%D0%B7%D0%B0%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5.%20%D0%9C%D0%9E.%202023-2024.pdf Пример экзамена с решением]
 +
 
 +
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%AD%D0%BA%D0%B7%D0%B0%D0%BC%D0%B5%D0%BD.%20%D0%9C%D0%9E.%202023-2024.pdf Экзамен 2023-2024 с решениями]
 +
 
 +
== Неделя 1. Байесовские сети ==
  
 
=== Основные материалы ===
 
=== Основные материалы ===
  
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/1.%20%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9%20%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80%20%D0%B8%20%D0%B5%D0%B3%D0%BE%20%D0%BC%D0%BE%D0%B4%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%B8.pdf Слайды лекции]
+
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%201.%20%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B5%20%D1%81%D0%B5%D1%82%D0%B8.pdf Слайды лекции]
  
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/1.%20%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9%20%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80%20%D0%B8%20%D0%B5%D0%B3%D0%BE%20%D0%BC%D0%BE%D0%B4%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%B8.py Код семинара]
+
[https://colab.research.google.com/drive/1Iq1zomLp2kZ1kAffPeFyzHFtdvhbuTR2?usp=sharing Код семинара]
  
 
=== Рекомендуемая литература ===
 
=== Рекомендуемая литература ===
Строка 17: Строка 65:
 
2. MLPP глава 10.
 
2. MLPP глава 10.
  
== Неделя 2. Решающие деревья ==
+
== Неделя 2. Метод ближайших соседей ==
  
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F_2__%D0%A0%D0%B5%D1%88%D0%B0%D1%8E%D1%89%D0%B8%D0%B5_%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D1%8C%D1%8F.pdf Слайды лекции]
+
=== Основные материалы ===
  
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/2.%20%D0%A0%D0%B5%D1%88%D0%B0%D1%8E%D1%89%D0%B8%D0%B5%20%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D1%8C%D1%8F.py Код семинара]
+
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%202.%20%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%20%D0%B1%D0%BB%D0%B8%D0%B6%D0%B0%D0%B9%D1%88%D0%B8%D1%85%20%D1%81%D0%BE%D1%81%D0%B5%D0%B4%D0%B5%D0%B9.pdf Слайды лекции]
  
== Неделя 3. Метод ближайших соседей ==
+
[https://colab.research.google.com/drive/1a2sgrKj_ap58JKRixlG2xvopTmV7dU_8?usp=sharing Код семинара]
  
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F_3__%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B1%D0%BB%D0%B8%D0%B6%D0%B0%D0%B9%D1%88%D0%B5%D0%B3%D0%BE_%D1%81%D0%BE%D1%81%D0%B5%D0%B4%D0%B0.pdf Слайды лекции]
+
=== Рекомендуемая литература ===
 +
 
 +
1. FOML глава 5.
 +
 
 +
2. MLPP глава 16.
 +
 
 +
== Неделя 3. Деревья ==
 +
 
 +
=== Основные материалы ===
 +
 
 +
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%203.%20%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D1%8C%D1%8F.pdf Слайды лекции]
 +
 
 +
[https://colab.research.google.com/drive/1vXOMuDUFSxqO4XFpvvcpf4SWokIx4Lk9?usp=sharing Код семинара]
 +
 
 +
=== Рекомендуемая литература ===
 +
 
 +
1. FOML глава 4.
  
 
== Неделя 4. Логистическая регрессия и метод опорных векторов ==
 
== Неделя 4. Логистическая регрессия и метод опорных векторов ==
  
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F_4__%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F_%D0%B8_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4_%D0%BE%D0%BF%D0%BE%D1%80%D0%BD%D1%8B%D1%85_%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BE%D0%B2.pdf Слайды лекции]
+
=== Основные материалы ===
 +
 
 +
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%204.%20%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F%20%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F%20%D0%B8%20%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%20%D0%BE%D0%BF%D0%BE%D1%80%D0%BD%D1%8B%D1%85%20%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BE%D0%B2.pdf Слайды лекции]
 +
 
 +
[https://colab.research.google.com/drive/1vqEDTOwBGkz0mEM4i4SPxHvVRrJfTjmy?usp=sharing Код семинара]
 +
 
 +
=== Рекомендуемая литература ===
 +
 
 +
1. FOML глава 7.
 +
 
 +
2. MLPP главы 8 и 14.5.
 +
 
 +
=== Дополнительные материалы ===
 +
 
 +
1. [https://projecteuclid.org/journalArticle/Download?urlId=10.1214%2Faos%2F1013203451 Статья, в которой был предложен градиентный бустинг]
 +
 
 +
== Неделя 5. Машинное обучение в эконометрике ==
 +
 
 +
=== Основные материалы ===
 +
 
 +
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%205.%20%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5%20%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%B2%20%D1%8D%D0%BA%D0%BE%D0%BD%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B5.pdf Слайды лекции]
 +
 
 +
[https://colab.research.google.com/drive/11ss8xdr6B3FPeIExktOZ90GFzGAS7mq5?usp=sharing Код семинара]
 +
 
 +
=== Рекомендуемая литература ===
 +
 
 +
1. HBE глава 29.
 +
 
 +
=== Дополнительные материалы ===
 +
 
 +
1. [https://www.jstatsoft.org/index.php/jss/article/view/v108i03/4527 Двойное машинное обучение в R]
 +
 
 +
2. [https://arxiv.org/pdf/2301.09397.pdf Двойное машинное обучение в STATA]
 +
 
 +
3. [https://jmlr.org/papers/volume23/21-0862/21-0862.pdf Двойное машинное обучение в python].
 +
 
 +
4. [https://www.youtube.com/watch?v=eHOjmyoPCFU&t=1552s Видео лекции о теории двойного машинного обучения от создателя метода]
 +
 
 +
5. [https://www.youtube.com/watch?v=ErecsyKEq74 Видео лекции о программной реализации двойного машинного обучения от создателей пакета]
 +
 
 +
'''Примечание''': пакеты в R и python разработаны одними и теми же людьми, поэтому практически идентичны. Однако, в статье про пакет в R все расписано гораздо подробней и понятней, с большим числом наглядных примеров и наиболее важными теоретическими выкладками.
 +
 
 +
== Неделя 6. Эффекты воздействия ==
 +
 
 +
=== Основные материалы ===
 +
 
 +
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%206.%20%D0%AD%D1%84%D1%84%D0%B5%D0%BA%D1%82%D1%8B%20%D0%B2%D0%BE%D0%B7%D0%B4%D0%B5%D0%B9%D1%81%D1%82%D0%B2%D0%B8%D1%8F.pdf Слайды лекции]
 +
 
 +
[https://colab.research.google.com/drive/1uFqihpgQxbPw61kz3N2icOzqPGeK_H-d?usp=sharing Код семинара]
 +
 
 +
=== Рекомендуемая литература ===
 +
 
 +
1. MLPP главы 16.5 и 28.
 +
 
 +
2. HBE главы 12.34 и 29.22.
 +
 
 +
=== Дополнительные материалы ===
 +
 
 +
[https://mixtape.scunning.com Простое, но достаточно подробное введение в causal inference.]
 +
 
 +
[https://www.sciencedirect.com/science/article/pii/S0304407606001023 Теория оценивания LATE с использованием дополнительных регрессоров]
 +
 
 +
[https://academic.oup.com/ectj/article/27/2/213/7602388?login=false Примеры использования машинного обучения для оценивания эффектов воздействия в прикладных исследованиях]
 +
 
 +
== Неделя 7. Нейронные сети ==
 +
 
 +
=== Основные материалы ===
 +
 
 +
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%207.%20%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5%20%D1%81%D0%B5%D1%82%D0%B8.pdf Слайды лекции]
 +
 
 +
[https://colab.research.google.com/drive/1QuoHICOPZNfj3Z0ZpYC248zRAwqDSXfU?usp=sharing Код семинара]
 +
 
 +
=== Рекомендуемая литература ===
 +
 
 +
1. MLPP главы 16.5 и 28.
 +
 
 +
=== Дополнительные материалы ===
 +
 
 +
[https://www.cs.toronto.edu/~rsalakhu/papers/srivastava14a.pdf 1. Статья, в которой был предложен метод исключения (dropout).]
 +
 
 +
== Неделя 8. Рекуррентные нейронные сети ==
 +
 
 +
=== Основные материалы ===
 +
 
 +
[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F%208.%20%D0%A0%D0%B5%D0%BA%D1%83%D1%80%D1%80%D0%B5%D0%BD%D1%82%D0%BD%D1%8B%D0%B5%20%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5%20%D1%81%D0%B5%D1%82%D0%B8.pdf Слайды лекции]
 +
 
 +
[https://colab.research.google.com/drive/1R--ZslnpKE47FAk9X4I8YefqZm0sIn2J?usp=sharing Код семинара]
 +
 
 +
== Неделя 9. Большие языковые модели ==
 +
 
 +
=== Основные материалы ===
 +
 
 +
[https://colab.research.google.com/drive/1-pXQi7FqvXT_NmQafbKF6bmmk1PSEMQ2?usp=sharing Код лекции]
 +
 
 +
[https://colab.research.google.com/drive/12CwGbEFp0nBiRJnKJIppdKDio8PBsJQW?usp=sharing Код семинара]
  
== Неделя 5. Нейронные сети ==
+
== Неделя 10. Повторение ==
  
== Неделя 6. Градиентный бустинг и что-то еще ==
+
=== Консультация на лекции ===
 +
*[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%9A%D0%BE%D0%BD%D1%81%D1%83%D0%BB%D1%8C%D1%82%D0%B0%D1%86%D0%B8%D1%8F.%20%D0%9C%D0%9E.%202023-2024.pdf Задачи]
 +
*[https://youtu.be/chChWaDkYEI Видео 1]
 +
*[https://youtu.be/si0jgqis1fY Видео 2]
 +
*[https://youtu.be/ET47Z_r9B98 Видео 3]
 +
*[https://youtu.be/m8Crj5Nh_20 Видео 4]
  
== Неделя 7. Что-то еще интересное, может быть рекомендационные системы ==
+
=== Консультация на семинаре ===
  
== Неделя 8. Что-то про связь эконометрики и машинного обучения ==
+
*[https://github.com/bogdanpotanin/Machine-Learning/blob/main/%D0%AD%D0%BA%D0%B7%D0%B0%D0%BC%D0%B5%D0%BD.%20%D0%9F%D1%80%D0%B5%D0%B4%D0%B2%D0%B0%D1%80%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9.%20%D0%9C%D0%9E.%202023-2024.pdf Задачи]
  
 
= Список литературы =
 
= Список литературы =
  
# '''FOML''' -- Fundamentals of machine learning for predicting data analytics. John D. Kelleher, Brian Mac Namee, Aoife D'Arcy. Низкая сложность.
+
# '''FOML''' -- Fundamentals of machine learning for predictive data analytics. John D. Kelleher, Brian Mac Namee, Aoife D'Arcy. '''Низкая сложность'''
# '''MLPP''' -- Machine learning a probabilistic perspective. Kevin P. Murphy. Высокая сложность.
+
# '''HBE''' -- Econometrics. Hansen B. '''Средняя сложность'''
 +
# '''MLPP''' -- Machine learning a probabilistic perspective. Kevin P. Murphy. '''Высокая сложность'''

Текущая версия на 09:19, 18 октября 2024

Содержание

Дисклеймер

Материалы данной страницы являются предварительными и могут содержать существенные неточности

Материалы для повторения

Викистранички курсов по теории вероятностей и математической статистике:

Видео про применение python в математической статистике:

Информация о курсе

Оценка = 0.01 * ДЗ1 + 0.29 * ДЗ2 + 0.7 * Экзамен

Слайды

Домашнее задание

Домашнее задание 1

Дедлайн: 28-го апреля

Необходимо внести данные группы (до трех человек включительно), в которой будет выполняться второе домашнее задание, в таблицу.

Домашнее задание 2

Дедлайн: 9-го июня

Информация об оформлении и формате сдачи домашней работы указана в тексте задания.

Домашнее задание

Консультация о генерации данных:

Экзамен

Пример экзамена с решением

Экзамен 2023-2024 с решениями

Неделя 1. Байесовские сети

Основные материалы

Слайды лекции

Код семинара

Рекомендуемая литература

1. FOML глава 6.

2. MLPP глава 10.

Неделя 2. Метод ближайших соседей

Основные материалы

Слайды лекции

Код семинара

Рекомендуемая литература

1. FOML глава 5.

2. MLPP глава 16.

Неделя 3. Деревья

Основные материалы

Слайды лекции

Код семинара

Рекомендуемая литература

1. FOML глава 4.

Неделя 4. Логистическая регрессия и метод опорных векторов

Основные материалы

Слайды лекции

Код семинара

Рекомендуемая литература

1. FOML глава 7.

2. MLPP главы 8 и 14.5.

Дополнительные материалы

1. Статья, в которой был предложен градиентный бустинг

Неделя 5. Машинное обучение в эконометрике

Основные материалы

Слайды лекции

Код семинара

Рекомендуемая литература

1. HBE глава 29.

Дополнительные материалы

1. Двойное машинное обучение в R

2. Двойное машинное обучение в STATA

3. Двойное машинное обучение в python.

4. Видео лекции о теории двойного машинного обучения от создателя метода

5. Видео лекции о программной реализации двойного машинного обучения от создателей пакета

Примечание: пакеты в R и python разработаны одними и теми же людьми, поэтому практически идентичны. Однако, в статье про пакет в R все расписано гораздо подробней и понятней, с большим числом наглядных примеров и наиболее важными теоретическими выкладками.

Неделя 6. Эффекты воздействия

Основные материалы

Слайды лекции

Код семинара

Рекомендуемая литература

1. MLPP главы 16.5 и 28.

2. HBE главы 12.34 и 29.22.

Дополнительные материалы

Простое, но достаточно подробное введение в causal inference.

Теория оценивания LATE с использованием дополнительных регрессоров

Примеры использования машинного обучения для оценивания эффектов воздействия в прикладных исследованиях

Неделя 7. Нейронные сети

Основные материалы

Слайды лекции

Код семинара

Рекомендуемая литература

1. MLPP главы 16.5 и 28.

Дополнительные материалы

1. Статья, в которой был предложен метод исключения (dropout).

Неделя 8. Рекуррентные нейронные сети

Основные материалы

Слайды лекции

Код семинара

Неделя 9. Большие языковые модели

Основные материалы

Код лекции

Код семинара

Неделя 10. Повторение

Консультация на лекции

Консультация на семинаре

Список литературы

  1. FOML -- Fundamentals of machine learning for predictive data analytics. John D. Kelleher, Brian Mac Namee, Aoife D'Arcy. Низкая сложность
  2. HBE -- Econometrics. Hansen B. Средняя сложность
  3. MLPP -- Machine learning a probabilistic perspective. Kevin P. Murphy. Высокая сложность