Прикладная статистика в машинном обучении 23/24 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
 
(не показано 40 промежуточных версии 2 участников)
Строка 19: Строка 19:
 
! Группа !! Семинарист !! Учебный ассистент || Время занятий || Аудитория/ссылка || Способ связи
 
! Группа !! Семинарист !! Учебный ассистент || Время занятий || Аудитория/ссылка || Способ связи
 
|-
 
|-
| БПМИ211 МОП || Антон Золотарёв || Артём Беляев || Пт, 18:10 – 9:30 || N508 || [https://t.me/+xyo_E93WbbczZDky ТГ-чат]
+
| БПМИ211 МОП || Антон Золотарёв || Артём Беляев || Пт, 18:10 – 9:30 || N508 || [ ТГ-чат]
 
|-
 
|-
| БПМИ212 МОП || Дарья Демидова || Кирилл Королев || Пт, 14:40 – 16:00|| D507 || [https://t.me/+ckMIrI_EJDA5ZDky ТГ-чат]
+
| БПМИ212 МОП || Дарья Демидова || Кирилл Королев || Пт, 14:40 – 16:00|| D507 || [ТГ-чат]
 
|-
 
|-
| БПМИ213 МОП || Яна Хассан || Валерия Кондратьева || 14:40 – 16:00 || TBD || [https://t.me/+JiQJ7QfBjbU4MTBi ТГ-чат]
+
| БПМИ213 МОП || Яна Хассан || Валерия Кондратьева || 14:40 – 16:00 || TBD || [ ТГ-чат]
 
|-
 
|-
| По выбору/онлайн || Антон Золотарёв || Никита Горевой || Пт, 18:10 – 9:30 || N508 || [https://t.me/+xyo_E93WbbczZDky ТГ-чат]
+
| По выбору/онлайн || Антон Золотарёв || Никита Горевой || Пт, 18:10 – 9:30 || N508 || [ ТГ-чат]
 
|}
 
|}
  
 
=== Полезные ссылки ===
 
=== Полезные ссылки ===
 +
Канал в Телеграме (для важных объявлений)
  
* [https://t.me/+GzEZg2B2Y0ExYjcy Канал в Телеграме (для важных объявлений)]
+
Общий чат в Телеграме для обсуждений/вопросов
  
* [https://t.me/+lQwuxQ_NwdgyYzQy Общий чат в Телеграме для обсуждений/вопросов]
+
* [https://github.com/XuMuK1/psmo2023 github]
 
+
* [https://github.com/XuMuK1/psmo2023 GitHub]
+
 
+
* Ведомость TBD
+
  
 
== Лекции ==
 
== Лекции ==
Строка 42: Строка 39:
 
[8 сентября] '''Лекция 1:''' Метод максимального правдоподобия, свойства ММП-оценок, модель клиента магазина.
 
[8 сентября] '''Лекция 1:''' Метод максимального правдоподобия, свойства ММП-оценок, модель клиента магазина.
 
* [https://www.youtube.com/watch?v=XnCdfBFeWG0 Видео]
 
* [https://www.youtube.com/watch?v=XnCdfBFeWG0 Видео]
* [ Конспект]
+
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec1-MLE.pdf Конспект]
  
== Семинары ==  
+
[15 сентября] '''Лекция 2:''' Теория информации, энтропия, KL-дивергенция.
 +
* [https://www.youtube.com/watch?v=PUIcpFr2u7g Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec2-Code.pdf Конспект]
 +
 
 +
[22 сентября] '''Лекция 3:''' Продолжение ММП, скрытые переменные, ЕМ-алгоритм.
 +
* [https://www.youtube.com/watch?v=IjtifVvXIWw&ab_channel=MaxK Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec3-EM.pdf Конспект]
 +
 
 +
[29 сентября] '''Лекция 4:''' Продолжение ЕМ-алгоритма, оценка фильтров, фильтр Калмана.
 +
* [https://www.youtube.com/watch?v=7xGvk8u59V8 Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec4-EM2.pdf Конспект]
 +
 
 +
[6 октября] '''Лекция 5:''' Доверительные интервалы, проверка гипотез.
 +
* [https://www.youtube.com/watch?v=GgP4Gkk0IkA Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec5-Stat1.pdf Конспект]
 +
 
 +
[13 октября] '''Лекция 6:''' Линейная регрессия, теорема Гаусса-Маркова.
 +
* [https://www.youtube.com/watch?v=QoYL7GC0GpI Видео]
 +
* [https://github.com/NikitaGorevoy/psmo2023/blob/master/lectures/Lec6-Reg1.pdf Конспект]
 +
 
 +
[20 октября] '''Лекция 7:''' Линейная регрессия, предположения.
 +
* [https://www.youtube.com/watch?v=GVufw6Epg58 Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec7-Reg2.pdf Конспект]
 +
 
 +
[10 ноября] '''Лекция 8:''' Линейная регрессия, нарушение предпосылок.
 +
* [https://www.youtube.com/live/unT7XS5ZpQA?feature=share Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec8-Reg3.pdf Конспект]
 +
 
 +
[17 ноября] '''Лекция 9:''' Квантильная регрессия.
 +
* [https://www.youtube.com/watch?v=KT8ktD_QXJg&ab_channel=Sound%2CDLandVariousStatistics Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec9-Reg%2B%2B.pdf Конспект]
 +
 
 +
[24 ноября] '''Лекция 10:''' Ранговые критерии.
 +
* [https://www.youtube.com/live/piXMwute3As?si=bMTkwYE6s1R_ZfdF Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec10-RankCrit.pdf Конспект]
 +
 
 +
[1 декабря] '''Лекция 11:''' АБ-тесты.
 +
* [https://youtube.com/live/VTd5sroW1xQ?feature=share Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec11-AB.pdf Конспект]
 +
 
 +
[8 декабря] '''Лекция 12:''' Расширение классической статистики.
 +
* [https://www.youtube.com/watch?v=e_JUubKjqNY Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec12-Boots.pdf Конспект]
 +
 
 +
[15 декабря] '''Лекция 13:''' Множественное тестирование.
 +
* [https://www.youtube.com/watch?v=d36FVK4h46s Видео]
 +
* [Конспект]
 +
 
 +
== Семинары ==
 +
'''Семинар 1:''' Метод максимального правдоподобия.
 +
* [https://www.youtube.com/watch?v=JDdcg43vumE Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_1.ipynb Ноутбук]
 +
 
 +
'''Семинар 2:''' Теория информации, энтропия.
 +
* [https://www.youtube.com/watch?v=HmxKVdUQf-U Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_2.ipynb Ноутбук]
 +
 
 +
'''Семинар 3:''' KL-дивергенция, EM-алгоритм.
 +
* [https://www.youtube.com/watch?v=Yq5FvNypKgw Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_3.ipynb Ноутбук]
 +
 
 +
'''Семинар 4:''' EM-алгоритм, продолжение.
 +
* [https://www.youtube.com/live/iWDBF74KmJs?feature=share Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_4.ipynb Ноутбук]
 +
 
 +
'''Семинар 5:''' Доверительные интервалы, проверка гипотез.
 +
* [https://www.youtube.com/watch?v=M6P3h2-kXW4&ab_channel=HSE_FCS_PSMO_22 Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_5.ipynb Ноутбук]
 +
 
 +
'''Семинар 6:''' Линейная регрессия, МНК, F-тест.
 +
* [https://www.youtube.com/watch?v=Rp7Ip8eWhFo&ab_channel=HSE_FCS_PSMO_22 Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_6.ipynb Ноутбук]
 +
 
 +
'''Семинар 7:''' Теорема Гаусса-Маркова, нарушение ее предпосылок, свойства МНК-оценок.
 +
* [https://www.youtube.com/watch?v=zK0mBOwJnlA&ab_channel=HSE_FCS_PSMO_22 Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_7.ipynb Ноутбук]
 +
 
 +
'''Семинар 8:''' Эндогенность в регрессии и проверка предположений Гаусса-Маркова.
 +
* [https://www.youtube.com/watch?v=T4ydoo98_-4 Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_8.ipynb Ноутбук]
 +
 
 +
'''Семинар 9:''' Квантильная регрессия.
 +
* [https://www.youtube.com/watch?v=eYRO8MonbFI Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_9.ipynb Ноутбук]
 +
 
 +
'''Семинар 10:''' Ранговые критерии.
 +
* [https://www.youtube.com/watch?v=Gl39-Hb6Zok Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_10.ipynb Ноутбук]
 +
 
 +
'''Семинар 11:''' A-B тестирование.
 +
* [https://www.youtube.com/watch?v=xVvwzuqAhdg Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_11.ipynb Ноутбук]
 +
 
 +
'''Семинар 12:''' Бутстрэп.
 +
* [https://www.youtube.com/watch?v=KrmkiewUxek&t=630s Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_12.ipynb Ноутбук]
 +
 
 +
'''Семинар 13:''' Множественная проверка гипотез.
 +
* [Видео]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_13.ipynb Ноутбук]
  
 
== Домашние задания ==
 
== Домашние задания ==
  
Домашние задания представляют из себя python-ноутбук, где потребуется решить несколько теоретических задач, а также несколько задач с помощью программного кода. Как сдавать ДЗ TBD
+
Домашние задания представляют из себя python-ноутбук, где потребуется решить несколько теоретических задач, а также несколько задач с помощью программного кода.  
 +
 
 +
Как сдавать ДЗ: Anytask TBD.
 
==== ДЗ-1 ====
 
==== ДЗ-1 ====
+
 
Больше подробностей на первой неделе
+
ДЗ-1 состоит из трех частей. Дедлайн по всему ДЗ 08 октября 2023 23:59.
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/homeworks/hw01/Homework_1_part_1.ipynb Часть 1]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/homeworks/hw01/Homework_1_part_2.ipynb Часть 2]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/homeworks/hw01/Homework_1_part_3.ipynb Часть 3]
  
 
==== ДЗ-2 ====
 
==== ДЗ-2 ====
  
Больше подробностей на пятой неделе
+
ДЗ-2 состоит из двух частей. Дедлайн по всему ДЗ 19 ноября 2023 23:59.
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/homeworks/hw02/Homework_2_part_1.ipynb Часть 1]
 +
* [https://github.com/XuMuK1/psmo2023/blob/master/homeworks/hw02/Homework_2_part_2.ipynb Часть 2]
  
 
==== ДЗ-3 ====
 
==== ДЗ-3 ====
  
Больше подробностей на девятой неделе
+
ДЗ-3 состоит из одной части. Дедлайн по всему ДЗ 19 декабря 2023 23:59.
 +
* [https://github.com/XuMuK1/psmo2023/tree/master/homeworks/hw03 Часть 1]
  
 
=== Квизы ===
 
=== Квизы ===
Строка 83: Строка 187:
 
Итоговая оценка за курс рассчитывается по следующей формуле:
 
Итоговая оценка за курс рассчитывается по следующей формуле:
  
Итог = 0.7 * Накоп + 0.3 * Экз.
+
Итог = 0.7 * Накоп + 0.3 * максимум(Экз, минимум(7, Накоп)).
  
 
В этой формуле
 
В этой формуле
Строка 89: Строка 193:
 
0.7 * Накоп = 0.1 * Квиз + 0.3 * среднее(ДЗ1,ДЗ2,ДЗ3) + 0.3 * КР,
 
0.7 * Накоп = 0.1 * Квиз + 0.3 * среднее(ДЗ1,ДЗ2,ДЗ3) + 0.3 * КР,
  
<small>где  
+
<small> где  
 
* Квиз – средняя оценка за все квизы.
 
* Квиз – средняя оценка за все квизы.
 
* ДЗ1, ДЗ2, ДЗ3 – оценки за ДЗ1,ДЗ2 и ДЗ3 соответственно; avg -- среднее
 
* ДЗ1, ДЗ2, ДЗ3 – оценки за ДЗ1,ДЗ2 и ДЗ3 соответственно; avg -- среднее
* КР – оценка за контрольную работу</small>.
+
* КР – оценка за контрольную работу </small>.
 
+
Можно не приходить на экзамен, в этом случае Итог = мин(накоп,7); если студент решает сдавать экзамен, то применяется формула выше.
+
Округление арифметическое, округляется только итоговая оценка.
+
  
 
==Литература==
 
==Литература==

Текущая версия на 17:48, 11 мая 2024

О курсе

Курс читается для студентов 3-го курса в 1-2 модулях.

Лектор: Максим Каледин

Лекции проходят в пятницу, 9:30 – 10:50, R405.

Семинаристы: Антон Золотарёв, Дарья Демидова, Яна Хассан

Учебные ассистенты: Кирилл Королёв Артём Беляев, Валерия Кондратьева, Никита Горевой,

Семинары

(!) Сверяйтесь с вашим актуальным расписанием, возможны изменения.

Группа Семинарист Учебный ассистент Время занятий Аудитория/ссылка Способ связи
БПМИ211 МОП Антон Золотарёв Артём Беляев Пт, 18:10 – 9:30 N508 [ ТГ-чат]
БПМИ212 МОП Дарья Демидова Кирилл Королев Пт, 14:40 – 16:00 D507 [ТГ-чат]
БПМИ213 МОП Яна Хассан Валерия Кондратьева 14:40 – 16:00 TBD [ ТГ-чат]
По выбору/онлайн Антон Золотарёв Никита Горевой Пт, 18:10 – 9:30 N508 [ ТГ-чат]

Полезные ссылки

Канал в Телеграме (для важных объявлений)

Общий чат в Телеграме для обсуждений/вопросов

Лекции

[8 сентября] Лекция 1: Метод максимального правдоподобия, свойства ММП-оценок, модель клиента магазина.

[15 сентября] Лекция 2: Теория информации, энтропия, KL-дивергенция.

[22 сентября] Лекция 3: Продолжение ММП, скрытые переменные, ЕМ-алгоритм.

[29 сентября] Лекция 4: Продолжение ЕМ-алгоритма, оценка фильтров, фильтр Калмана.

[6 октября] Лекция 5: Доверительные интервалы, проверка гипотез.

[13 октября] Лекция 6: Линейная регрессия, теорема Гаусса-Маркова.

[20 октября] Лекция 7: Линейная регрессия, предположения.

[10 ноября] Лекция 8: Линейная регрессия, нарушение предпосылок.

[17 ноября] Лекция 9: Квантильная регрессия.

[24 ноября] Лекция 10: Ранговые критерии.

[1 декабря] Лекция 11: АБ-тесты.

[8 декабря] Лекция 12: Расширение классической статистики.

[15 декабря] Лекция 13: Множественное тестирование.

Семинары

Семинар 1: Метод максимального правдоподобия.

Семинар 2: Теория информации, энтропия.

Семинар 3: KL-дивергенция, EM-алгоритм.

Семинар 4: EM-алгоритм, продолжение.

Семинар 5: Доверительные интервалы, проверка гипотез.

Семинар 6: Линейная регрессия, МНК, F-тест.

Семинар 7: Теорема Гаусса-Маркова, нарушение ее предпосылок, свойства МНК-оценок.

Семинар 8: Эндогенность в регрессии и проверка предположений Гаусса-Маркова.

Семинар 9: Квантильная регрессия.

Семинар 10: Ранговые критерии.

Семинар 11: A-B тестирование.

Семинар 12: Бутстрэп.

Семинар 13: Множественная проверка гипотез.

Домашние задания

Домашние задания представляют из себя python-ноутбук, где потребуется решить несколько теоретических задач, а также несколько задач с помощью программного кода.

Как сдавать ДЗ: Anytask TBD.

ДЗ-1

ДЗ-1 состоит из трех частей. Дедлайн по всему ДЗ 08 октября 2023 23:59.

ДЗ-2

ДЗ-2 состоит из двух частей. Дедлайн по всему ДЗ 19 ноября 2023 23:59.

ДЗ-3

ДЗ-3 состоит из одной части. Дедлайн по всему ДЗ 19 декабря 2023 23:59.

Квизы

Квизы — небольшие самостоятельные работы, проводятся периодически (раз в две-три недели) на семинаре. Выдаются в начале семинара на 10-15 минут. Оценка за квизы формируется как среднее по всем квизам.

Контрольная работа

Контрольная работа является письменной формой контроля. В контрольную работу войдут задачи по темам примерно до Лекции 8. После недели 8 планируется неделя консультаций, затем неделя контрольной работы (на лекции) и потом продолжение лекций. Возможны изменения, связанные с расписанием и праздниками.

Экзамен

Экзамен является устной формой контроля. В экзамен войдут теория и задачи по темам лекций и семинаров всего курса.

Подробный состав тем и процедура проведения будут объявлены в начале второго модуля.

TBD

Отчётность по курсу и критерии оценки

Итоговая оценка за курс

Итоговая оценка за курс рассчитывается по следующей формуле:

Итог = 0.7 * Накоп + 0.3 * максимум(Экз, минимум(7, Накоп)).

В этой формуле

0.7 * Накоп = 0.1 * Квиз + 0.3 * среднее(ДЗ1,ДЗ2,ДЗ3) + 0.3 * КР,

где

  • Квиз – средняя оценка за все квизы.
  • ДЗ1, ДЗ2, ДЗ3 – оценки за ДЗ1,ДЗ2 и ДЗ3 соответственно; avg -- среднее
  • КР – оценка за контрольную работу .

Литература

Горяинова Е.Р., Панков А.Р., Платонов Е.Н. Прикладные методы анализа статистических данных – М.: Издательский дом Высшей школы экономики, 2012. (Очень много про непараметрические критерии со ссылками и деталями)

Wasserman L. All of Statistics: A Concise Course in Statistical Inference, Springer Science & Business Media, 2013 (в общем про "большую" статистику)

Чжун К.Л., АитСахлиа Ф. Элементарный курс теории вероятностей. Стохастические процессы и финансовая математика – М.: БИНОМ. Лаборатория знаний, 2014. (если интересно много простых примеров сложных понятий)

Лагутин М.Б. Наглядная математическая статистика – М.: БИНОМ Лаборатория знаний, 2015. (МНОГО МАТСТАТА, но наглядно)


Прочее

  • Frederick Gravetter, Larry Wallnau. Statistics for the Behavioral Sciences – базовый курс с большим количеством картинок и подробных текстовых объяснений. Прекрасно подходит для быстрого повторения интуиции и основной методологии.
  • David Williams. Weighing the Odds. A Course in Probability and Statistics – суровая книжка для самых смелых. Содержит все основные темы по теории вероятностей и статистике в рамках программы для технических специальностей. Сквозная идея книги – показать связь теории вероятностей и статистики с другими разделами математики, поэтому для каждого утверждения приводятся строгие и очень подробные доказательства. Сильно расширяет общематематический кругозор, содержит много нетривиальных утверждений.