Прикладная статистика в машинном обучении 23/24 — различия между версиями
Xumuk mk (обсуждение | вклад) (Новая страница: «== О курсе == Курс читается для студентов 3-го курса в 1-2 модулях. '''Лектор:''' [https://t.me/XuMuK_MK М…») |
|||
(не показаны 62 промежуточные версии 2 участников) | |||
Строка 5: | Строка 5: | ||
'''Лектор:''' [https://t.me/XuMuK_MK Максим Каледин] | '''Лектор:''' [https://t.me/XuMuK_MK Максим Каледин] | ||
− | Лекции: | + | Лекции проходят в пятницу, 9:30 – 10:50, R405. |
'''Семинаристы:''' [https://t.me/az_stat Антон Золотарёв], [https://t.me/dashademidova Дарья Демидова], [https://t.me/Yana_Kn_I Яна Хассан] | '''Семинаристы:''' [https://t.me/az_stat Антон Золотарёв], [https://t.me/dashademidova Дарья Демидова], [https://t.me/Yana_Kn_I Яна Хассан] | ||
Строка 19: | Строка 19: | ||
! Группа !! Семинарист !! Учебный ассистент || Время занятий || Аудитория/ссылка || Способ связи | ! Группа !! Семинарист !! Учебный ассистент || Время занятий || Аудитория/ссылка || Способ связи | ||
|- | |- | ||
− | | | + | | БПМИ211 МОП || Антон Золотарёв || Артём Беляев || Пт, 18:10 – 9:30 || N508 || [ ТГ-чат] |
|- | |- | ||
− | | | + | | БПМИ212 МОП || Дарья Демидова || Кирилл Королев || Пт, 14:40 – 16:00|| D507 || [ТГ-чат] |
|- | |- | ||
− | | | + | | БПМИ213 МОП || Яна Хассан || Валерия Кондратьева || 14:40 – 16:00 || TBD || [ ТГ-чат] |
+ | |- | ||
+ | | По выбору/онлайн || Антон Золотарёв || Никита Горевой || Пт, 18:10 – 9:30 || N508 || [ ТГ-чат] | ||
|} | |} | ||
=== Полезные ссылки === | === Полезные ссылки === | ||
+ | Канал в Телеграме (для важных объявлений) | ||
− | + | Общий чат в Телеграме для обсуждений/вопросов | |
− | * [https://github.com/XuMuK1/psmo2023 | + | * [https://github.com/XuMuK1/psmo2023 github] |
− | + | == Лекции == | |
+ | [8 сентября] '''Лекция 1:''' Метод максимального правдоподобия, свойства ММП-оценок, модель клиента магазина. | ||
+ | * [https://www.youtube.com/watch?v=XnCdfBFeWG0 Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec1-MLE.pdf Конспект] | ||
− | = | + | [15 сентября] '''Лекция 2:''' Теория информации, энтропия, KL-дивергенция. |
+ | * [https://www.youtube.com/watch?v=PUIcpFr2u7g Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec2-Code.pdf Конспект] | ||
− | [ | + | [22 сентября] '''Лекция 3:''' Продолжение ММП, скрытые переменные, ЕМ-алгоритм. |
− | * | + | * [https://www.youtube.com/watch?v=IjtifVvXIWw&ab_channel=MaxK Видео] |
− | ... | + | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec3-EM.pdf Конспект] |
+ | [29 сентября] '''Лекция 4:''' Продолжение ЕМ-алгоритма, оценка фильтров, фильтр Калмана. | ||
+ | * [https://www.youtube.com/watch?v=7xGvk8u59V8 Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec4-EM2.pdf Конспект] | ||
− | = | + | [6 октября] '''Лекция 5:''' Доверительные интервалы, проверка гипотез. |
+ | * [https://www.youtube.com/watch?v=GgP4Gkk0IkA Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec5-Stat1.pdf Конспект] | ||
− | Домашние задания представляют из себя python-ноутбук, где потребуется решить несколько теоретических задач, а также несколько задач с помощью программного кода. Как сдавать ДЗ TBD | + | [13 октября] '''Лекция 6:''' Линейная регрессия, теорема Гаусса-Маркова. |
+ | * [https://www.youtube.com/watch?v=QoYL7GC0GpI Видео] | ||
+ | * [https://github.com/NikitaGorevoy/psmo2023/blob/master/lectures/Lec6-Reg1.pdf Конспект] | ||
+ | |||
+ | [20 октября] '''Лекция 7:''' Линейная регрессия, предположения. | ||
+ | * [https://www.youtube.com/watch?v=GVufw6Epg58 Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec7-Reg2.pdf Конспект] | ||
+ | |||
+ | [10 ноября] '''Лекция 8:''' Линейная регрессия, нарушение предпосылок. | ||
+ | * [https://www.youtube.com/live/unT7XS5ZpQA?feature=share Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec8-Reg3.pdf Конспект] | ||
+ | |||
+ | [17 ноября] '''Лекция 9:''' Квантильная регрессия. | ||
+ | * [https://www.youtube.com/watch?v=KT8ktD_QXJg&ab_channel=Sound%2CDLandVariousStatistics Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec9-Reg%2B%2B.pdf Конспект] | ||
+ | |||
+ | [24 ноября] '''Лекция 10:''' Ранговые критерии. | ||
+ | * [https://www.youtube.com/live/piXMwute3As?si=bMTkwYE6s1R_ZfdF Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec10-RankCrit.pdf Конспект] | ||
+ | |||
+ | [1 декабря] '''Лекция 11:''' АБ-тесты. | ||
+ | * [https://youtube.com/live/VTd5sroW1xQ?feature=share Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec11-AB.pdf Конспект] | ||
+ | |||
+ | [8 декабря] '''Лекция 12:''' Расширение классической статистики. | ||
+ | * [https://www.youtube.com/watch?v=e_JUubKjqNY Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/lectures/Lec12-Boots.pdf Конспект] | ||
+ | |||
+ | [15 декабря] '''Лекция 13:''' Множественное тестирование. | ||
+ | * [https://www.youtube.com/watch?v=d36FVK4h46s Видео] | ||
+ | * [Конспект] | ||
+ | |||
+ | == Семинары == | ||
+ | '''Семинар 1:''' Метод максимального правдоподобия. | ||
+ | * [https://www.youtube.com/watch?v=JDdcg43vumE Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_1.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 2:''' Теория информации, энтропия. | ||
+ | * [https://www.youtube.com/watch?v=HmxKVdUQf-U Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_2.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 3:''' KL-дивергенция, EM-алгоритм. | ||
+ | * [https://www.youtube.com/watch?v=Yq5FvNypKgw Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_3.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 4:''' EM-алгоритм, продолжение. | ||
+ | * [https://www.youtube.com/live/iWDBF74KmJs?feature=share Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_4.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 5:''' Доверительные интервалы, проверка гипотез. | ||
+ | * [https://www.youtube.com/watch?v=M6P3h2-kXW4&ab_channel=HSE_FCS_PSMO_22 Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_5.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 6:''' Линейная регрессия, МНК, F-тест. | ||
+ | * [https://www.youtube.com/watch?v=Rp7Ip8eWhFo&ab_channel=HSE_FCS_PSMO_22 Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_6.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 7:''' Теорема Гаусса-Маркова, нарушение ее предпосылок, свойства МНК-оценок. | ||
+ | * [https://www.youtube.com/watch?v=zK0mBOwJnlA&ab_channel=HSE_FCS_PSMO_22 Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_7.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 8:''' Эндогенность в регрессии и проверка предположений Гаусса-Маркова. | ||
+ | * [https://www.youtube.com/watch?v=T4ydoo98_-4 Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_8.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 9:''' Квантильная регрессия. | ||
+ | * [https://www.youtube.com/watch?v=eYRO8MonbFI Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_9.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 10:''' Ранговые критерии. | ||
+ | * [https://www.youtube.com/watch?v=Gl39-Hb6Zok Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_10.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 11:''' A-B тестирование. | ||
+ | * [https://www.youtube.com/watch?v=xVvwzuqAhdg Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_11.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 12:''' Бутстрэп. | ||
+ | * [https://www.youtube.com/watch?v=KrmkiewUxek&t=630s Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_12.ipynb Ноутбук] | ||
+ | |||
+ | '''Семинар 13:''' Множественная проверка гипотез. | ||
+ | * [Видео] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/seminars/Seminar_13.ipynb Ноутбук] | ||
+ | |||
+ | == Домашние задания == | ||
+ | |||
+ | Домашние задания представляют из себя python-ноутбук, где потребуется решить несколько теоретических задач, а также несколько задач с помощью программного кода. | ||
+ | |||
+ | Как сдавать ДЗ: Anytask TBD. | ||
==== ДЗ-1 ==== | ==== ДЗ-1 ==== | ||
− | + | ||
− | + | ДЗ-1 состоит из трех частей. Дедлайн по всему ДЗ 08 октября 2023 23:59. | |
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/homeworks/hw01/Homework_1_part_1.ipynb Часть 1] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/homeworks/hw01/Homework_1_part_2.ipynb Часть 2] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/homeworks/hw01/Homework_1_part_3.ipynb Часть 3] | ||
==== ДЗ-2 ==== | ==== ДЗ-2 ==== | ||
− | + | ДЗ-2 состоит из двух частей. Дедлайн по всему ДЗ 19 ноября 2023 23:59. | |
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/homeworks/hw02/Homework_2_part_1.ipynb Часть 1] | ||
+ | * [https://github.com/XuMuK1/psmo2023/blob/master/homeworks/hw02/Homework_2_part_2.ipynb Часть 2] | ||
==== ДЗ-3 ==== | ==== ДЗ-3 ==== | ||
− | + | ДЗ-3 состоит из одной части. Дедлайн по всему ДЗ 19 декабря 2023 23:59. | |
+ | * [https://github.com/XuMuK1/psmo2023/tree/master/homeworks/hw03 Часть 1] | ||
=== Квизы === | === Квизы === | ||
− | Квизы | + | Квизы — небольшие самостоятельные работы, проводятся периодически (раз в две-три недели) на семинаре. Выдаются в начале семинара на 10-15 минут. Оценка за квизы формируется как среднее по всем квизам. |
− | + | == Контрольная работа == | |
Контрольная работа является письменной формой контроля. В контрольную работу войдут задачи по темам примерно до Лекции 8. После недели 8 планируется неделя консультаций, затем неделя контрольной работы (на лекции) и потом продолжение лекций. Возможны изменения, связанные с расписанием и праздниками. | Контрольная работа является письменной формой контроля. В контрольную работу войдут задачи по темам примерно до Лекции 8. После недели 8 планируется неделя консультаций, затем неделя контрольной работы (на лекции) и потом продолжение лекций. Возможны изменения, связанные с расписанием и праздниками. | ||
− | + | == Экзамен == | |
Экзамен является устной формой контроля. В экзамен войдут теория и задачи по темам лекций и семинаров всего курса. | Экзамен является устной формой контроля. В экзамен войдут теория и задачи по темам лекций и семинаров всего курса. | ||
Строка 79: | Строка 187: | ||
Итоговая оценка за курс рассчитывается по следующей формуле: | Итоговая оценка за курс рассчитывается по следующей формуле: | ||
− | Итог = 0.7 * Накоп + 0.3 * Экз. | + | Итог = 0.7 * Накоп + 0.3 * максимум(Экз, минимум(7, Накоп)). |
В этой формуле | В этой формуле | ||
Строка 85: | Строка 193: | ||
0.7 * Накоп = 0.1 * Квиз + 0.3 * среднее(ДЗ1,ДЗ2,ДЗ3) + 0.3 * КР, | 0.7 * Накоп = 0.1 * Квиз + 0.3 * среднее(ДЗ1,ДЗ2,ДЗ3) + 0.3 * КР, | ||
− | <small>где | + | <small> где |
* Квиз – средняя оценка за все квизы. | * Квиз – средняя оценка за все квизы. | ||
* ДЗ1, ДЗ2, ДЗ3 – оценки за ДЗ1,ДЗ2 и ДЗ3 соответственно; avg -- среднее | * ДЗ1, ДЗ2, ДЗ3 – оценки за ДЗ1,ДЗ2 и ДЗ3 соответственно; avg -- среднее | ||
− | * КР – оценка за контрольную работу</small> | + | * КР – оценка за контрольную работу </small>. |
− | + | ||
− | + | ||
− | + | ||
==Литература== | ==Литература== |
Текущая версия на 17:48, 11 мая 2024
Содержание
О курсе
Курс читается для студентов 3-го курса в 1-2 модулях.
Лектор: Максим Каледин
Лекции проходят в пятницу, 9:30 – 10:50, R405.
Семинаристы: Антон Золотарёв, Дарья Демидова, Яна Хассан
Учебные ассистенты: Кирилл Королёв Артём Беляев, Валерия Кондратьева, Никита Горевой,
Семинары
(!) Сверяйтесь с вашим актуальным расписанием, возможны изменения.
Группа | Семинарист | Учебный ассистент | Время занятий | Аудитория/ссылка | Способ связи |
---|---|---|---|---|---|
БПМИ211 МОП | Антон Золотарёв | Артём Беляев | Пт, 18:10 – 9:30 | N508 | [ ТГ-чат] |
БПМИ212 МОП | Дарья Демидова | Кирилл Королев | Пт, 14:40 – 16:00 | D507 | [ТГ-чат] |
БПМИ213 МОП | Яна Хассан | Валерия Кондратьева | 14:40 – 16:00 | TBD | [ ТГ-чат] |
По выбору/онлайн | Антон Золотарёв | Никита Горевой | Пт, 18:10 – 9:30 | N508 | [ ТГ-чат] |
Полезные ссылки
Канал в Телеграме (для важных объявлений)
Общий чат в Телеграме для обсуждений/вопросов
Лекции
[8 сентября] Лекция 1: Метод максимального правдоподобия, свойства ММП-оценок, модель клиента магазина.
[15 сентября] Лекция 2: Теория информации, энтропия, KL-дивергенция.
[22 сентября] Лекция 3: Продолжение ММП, скрытые переменные, ЕМ-алгоритм.
[29 сентября] Лекция 4: Продолжение ЕМ-алгоритма, оценка фильтров, фильтр Калмана.
[6 октября] Лекция 5: Доверительные интервалы, проверка гипотез.
[13 октября] Лекция 6: Линейная регрессия, теорема Гаусса-Маркова.
[20 октября] Лекция 7: Линейная регрессия, предположения.
[10 ноября] Лекция 8: Линейная регрессия, нарушение предпосылок.
[17 ноября] Лекция 9: Квантильная регрессия.
[24 ноября] Лекция 10: Ранговые критерии.
[1 декабря] Лекция 11: АБ-тесты.
[8 декабря] Лекция 12: Расширение классической статистики.
[15 декабря] Лекция 13: Множественное тестирование.
- Видео
- [Конспект]
Семинары
Семинар 1: Метод максимального правдоподобия.
Семинар 2: Теория информации, энтропия.
Семинар 3: KL-дивергенция, EM-алгоритм.
Семинар 4: EM-алгоритм, продолжение.
Семинар 5: Доверительные интервалы, проверка гипотез.
Семинар 6: Линейная регрессия, МНК, F-тест.
Семинар 7: Теорема Гаусса-Маркова, нарушение ее предпосылок, свойства МНК-оценок.
Семинар 8: Эндогенность в регрессии и проверка предположений Гаусса-Маркова.
Семинар 9: Квантильная регрессия.
Семинар 10: Ранговые критерии.
Семинар 11: A-B тестирование.
Семинар 12: Бутстрэп.
Семинар 13: Множественная проверка гипотез.
- [Видео]
- Ноутбук
Домашние задания
Домашние задания представляют из себя python-ноутбук, где потребуется решить несколько теоретических задач, а также несколько задач с помощью программного кода.
Как сдавать ДЗ: Anytask TBD.
ДЗ-1
ДЗ-1 состоит из трех частей. Дедлайн по всему ДЗ 08 октября 2023 23:59.
ДЗ-2
ДЗ-2 состоит из двух частей. Дедлайн по всему ДЗ 19 ноября 2023 23:59.
ДЗ-3
ДЗ-3 состоит из одной части. Дедлайн по всему ДЗ 19 декабря 2023 23:59.
Квизы
Квизы — небольшие самостоятельные работы, проводятся периодически (раз в две-три недели) на семинаре. Выдаются в начале семинара на 10-15 минут. Оценка за квизы формируется как среднее по всем квизам.
Контрольная работа
Контрольная работа является письменной формой контроля. В контрольную работу войдут задачи по темам примерно до Лекции 8. После недели 8 планируется неделя консультаций, затем неделя контрольной работы (на лекции) и потом продолжение лекций. Возможны изменения, связанные с расписанием и праздниками.
Экзамен
Экзамен является устной формой контроля. В экзамен войдут теория и задачи по темам лекций и семинаров всего курса.
Подробный состав тем и процедура проведения будут объявлены в начале второго модуля.
TBD
Отчётность по курсу и критерии оценки
Итоговая оценка за курс
Итоговая оценка за курс рассчитывается по следующей формуле:
Итог = 0.7 * Накоп + 0.3 * максимум(Экз, минимум(7, Накоп)).
В этой формуле
0.7 * Накоп = 0.1 * Квиз + 0.3 * среднее(ДЗ1,ДЗ2,ДЗ3) + 0.3 * КР,
где
- Квиз – средняя оценка за все квизы.
- ДЗ1, ДЗ2, ДЗ3 – оценки за ДЗ1,ДЗ2 и ДЗ3 соответственно; avg -- среднее
- КР – оценка за контрольную работу .
Литература
Горяинова Е.Р., Панков А.Р., Платонов Е.Н. Прикладные методы анализа статистических данных – М.: Издательский дом Высшей школы экономики, 2012. (Очень много про непараметрические критерии со ссылками и деталями)
Wasserman L. All of Statistics: A Concise Course in Statistical Inference, Springer Science & Business Media, 2013 (в общем про "большую" статистику)
Чжун К.Л., АитСахлиа Ф. Элементарный курс теории вероятностей. Стохастические процессы и финансовая математика – М.: БИНОМ. Лаборатория знаний, 2014. (если интересно много простых примеров сложных понятий)
Лагутин М.Б. Наглядная математическая статистика – М.: БИНОМ Лаборатория знаний, 2015. (МНОГО МАТСТАТА, но наглядно)
Прочее
- Frederick Gravetter, Larry Wallnau. Statistics for the Behavioral Sciences – базовый курс с большим количеством картинок и подробных текстовых объяснений. Прекрасно подходит для быстрого повторения интуиции и основной методологии.
- David Williams. Weighing the Odds. A Course in Probability and Statistics – суровая книжка для самых смелых. Содержит все основные темы по теории вероятностей и статистике в рамках программы для технических специальностей. Сквозная идея книги – показать связь теории вероятностей и статистики с другими разделами математики, поэтому для каждого утверждения приводятся строгие и очень подробные доказательства. Сильно расширяет общематематический кругозор, содержит много нетривиальных утверждений.