Statistics 4mr 2021-22 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(лекция 6)
 
(не показано 29 промежуточных версии 2 участников)
Строка 8: Строка 8:
 
Итоговая оценка = Экзамен * 0.5 + 0.3 * Контрольная работа + 0.2 * Домашняя работа  
 
Итоговая оценка = Экзамен * 0.5 + 0.3 * Контрольная работа + 0.2 * Домашняя работа  
  
 +
==== Module 1 ====
 +
(1 lecture + 1 class per group X 7 weeks)
  
Program:
+
* Bootstrap
 +
* Welch test
 +
* Mann-Whitney test
 +
* CUPED
 +
* Difference in Difference estimator
 +
* Matching
 +
* Multiple comparison corrections
  
1) Bootstrap
+
==== Module 2 ====
 +
(1 lecture + 1 class per group X 8 weeks)
 +
* Sampling
 +
* Sample size calculation
 +
* Contingency tables, Chi-squared tests
 +
* ANOVA, ANCOVA
 +
* Partial correlation
  
2) A/B testing. Two-sample tests for Equal Means
+
==== Module 3 ====
 
+
(1 lecture + 1 class per group X 11 weeks)
3) Difference in differences. Matching
+
* Discriminant analysis
 
+
* Logit
4) Sampling. Determining sample size
+
* PCA
 
+
* Factor analysis
5) Cross-tabulation and hypothesis testing: Chi-squared test of association, Cross-tabulation statistics
+
* Cluster analysis, Dendrogramms
 
+
* Conjoint Analysis
6) Analysis of variance and covariance: ANOVA, ANCOVA
+
* Multidimensional scaling
 
+
7) Correlation and regression
+
 
+
8) Discriminant analysis
+
 
+
9) Logit analysis
+
 
+
10) Factor analysis. Principal Component Analysis
+
 
+
11) Cluster analysis
+
 
+
12) Conjoint analysis
+
 
+
13) Multidimensional scaling
+
  
 
== Литература ==
 
== Литература ==
Строка 53: Строка 53:
 
* '''Malhotra, N.K. D.F. Birks and P.A. Wills Marketing Research, Pearson, fourth edition'''
 
* '''Malhotra, N.K. D.F. Birks and P.A. Wills Marketing Research, Pearson, fourth edition'''
  
== Материалы ==
+
== Боевой листок: семестр I ==
 
==== Лекция 1. Наивный bootstrap, bootstrap t-статистики, bootstrap в bootstrap ====
 
==== Лекция 1. Наивный bootstrap, bootstrap t-статистики, bootstrap в bootstrap ====
 
[https://www.youtube.com/watch?v=wIPq_OoYcjc Запись лекции]
 
[https://www.youtube.com/watch?v=wIPq_OoYcjc Запись лекции]
  
 
Полезно почитать:
 
Полезно почитать:
* [https://arxiv.org/abs/1411.5279 Tim Hestenberg, What teachers should know about the bootstrap]
+
* Tim Hestenberg, [https://arxiv.org/abs/1411.5279 What teachers should know about the bootstrap]
* [https://people.eecs.berkeley.edu/~jordan/sail/readings/edgeworth.pdf Если хотите теорию и доказательства]
+
* [https://people.eecs.berkeley.edu/~jordan/sail/readings/edgeworth.pdf Edgeworth expansion]
 
Тетрадка с семинара:  
 
Тетрадка с семинара:  
 
* [https://github.com/xenakas/stat4mr_2021/tree/main/seminar1 bootstrap_part1]
 
* [https://github.com/xenakas/stat4mr_2021/tree/main/seminar1 bootstrap_part1]
Строка 67: Строка 67:
  
 
Полезно почитать:
 
Полезно почитать:
* [https://core.ac.uk/download/pdf/6494253.pdf James MacKinnon, Bootstrap Methods in Econometrics (про дикий и парный бутстрэп)]
+
* James MacKinnon, [https://core.ac.uk/download/pdf/6494253.pdf Bootstrap Methods in Econometrics (про дикий и парный бутстрэп)]
* [https://www.unofficialgoogledatascience.com/2015/08/an-introduction-to-poisson-bootstrap26.html Про пуассоновский бутстрэп]
+
* [https://www.unofficialgoogledatascience.com/2015/08/an-introduction-to-poisson-bootstrap26.html Poisson bootstrap]
  
 
Тетрадка с семинара:  
 
Тетрадка с семинара:  
Строка 83: Строка 83:
  
 
Полезно почитать:
 
Полезно почитать:
* [https://exp-platform.com/Documents/2013-02-CUPED-ImprovingSensitivityOfControlledExperiments.pdf Improving the Sensitivity of Online Controlled Experimentsby Utilizing Pre-Experiment Data]
+
* Deng, [https://exp-platform.com/Documents/2013-02-CUPED-ImprovingSensitivityOfControlledExperiments.pdf Improving the Sensitivity of Online Experiments]
* [https://booking.ai/how-booking-com-increases-the-power-of-online-experiments-with-cuped-995d186fff1d Про классное применение парной регресси]
+
* Victor Lei, [https://booking.ai/how-booking-com-increases-the-power-of-online-experiments-with-cuped-995d186fff1d How booking increases power with CUPED]
  
 
Тетрадка с семинара:
 
Тетрадка с семинара:
Строка 91: Строка 91:
 
==== Лекция 5. CUPED, DND ====
 
==== Лекция 5. CUPED, DND ====
 
[https://youtu.be/saeAPdTTfTM Запись лекции]
 
[https://youtu.be/saeAPdTTfTM Запись лекции]
 +
 +
Тетрадка с семинара:
 +
* [https://github.com/xenakas/stat4mr_2021/tree/main/seminar5_cuped cuped]
  
 
==== Лекция 6. Мэтчинг ====
 
==== Лекция 6. Мэтчинг ====
 
[https://youtu.be/BQt-YZtknG4 Запись лекции]
 
[https://youtu.be/BQt-YZtknG4 Запись лекции]
 +
 +
Тетрадка с семинара:
 +
* [https://github.com/xenakas/stat4mr_2021/tree/main/seminar6_did matching]
 +
 +
==== Лекция 7. Поправка Бонферрони ====
 +
[https://youtu.be/NNT4cVwZdmo Запись лекции]
 +
 +
Тетрадка с семинара:
 +
* [https://github.com/xenakas/stat4mr_2021/tree/main/seminar7_matching_bonferroni matching & bonferroni]
 +
 +
==== Лекция 8. Sampling ====
 +
[https://youtu.be/ti9Tg8O-dhc Запись лекции]
 +
 +
Тетрадка с семинара:
 +
* [https://github.com/xenakas/stat4mr_2021/tree/main/seminar8_sampling sampling]
 +
 +
==== Лекция 9. Стратификация, вычисление размера выборки ====
 +
[https://youtu.be/en93OWTQRnU Запись лекции]
 +
 +
Тетрадка с семинара:
 +
* [https://github.com/xenakas/stat4mr_2021/tree/main/seminar9_sample_size sample_size]
 +
 +
==== Лекция 10. MDE ====
 +
[https://youtu.be/sufwhXz-0Co Запись лекции]
 +
 +
[https://www.biostat.wisc.edu/~lindstro/13.sample.size.10.20.pdf Слайды от Mary Lindstrom, Intro to biostat]
 +
 +
==== Лекция 11. Anova - 1 ====
 +
[https://youtu.be/A_IFVLzqpts Запись лекции]
 +
 +
==== Лекция 12. Anova - 2 ====
 +
[https://youtu.be/Xh-fyCyQzdw Запись лекции]
 +
 +
==== Лекция 13. Последняя... ====
 +
[https://youtu.be/8eblxgclX6c Запись лекции]
 +
 +
== Боевой листок: семестр II ==
 +
 +
==== Лекция 1. Таблицы сопряженности ====
 +
 +
* Стандарт: LR тест.
 +
* Историческая ценность: хи-квадрат критерий Пирсона.
 +
* Тест на независимость.
 +
 +
==== Лекция 2. Дискриминантный анализ ====
 +
 +
* Дискриминантный анализ — генеративная модель: f(y, x).
 +
* LDA, QDA, MDA.
 +
* Выводим границу для LDA.
 +
* Хорошие слайды Jia Li: [http://personal.psu.edu/jol2/course/stat597e/notes2/lda.pdf lda, qda], [http://personal.psu.edu/jol2/course/stat597e/notes2/mda.pdf mda]
 +
* LDA для снижения размерности [https://sebastianraschka.com/Articles/2014_python_lda.html lda bit by bit], [https://www.sjsu.edu/faculty/guangliang.chen/Math253S20/lec11lda.pdf Lecture by Chen], [https://sites.stat.washington.edu/wxs/Stat592-w2011/Slides/cancorr-notes.pdf Link to Canonical correlation]
 +
 +
==== Лекция 3. Логит ====
 +
 +
* Логит — дискриминирующая модель: f(y|x). В отличие от дискриминантного анализа :)
 +
* F' = F(1-F)
 +
* При кодировке 0/1 сумма прогнозных вероятностей равна количеству 1.
 +
* Проблема совершенной разделимости.
 +
 +
== Полезные источники в перемешку ==
 +
 +
General AB:
 +
 +
* [https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f VK practitioner guide]
 +
* Deng, [https://alexdeng.github.io/public/files/wsdm2017-rup.pdf Trustworthy analysis of online A/B tests: Pitfalls, challenges and solutions]
 +
* Deng, [https://alexdeng.github.io/ webpage]
 +
* Stats SE, [https://stats.stackexchange.com/questions/398436/a-b-testing-ratio-of-sums AB testing for ratio of sums]
 +
* [https://towardsdatascience.com/a-b-testing-a-complete-guide-to-statistical-testing-e3f1db140499 Guide to AB]. Тесты для таблиц сопряжённости, Welch test, Mann-Whitney.
 +
 +
Bootstrap:
 +
 +
* Tim Hestenberg, [https://arxiv.org/abs/1411.5279 What teachers should know about the bootstrap]. Лучшее первое знакомство с бутстрэпом. Если есть время на один источник по бутстрэпу, то это то, что нужно.
 +
* [https://people.eecs.berkeley.edu/~jordan/sail/readings/edgeworth.pdf Edgeworth expansion]. Большая книжка с брутальной теорией, преобразованиями Фурье, доказательствами и картинкой с матрёшками.
 +
* James MacKinnon, [https://core.ac.uk/download/pdf/6494253.pdf Bootstrap Methods in Econometrics (про дикий и парный бутстрэп)]
 +
* [https://www.unofficialgoogledatascience.com/2015/08/an-introduction-to-poisson-bootstrap26.html Poisson bootstrap]
 +
* [https://arxiv.org/abs/1304.7406 Evaluation of Bootstrap Methods]
 +
 +
Робастные ошибки в регрессии:
 +
 +
* James Mackinnon, [https://www.researchgate.net/publication/254447243_Thirty_Years_of_Heteroskedasticity-Robust_Inference 30 years of robust inference]
 +
 +
CUPED + CUPAC:
 +
 +
* Deng, [https://exp-platform.com/Documents/2013-02-CUPED-ImprovingSensitivityOfControlledExperiments.pdf Improving the Sensitivity of Online Experiments, CUPED]
 +
Оригинальная статья, на CUPED можно смотреть как на две подряд применённых регрессии :)
 +
* Victor Lei, [https://booking.ai/how-booking-com-increases-the-power-of-online-experiments-with-cuped-995d186fff1d How booking increases power with CUPED]
 +
* [https://www.researchgate.net/publication/345698207_Control_Using_Predictions_as_Covariates_in_Switchback_Experiments CUPAC]
 +
Де-факто: признак генерируется любым алгоритмом машинного обучения, затем множественная регрессия с кластер-робастными стандартными ошибками.
 +
 +
 +
Linearization + Delta-method:
 +
 +
* [https://dl.acm.org/doi/10.1145/3159652.3159699 Transformation of Ratio Metrics]
 +
* [https://www.stat.cmu.edu/~hseltman/files/ratio.pdf Approximate E, Var for ratio]
 +
* Deng, [https://arxiv.org/abs/1803.06336 Applying delta method:] practical guide with novel ideas
 +
 +
 +
Эффекты воздействия:
 +
 +
* Рубен Ениколопоп, [http://quantile.ru/06/06-RE.pdf Эффекты воздействия]. Мэтчинг, propensity score.
 +
* Matheus Facure, [https://matheusfacure.github.io/python-causality-handbook/landing-page.html Causal inference for Brave and True]. Инструментальные переменные, мэтчинг, RDD и прочие попытки выяснить причинно-следственные связи на неэкспериментальных данных. С мемасиками и в питоне.

Текущая версия на 21:58, 28 апреля 2022

О курсе

Youtube-канал с лекциями

Оценивание

UoL = Экзамен * 0.7 + Письменная (или курсовая) работа * 0.3

Итоговая оценка = Экзамен * 0.5 + 0.3 * Контрольная работа + 0.2 * Домашняя работа

Module 1

(1 lecture + 1 class per group X 7 weeks)

  • Bootstrap
  • Welch test
  • Mann-Whitney test
  • CUPED
  • Difference in Difference estimator
  • Matching
  • Multiple comparison corrections

Module 2

(1 lecture + 1 class per group X 8 weeks)

  • Sampling
  • Sample size calculation
  • Contingency tables, Chi-squared tests
  • ANOVA, ANCOVA
  • Partial correlation

Module 3

(1 lecture + 1 class per group X 11 weeks)

  • Discriminant analysis
  • Logit
  • PCA
  • Factor analysis
  • Cluster analysis, Dendrogramms
  • Conjoint Analysis
  • Multidimensional scaling

Литература

Вспоминаем тервер и матстат

Книжки попроще

  • Frederick Gravetter, Larry Wallnau. Statistics for the Behavioral Sciences
  • Феллер В. Введение в теорию вероятностей и её приложения

Посложнее

  • Larry Wasserman. All of Statistics: A Concise Course in Statistical Inference
  • David Williams. Weighing the Odds. A Course in Probability and Statistics
  • Ширяев А.Н. Вероятность - 1 .

Советы от UoL

  • Malhotra, N.K. D.F. Birks and P.A. Wills Marketing Research, Pearson, fourth edition

Боевой листок: семестр I

Лекция 1. Наивный bootstrap, bootstrap t-статистики, bootstrap в bootstrap

Запись лекции

Полезно почитать:

Тетрадка с семинара:

Лекция 2. Дикий bootstrap, парный bootstrap, пуассоновский bootstrap

Запись лекции

Полезно почитать:

Тетрадка с семинара:

Лекция 3. Ещё немного про бутстрэп, тест Уэлча

Запись лекции

Тетрадка с семинара:

Лекция 4. Манн Уитни, CUPED

Запись лекции

Полезно почитать:

Тетрадка с семинара:

Лекция 5. CUPED, DND

Запись лекции

Тетрадка с семинара:

Лекция 6. Мэтчинг

Запись лекции

Тетрадка с семинара:

Лекция 7. Поправка Бонферрони

Запись лекции

Тетрадка с семинара:

Лекция 8. Sampling

Запись лекции

Тетрадка с семинара:

Лекция 9. Стратификация, вычисление размера выборки

Запись лекции

Тетрадка с семинара:

Лекция 10. MDE

Запись лекции

Слайды от Mary Lindstrom, Intro to biostat

Лекция 11. Anova - 1

Запись лекции

Лекция 12. Anova - 2

Запись лекции

Лекция 13. Последняя...

Запись лекции

Боевой листок: семестр II

Лекция 1. Таблицы сопряженности

  • Стандарт: LR тест.
  • Историческая ценность: хи-квадрат критерий Пирсона.
  • Тест на независимость.

Лекция 2. Дискриминантный анализ

Лекция 3. Логит

  • Логит — дискриминирующая модель: f(y|x). В отличие от дискриминантного анализа :)
  • F' = F(1-F)
  • При кодировке 0/1 сумма прогнозных вероятностей равна количеству 1.
  • Проблема совершенной разделимости.

Полезные источники в перемешку

General AB:

Bootstrap:

Робастные ошибки в регрессии:

CUPED + CUPAC:

Оригинальная статья, на CUPED можно смотреть как на две подряд применённых регрессии :)

Де-факто: признак генерируется любым алгоритмом машинного обучения, затем множественная регрессия с кластер-робастными стандартными ошибками.


Linearization + Delta-method:


Эффекты воздействия:

  • Рубен Ениколопоп, Эффекты воздействия. Мэтчинг, propensity score.
  • Matheus Facure, Causal inference for Brave and True. Инструментальные переменные, мэтчинг, RDD и прочие попытки выяснить причинно-следственные связи на неэкспериментальных данных. С мемасиками и в питоне.