Statistics 4mr 2021-22 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 147: Строка 147:
 
* Выводим границу для LDA.
 
* Выводим границу для LDA.
 
* Хорошие слайды Jia Li: [http://personal.psu.edu/jol2/course/stat597e/notes2/lda.pdf lda, qda], [http://personal.psu.edu/jol2/course/stat597e/notes2/mda.pdf mda]
 
* Хорошие слайды Jia Li: [http://personal.psu.edu/jol2/course/stat597e/notes2/lda.pdf lda, qda], [http://personal.psu.edu/jol2/course/stat597e/notes2/mda.pdf mda]
* LDA для снижения размерности [https://sebastianraschka.com/Articles/2014_python_lda.html lda bit by bit]
+
* LDA для снижения размерности [https://sebastianraschka.com/Articles/2014_python_lda.html lda bit by bit], [https://www.sjsu.edu/faculty/guangliang.chen/Math253S20/lec11lda.pdf Lecture by Chen]
  
 
==== Лекция 3. Логит ====
 
==== Лекция 3. Логит ====

Версия 21:49, 28 апреля 2022

О курсе

Youtube-канал с лекциями

Оценивание

UoL = Экзамен * 0.7 + Письменная (или курсовая) работа * 0.3

Итоговая оценка = Экзамен * 0.5 + 0.3 * Контрольная работа + 0.2 * Домашняя работа

Module 1

(1 lecture + 1 class per group X 7 weeks)

  • Bootstrap
  • Welch test
  • Mann-Whitney test
  • CUPED
  • Difference in Difference estimator
  • Matching
  • Multiple comparison corrections

Module 2

(1 lecture + 1 class per group X 8 weeks)

  • Sampling
  • Sample size calculation
  • Contingency tables, Chi-squared tests
  • ANOVA, ANCOVA
  • Partial correlation

Module 3

(1 lecture + 1 class per group X 11 weeks)

  • Discriminant analysis
  • Logit
  • PCA
  • Factor analysis
  • Cluster analysis, Dendrogramms
  • Conjoint Analysis
  • Multidimensional scaling

Литература

Вспоминаем тервер и матстат

Книжки попроще

  • Frederick Gravetter, Larry Wallnau. Statistics for the Behavioral Sciences
  • Феллер В. Введение в теорию вероятностей и её приложения

Посложнее

  • Larry Wasserman. All of Statistics: A Concise Course in Statistical Inference
  • David Williams. Weighing the Odds. A Course in Probability and Statistics
  • Ширяев А.Н. Вероятность - 1 .

Советы от UoL

  • Malhotra, N.K. D.F. Birks and P.A. Wills Marketing Research, Pearson, fourth edition

Боевой листок: семестр I

Лекция 1. Наивный bootstrap, bootstrap t-статистики, bootstrap в bootstrap

Запись лекции

Полезно почитать:

Тетрадка с семинара:

Лекция 2. Дикий bootstrap, парный bootstrap, пуассоновский bootstrap

Запись лекции

Полезно почитать:

Тетрадка с семинара:

Лекция 3. Ещё немного про бутстрэп, тест Уэлча

Запись лекции

Тетрадка с семинара:

Лекция 4. Манн Уитни, CUPED

Запись лекции

Полезно почитать:

Тетрадка с семинара:

Лекция 5. CUPED, DND

Запись лекции

Тетрадка с семинара:

Лекция 6. Мэтчинг

Запись лекции

Тетрадка с семинара:

Лекция 7. Поправка Бонферрони

Запись лекции

Тетрадка с семинара:

Лекция 8. Sampling

Запись лекции

Тетрадка с семинара:

Лекция 9. Стратификация, вычисление размера выборки

Запись лекции

Тетрадка с семинара:

Лекция 10. MDE

Запись лекции

Слайды от Mary Lindstrom, Intro to biostat

Лекция 11. Anova - 1

Запись лекции

Лекция 12. Anova - 2

Запись лекции

Лекция 13. Последняя...

Запись лекции

Боевой листок: семестр II

Лекция 1. Таблицы сопряженности

  • Стандарт: LR тест.
  • Историческая ценность: хи-квадрат критерий Пирсона.
  • Тест на независимость.

Лекция 2. Дискриминантный анализ

  • Дискриминантный анализ — генеративная модель: f(y, x).
  • LDA, QDA, MDA.
  • Выводим границу для LDA.
  • Хорошие слайды Jia Li: lda, qda, mda
  • LDA для снижения размерности lda bit by bit, Lecture by Chen

Лекция 3. Логит

  • Логит — дискриминирующая модель: f(y|x). В отличие от дискриминантного анализа :)
  • F' = F(1-F)
  • При кодировке 0/1 сумма прогнозных вероятностей равна количеству 1.
  • Проблема совершенной разделимости.

Полезные источники в перемешку

General AB:

Bootstrap:

Робастные ошибки в регрессии:

CUPED + CUPAC:

Оригинальная статья, на CUPED можно смотреть как на две подряд применённых регрессии :)

Де-факто: признак генерируется любым алгоритмом машинного обучения, затем множественная регрессия с кластер-робастными стандартными ошибками.


Linearization + Delta-method:


Эффекты воздействия:

  • Рубен Ениколопоп, Эффекты воздействия. Мэтчинг, propensity score.
  • Matheus Facure, Causal inference for Brave and True. Инструментальные переменные, мэтчинг, RDD и прочие попытки выяснить причинно-следственные связи на неэкспериментальных данных. С мемасиками и в питоне.