ПМСАР-2
Содержание
О курсе
Преподаватель: Управителев Филипп Александрович, e-mail
Аннотация курса: В курсе рассматриваются основные задачи и методы работы с большими данными: операционализация идеи исследования в терминах необходимых данных, постановка задачи для анализа, сбор и подготовка данных, выбор методов и метрик, предложения по использованию результатов. Также слушатели курса познакомятся с основными приёмами анализа текстов. Курс построен в виде нескольких кейсов - сегментация аудитории с помощью методов машинного обучения, тематический анализ текстов отзывов методами NLP, прогнозирование оттока, анализ потребительской корзины и т.д.
Программа курса: https://www.hse.ru/ma/msa/courses/219871979.html
Правила выставления оценок
Итоговая оценка по дисциплине складывается из накопленных оценок за домашние задания. В ходе курса студенты могут получить 40 баллов за четыре домашних задания (по 10 за каждое). В том случае, если студент выполнял задания повышенной сложности, суммарная накопленная оценка может быть больше 40 баллов.
Для получения оценки по 10-ти балльной шкале сумма набранных баллов делится на 4 и округляется арифметически. Если из-за выполненных заданий повышенной сложности оценка оказалась выше 10 баллов, то выставляется оценка в 10 баллов. В случае, если домашнее задание сдано позже установленного срока (но не более чем на 7 дней), оценка снижается на 1 балл. В более поздние сроки задания не принимаются. Текущие домашние задания выдаются и принимаются по мере прохождения программы, последнее домашнее задание принимается не позднее, чем за неделю до начала сессии второго модуля.
Оценки за курс выставляются в течение сессии второго модуля.
Каналы взаимодействия со студентами
Все взаимодействие со студентами происходит в слаке https://pmsar2017da.slack.com, также в этом слаке предоставляются все материалы курса (презентации лекций, материалы к практическим занятиям, тексты статей или ссылки на онлайн-материалы).
Литература и интернет-ресурсы
- Borgelt, C. (2003, November). Efficient implementations of apriori and eclat. In FIMI’03: Proceedings of the IEEE ICDM workshop on frequent itemset mining implementations. https://www.researchgate.net/profile/Christian_Borgelt/publication/2873406_Efficient_Implementations_of_Apriori_and_Eclat/links/0deec5176acf1ee4cd000000.pdf
- Chen, D., Sain, S. L., & Guo, K. (2012). Data mining for the online retail industry: A case study of RFM model-based customer segmentation using data mining. Journal of Database Marketing & Customer Strategy Management, 19(3), 197-208. https://link.springer.com/article/10.1057/dbm.2012.17
- Churn Analysis – Part 1: Model Selection http://www.blog.rdata.lu/post/2018-01-04-churn-analysis/
- Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1, pp. 241-249). New York: Springer series in statistics. С. 119-127
- Introduction to arules package https://cran.r-project.org/web/packages/arules/vignettes/arules.pdf
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). New York: Springer. С. 302-332
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). New York: Springer. С. 59-92
- Milborrow, S. (2016). Plotting rpart trees with the rpart. plot package. http://www.milbo.org/doc/prp.pdf
- Therneau, T. M., & Atkinson, E. J. (1997). An introduction to recursive partitioning using the RPART routines. https://cran.r-project.org/web/packages/rpart/vignettes/longintro.pdf
- Topic modeling http://tidytextmining.com/topicmodeling.html
- Ultimate Guide to Unit Economics https://www.cleverism.com/ultimate-guide-unit-economics/
- Wadsworth, E. (2012). Buy’Til You Die-A Walkthrough. https://cran.r-project.org/web/packages/BTYD/vignettes/BTYD-walkthrough.pdf
- Ассоциативные правила, или пиво с подгузниками https://habr.com/company/ods/blog/353502/
- Воронцов К. В. Обзор вероятностных тематических моделей http://www.machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf
- Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей https://habrahabr.ru/company/ods/blog/322534/
- Открытый курс машинного обучения. Тема 6. Построение и отбор признаков https://habrahabr.ru/company/ods/blog/325422/