ПМСАР-1

Материал из Wiki - Факультет компьютерных наук
Версия от 09:42, 14 января 2019; Upravitelev (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

О курсе

Преподаватель: Управителев Филипп Александрович, e-mail

Аннотация курса: Курс направлен на знакомство с особенностями сбора и анализа больших данных в экономико-социологических исследованиях. Первая часть курса посвящена основам работы в среде R: элементы синтаксиса, объекты и структуры данных, манипуляции с данными, создание кодбуков (codebooks). Вторая часть курса посвящена импорту и препроцессингу данных из разных источников - файловые базы данных разных форматов (в том числе *.sav), удаленные базы данных. Отдельное внимание будет уделено парсингу данных с веб-страниц, работе с открытыми API, в том числе с API социальных сетей (в частности, Vkontakte). В третьей части курса будут рассмотрены методы и принципы визуализации данных (статичные и интерактивные графики), основы эксплораторного анализа и практики создания воспроизводимых отчетов.

Программа курса: https://www.hse.ru/ma/msa/courses/219872759.html

Правила выставления оценок

Итоговая оценка по дисциплине складывается из накопленных оценок за домашние задания. В ходе курса студенты могут получить 40 баллов за четыре домашних задания (по 10 за каждое). В том случае, если студент выполнял задания повышенной сложности, суммарная накопленная оценка может быть больше 40 баллов.

Для получения оценки по 10-ти балльной шкале сумма набранных баллов делится на 4 и округляется арифметически. Если из-за выполненных заданий повышенной сложности оценка оказалась выше 10 баллов, то выставляется оценка в 10 баллов. В случае, если домашнее задание сдано позже установленного срока (но не более чем на 7 дней), оценка снижается на 1 балл. В более поздние сроки задания не принимаются. Текущие домашние задания выдаются и принимаются по мере прохождения программы, последнее домашнее задание принимается не позднее, чем за неделю до начала сессии четвертого модуля.

Оценки за курс выставляются в течение сессии четвертого модуля.

Каналы взаимодействия со студентами

Все взаимодействие со студентами происходит в слаке https://pmsar2018da.slack.com, также в этом слаке предоставляются все материалы курса (презентации лекций, материалы к практическим занятиям, тексты статей или ссылки на онлайн-материалы).

Литература и интернет-ресурсы

   • A data.table R tutorial by DataCamp: intro to DT[i, j, by] https://www.datacamp.com/community/tutorials/data-table-r-tutorial#gs.xKK3HNU
   • Advanced tips and tricks with data.table http://brooksandrew.github.io/simpleblog/articles/advanced-data-table/
   • An Introduction to R https://cran.r-project.org/doc/manuals/r-release/R-intro.html
   • Analyze Facebook with R http://thinktostart.com/analyzing-facebook-with-r/
   • API Tutorial for Beginners https://blog.cloudrail.com/api-tutorial-for-beginners/
   • Cheat Sheet Data.table https://s3.amazonaws.com/assets.datacamp.com/blog_assets/datatable_Cheat_Sheet_R.pdf
   • Clear Off the Table http://www.darkhorseanalytics.com/blog/clear-off-the-table/
   • Data Driven Documents (d3.js documentation) https://github.com/d3/d3/wiki
   • Data Guidelines https://f1000research.com/for-authors/data-guidelines
   • Data Import Cheat Sheet https://github.com/rstudio/cheatsheets/raw/master/source/pdfs/data-import-cheatsheet.pdf
   • Data looks better naked http://www.darkhorseanalytics.com/blog/data-looks-better-naked
   • Data.table Reference semantics https://cran.r-project.org/web/packages/data.table/vignettes/datatable-reference-semantics.html
   • Facebook Graph API documentation https://developers.facebook.com/docs/graph-api/
   • ggplot2 cheatsheet https://www.rstudio.com/wp-content/uploads/2015/03/ggplot2-cheatsheet.pdf
   • Hadley Wickham, A Layered Grammar of Graphics http://byrneslab.net/classes/biol607/readings/wickham_layered-grammar.pdf
   • Hadley Wickham, Advanced R (part Foundations) http://adv-r.had.co.nz/
   • HTTP request methods https://developer.mozilla.org/en-US/docs/Web/HTTP/Methods
   • Package “Rfacebook” https://cran.r-project.org/web/packages/Rfacebook/Rfacebook.pdf
   • Package “vkR” https://cran.r-project.org/web/packages/vkR/vkR.pdf
   • Peng Roger D. R Programming for Data Science, part History and Overview of R https://bookdown.org/rdpeng/rprogdatascience/history-and-overview-of-r.html
   • Principles of Information Display for Visualization Practitioners http://www2.cs.uregina.ca/~rbm/cs100/notes/spreadsheets/tufte_paper.html
   • R Data Import/Export https://cran.r-project.org/doc/manuals/r-release/R-data.html
   • R Language Definition https://cran.r-project.org/doc/manuals/r-release/R-lang.html
   • R Markdown http://rmarkdown.rstudio.com/
   • The plotly cookbook https://plotly-book.cpsievert.me/the-plotly-cookbook.html
   • This R Data Import Tutorial Is Everything You Need part I https://www.datacamp.com/community/tutorials/r-data-import-tutorial/#gs.WdNbNT0
   • This R Data Import Tutorial Is Everything You Need part II https://www.datacamp.com/community/tutorials/importing-data-r-part-two#gs.EODdys8
   • VK API documentation https://vk.com/dev/manuals
   • Web Scraping and Parsing Data in R https://www.datacamp.com/community/tutorials/exploring-h-1b-data-with-r#gs.qBLAbWo
   • Краткое руководство по XPath http://soltau.ru/index.php/themes/dev/item/413-kratkoe-rukovodstvo-po-xpath
   • Мастицкий С.Э., Шитиков В.К. (2014) Статистический анализ и визуализация данных с помощью R. – Электронная книга, адрес доступа: http://r-analytics.blogspot.com С.97-123
   • Пакет rvest: easy web scraping with R https://blog.rstudio.com/2014/11/24/rvest-easy-web-scraping-with-r/
   • Подбор правильных цветовых палитр для визуализации данных https://infogra.ru/infographics/podbor-pravilnyh-tsvetovyh-palitr-dlya-vizualizatsii-dannyh
   • Руководство по data.table https://bookdown.org/statist_/DataTableManual/
   • Справочник функций и команд SQL https://www.w3schools.com/sql/
   • Тренировочные задания и учебники по SQL http://www.sql-ex.ru/