Анализ данных в R, Социология

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Данный курс предназначен для первого знакомства с языком программирования R и интерфейсом и возможностями сопутствующей свободной среды разработки RStudio. Дисциплина охватывает их использование на нескольких стадиях анализа данных - от сбора и обработки информации до обучения модели на полученных материалах. В курсе большое внимание уделено визуализации данных и работе с данными в интернете. Освоение такого инструмента как язык программирования R будет полезен не только профильным специалистам, но и тем, кто хочет расширить своё понимание о статистике и типах научной обработки информации.

Вся информация на этой странице, в более полном объёме представлена на GitHub репозитории курса: R и с чем его едят Данная wiki-страница носит ознакомительный характер и не содержит информации касательно дат и тем актуальных домашних заданий или контрольных мероприятий. Во время прохождения курса убедительно просим студентов пользоваться предоставленной выше ссылкой на репозиторий на GitHub.

Преподаватели и ассистенты

Зарманбетов Ахмед (лектор и семинарист)
vk
Telegram – @ahmedushka7
Номер телефона – +7(961)146-70-23
Мидюкин Максим (семинарист)
vk
Telegram – @midiukin
Номер телефона – +7(926)932-58-23
Солонович Ника (учебный ассистент)
vk
Telegram – @parvett
Номер телефона – +7(999)907-21-55

Программа учебной дисциплины

Программа учебной дисциплины представлена на сайте бакалаврской программы "Социология", найти её можно тут.
Планируется освоение студентами следующих подразделов:

  • Введение в R, IDE, RStudio. Работа с консолью
  • Основы программирования, циклы, функции, рекурсия и базовые алгоритмы
  • RMarkdown и LaTeX. Оформление документов
  • Данные. Pipeline анализа данных. Типы переменных. Data Frame. List
  • Импорт данных из файлов и интернета. Импорт файлов формата .csv, .txt., .xlsx и других
  • Работа с данными. Очистка и преобразование. Работа с несколькими фреймами данных
  • Работа со специфическими типами переменных
  • Визуализация данных с помощью пакетов ggplot2 и plotly
  • Импорт данных из интернета. Принципы работы с API. Скраппинг html страниц. Пакет RSelenium.
  • Введение в статистику и модель линейной регрессии
  • Задача кластеризации.K-means. Агломеративная кластеризация.

Задачи учебной работы

Лекции

В рамках курса будет прочитано 6 лекций. Презентации ко всем ним будут размещены в репозитории на GitHub по мере освоения студентами материала.

  1. Знакомство с R и средой RStudio. Интерфейс RStudio и возможности реализации её функций через Jupyter. Переменные и их типы. Условные конструкции. Простейшие циклы.
  2. Трансформации данных в R. Пакет функций dplyr
  3. Трансформации данных в R. Пакет функций tidyr
  4. Парсинг данных в R
  5. Регрессионные модели в R: линейная, логистическая, мультилогистическая. Коэффициенты регрессии и доверительный интервал. Интерпретация модели.
  6. Кластеризация, факторный анализ, PCA, t-SNE, метод k-ближайших соседей, A/B-тестирование

Семинары

На семинарах студентами будет осуществляться практическая работа. Все конспекты семинаров(скрипты в R) представлены на странице курса в репозитории на GitHub. Для успешного освоения материала курса и в случае пропуска студентом того или иного семинарского задания рекомендуется отрабатывать методы, которые проходятся на занятиях, дома. Задания для отработки так же представлены на GitHub под грифом Условия заданий для отработки.

Домашние задания

Домашние задания нужны для того, чтобы закрепить материл, полученный студентами на занятиях. Они делятся на проверяемые - практические работы, и не проверяемые - теоретические. R очень сложен в изучении для тех, у кого это первый язык программирования, а потому на первых порах нужна постоянная практика его использования. Условия заданий для отработки, представленные на странице нашего курса на GitHub не будут оцениваться преподавателями, тем не менее их стоит самостоятельно прорешивать. Похожие задания могут попасть в семестровую контрольную работу.

Практические домашние задания будут учитываться в формуле оценки с коэффициентом 0,15. Они будут объёмнее, нежели те задания, что даются после каждого семинара на домашнее изучение. Состав этих домашних заданий и их дедлайны так же будут публиковаться на странице курса на GitHub в актуальном разделе Контрольные мероприятия.

Формы контроля и формула оценивания

В течении семестра студентам предстоит одно формальное контрольное мероприятие и три домашних задания. Таким образом, формула оценки складывается из этих четырёх компонентов и финального экзамена по всему курсу.

Точная оценка будет высчитываться следующим образом: Оценка за курс = round(0.15 ДЗ1 + 0.15 ДЗ2 + 0.15 ДЗ3 + 0.1Посещение + 0.2 КР + 0.3 ЭКЗ)

Материалы курса

Материалы курса в полном объёме представлены на GitHub репозитории курса под заголовком: Datacamp, онлайн курсы и почиташки. В этот раздел входит информация об онлайн-курсах для дальнейшего или параллельного освоения R, в том числе курсы, реализуемые на русском языке, предоставленные платформами Coursera и Stepik. Ознакомление с литературными источниками в ходе нашей работы так же приветствуется. Помимо ссылок, представленных на GitHub, актуальна так же литература из ПУДа по данному предмету:

  • Wickham, H., & Grolemund, G. (2016). R for Data Science : Import, Tidy, Transform, Visualize, and Model Data (Vol. First edition). Sebastopol, CA: Reilly - O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1440131
  • Роберт И., Кабаков — R в действии. Анализ и визуализация данных в программе R - Издательство "ДМК Пресс" - 2014 - ISBN: 978-5-97060-077-1 - Текст электронный // ЭБС Лань - URL: https://e.lanbook.com/book/58703