Анализ данных 2022 (ОП "Журналистика" и "Медиакоммуникации")

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Дисциплина читается для студентов 2-го курса ОП "Журналистика" и "Медиакоммуникации" ФКМД ВШЭ в 1-2 модулях 2022/2023 уч. г.

Данный курс представляет собой адаптацию общеуниверситетского курса по анализу данных специально для студентов образовательных программ факультета коммуникаций, медиа и дизайна и направлен на формирование компетенций в области статистики и анализа данных. В курсе будут рассмотрены темы, которые необходимы для успешного освоения основных понятий и методов, связанных с анализом данных. Также будут рассмотрены темы, связанные с сетевым анализом и основы машинного обучения.

ПУД курса "Анализ данных" и ПУД "Независимого экзамена по анализу данных" на ОП "Журналистика"

ПУД курса "Анализ данных" и ПУД "Независимого экзамена по анализу данных" на ОП "Медиакоммуникации"

Необходимые ссылки

Дисциплина реализуется с помощью «Учебника по анализу данных (начальный)» и направлена на формирование компетенций в области статистики и анализа данных, которые будет оцениваться на Независимом экзамене (НЭ).

Из чего состоит НЭ можно прочитать в Спецификации, а также посмотреть Демонстрационный вариант НЭ.

Порядок организации Независимых экзаменов по Цифровым компетенциям подробно описан в Приложении 17 к ПОПАТКУСу

Репозиторий с материалами курса на гитхабе Анастасии Алексеевны Паршиной

Команда курса

Группа Преподаватель Контакты Ассистент Контакты
БЖУР211 Перевышина Татьяна Олеговна @prvshna Софья Шандыбина @esthesuntik
БЖУР212 Перевышина Татьяна Олеговна @prvshna
БЖУР213 Аброскин Илья Дмитриевич @iiiiilllllyyyyyaaaa
БЖУР214 Довгополый Иоанн Алексеевич @TriariiMisha Лика Капустина @lika_kapustina
БЖУР215 чат группы Паршина Анастасия Алексеевна @aaparshina Жданова Мария @avonadz
БМД211 чат группы Степановских Кирилл Олегович @kir_stepanovskikh Соколова Ирина @irsklv
БМД212 чат группы Степановских Кирилл Олегович @kir_stepanovskikh Яковлева Паулина @paulinebakst
БМД213 Волкова Анастасия Эдуардовна @vol_anastasia
БМД214 Волкова Анастасия Эдуардовна @vol_anastasia
БМД215 чат группы Степановских Кирилл Олегович @kir_stepanovskikh Киберча Анастасия @Saranast
БМД216 Аброскин Илья Дмитриевич @iiiiilllllyyyyyaaaa Алкаев Владислав @Avonna
БМД217 Аброскин Илья Дмитриевич @iiiiilllllyyyyyaaaa
БМД218 Перевышина Татьяна Олеговна @prvshna Анна Заремба @anazaremba

Материалы курса

Лекции

  1. Организация курса - презентация
  2. Как выглядит образцовый проект - кодбук, запись
  3. Разбор демонстрационного вариант НЭ - здесь скоро будет ссылка на запись

Семинары

Тема занятия Задание к занятию Материалы занятия
1 Модуль Pandas и NumPy
  • Установить дистрибутив Anaconda
  • Вспомнить базовый Python
  • Посмотреть тему 1 в онлайн-курсе

Семинар 1

Задачи 1

Решения 1

2 Фильтрация и сортировка данных в Pandas
  • Посмотреть тему 2 в онлайн-курсе

Семинар 2

Задачи 2

Решения 2

3 Типы данных. Создание новых переменных
  • Посмотреть тему 3 в онлайн-курсе
  • Подготовиться к разбору заданий из темы 3

Задачи 3

Решения 3

4 Генеральная совокупность и выборка. Частотные таблицы и распределения
  • Посмотреть тему 4 в онлайн-курсе
  • Подготовиться к опросу по содержанию темы 4
  • Подготовиться к разбору заданий из темы 4

Семинар 4

Задачи 4

Решения 4

5 Описательные статистики: меры центральной тенденции и разброса
  • Посмотреть тему 5 в онлайн-курсе
  • Подготовиться к разбору заданий из темы 5
  • Подготовиться к письменному Тесту №1 по темам 3-4

Семинар 5

Задачи 5.1

Задачи 5.2

Решения 5.1

Решения 5.2

6 Выбросы. Пропущенные значения
  • Посмотреть тему 6 в онлайн-курсе
  • Подготовиться к разбору заданий из темы 6

Семинар 6

Задачи 6

Решения 6

7 Корреляция
  • Посмотреть тему 7 в онлайн-курсе
  • Подготовиться к разбору заданий из темы 7
  • Подготовиться к письменному Тесту №2 по темам 5-6

Задачи 7

Решения 7

8 Контрольная работа
  • Подготовиться к Контрольной работе по темам 3-7

NumPy doc

Pandas doc

Matplotlib doc

CheatSheet

9 Линейная регрессия
  • Посмотреть тему 10 в онлайн-курсе
  • Подготовиться к разбору заданий из темы 10

Семинар 8

Задачи 8

Решения 8

10 Введение в визуализацию данных
  • Посмотреть тему 8 в онлайн-курсе
  • Подготовиться к разбору заданий из темы 8

Задачи 9

Решения 9

11 Продвинутая визуализация данных
  • Посмотреть тему 9 в онлайн-курсе
  • Подготовиться к разбору заданий из темы 9
  • Подготовиться к письменному Тесту №3 по темам 7, 8, 10

Задачи 10

Решения 10

12 Подведение итогов
  • Подготовиться к итоговой защите проектов

Правила выставления оценок

Формула

Итоговая оценка вычисляется по формуле:

  • 0.2 * Активность на семинарах +
  • 0.2 * КР +
  • 0.2 * Тесты +
  • 0.2 * Проект +
  • 0.2 * Экзамен

где:

Активность на семинарах – самостоятельное написание решения задач, а также его комментирование и ответы на вопросы преподавателя

КР – контрольная работа в формате Независимого экзамена по Анализу данных 2022-23 года начального уровня (80 мин)

Тесты – среднее арифметическое 3 тестов, которые проводятся в начале семинара (5-10 мин) по пройденным темам в формате closed book

Проект – выполняется в группах из 2 человек и представляет собой самостоятельный анализ и интерпретацию полученных результатов на выбранных данных поэтапно:

  • Поиск и описание данных. Сортировка и фильтрация
  • Описание признаков, шкал данных и построение частотных таблиц
  • Расчет мер центральной тенденции, определение выбросов
  • Определение корреляции и ее интерпретация
  • Визуализация данных и подведение итогов проделанной работы

Экзамен – аналогичен Независимому экзамену по Анализу данных 2022-23 года начального уровня (120 мин)

Ни одна из форм контроля не округляется. Округляется только итоговая оценка арифметически (3.49 округляется до 3, 3.50 – до 4)

Правила дедлайнов

Тесты и Активность – при пропуске форм контроля по уважительной причине (подтверждённой учебным офисом или документально лично преподавателям) студент имеет право на перерасчет итоговой оценки без пропущенных форм контроля

КР – если студент не может написать контрольную работу по уважительной причине, то вес контрольной работы для него переносится на экзамен

Проект – для каждого этапа устанавливается соответствующий дедлайн. Если группа не сдала этап работы в установленный дедлайн, то от итоговой оценки за проект отнимается 1 балл. Если вовремя не был сдан ни один из этапов проекта, то максимальная возможная оценка за проект – 5 баллов

Экзамен – если студент не может написать экзамен по уважительной причине, то он может написать экзамен в период пересдач

В случае подозрения в несамостоятельном выполнении задания преподаватель имеет право обнулить оценку за него или провести устную защиту

Полезные материалы

Python

Как установить дистрибутив Anaconda на Windows и MacOS

Онлайн-курс по Python для начинающих

Конспект лекций по Python от Михаила Густокашина

Cheat sheets

Книги

Рекомендуемая основная литература

  • Elementary statistics : a step by step approach, Bluman, A. G.,
  • Essentials of Statistics for the Behavioral Sciences. Frederick J. Gravetter, Larry B. Wallnau. Wadsworth.

Рекомендуемая дополнительная литература

  • Савельев В. Статистика и котики.