Data Science Case Studies (JD SAS) 21/22 — различия между версиями
GBuzilov (обсуждение | вклад) |
|||
Строка 67: | Строка 67: | ||
Данный модуль позволит получить студентам практический опыт в анализе данных, разработке и в построении аналитических моделей на реальных данных. | Данный модуль позволит получить студентам практический опыт в анализе данных, разработке и в построении аналитических моделей на реальных данных. | ||
− | == | + | == Studying and using SAS software in «Data Analytics in Business» course == |
− | + | To perform practical tasks, a student is free of choice to pick any of the given software tools: SAS, R, Python. | |
− | ''' | + | '''Students who plan to perform practical tasks on SAS platform''', may take advanced online courses for free. |
− | '' | + | ''To access the course, you must contact the course instructor - Natalia Titova via Telegram.'' |
− | + | Links to access the software SAS - <br /> | |
https://sas-viya.cs.hse.ru/SASStudioV/main?locale=en_US <br /> | https://sas-viya.cs.hse.ru/SASStudioV/main?locale=en_US <br /> | ||
https://sas-viya.cs.hse.ru/SASStudioV/main?locale=ru_RU | https://sas-viya.cs.hse.ru/SASStudioV/main?locale=ru_RU | ||
− | ''' | + | '''If a student has completed all the practical tasks on the SAS and passed the course with excellence''', then he will receive: |
− | * | + | *academic SAS program completion certificate |
− | * | + | *Acclaim electronic badge confirming completion of the course and a list of technologies used by SAS |
− | + | All interested students can take basic SAS online courses for free: | |
− | * | + | *basics of programming on SAS Base [https://support.sas.com/edu/schedules.html?id=2588&ctry=RU link to the course] |
− | * | + | *basics of statistical analysis using SAS software[https://support.sas.com/edu/schedules.html?id=5235&ctry=RU link to the course] |
− | + | Students who are willing to spend extra time learning to program in SAS can try to take a professional certification within the SCYP program for free (SAS® Software Certified Young Professionals) [https://www.sas.com/sas/training/scyp.html link to the course]. | |
== Лекции == | == Лекции == |
Версия 13:38, 2 февраля 2022
Содержание
- 1 Расписание занятий
- 2 О курсе
- 3 Программа курса
- 4 Studying and using SAS software in «Data Analytics in Business» course
- 5 Лекции
- 6 Семинары
- 7 Отчётность по курсу и критерии оценки
- 8 Домашние задания
- 9 Командный проект для 3 курса
- 10 Задать вопрос по курсу
- 11 Материалы по курсу
- 12 Рекомендуемая литература и полезные дополнительные материалы
- 13 Контакты
Расписание занятий
Занятия проводятся по субботам
Общая ссылка для всех лекций и семинаров: https://zoom.us/j/99220349786?pwd=WjFZTEFiQzA4b1lzVmVDbXdmNVMwUT09
Идентификатор конференции: 992 2034 9786
Код доступа: 476860
9:30 - Семинар на русском - ФЭН 3 курс (совместно с БК ГК "Открытие")
11:10 - Семинар на русском - ФЭН 4 курс (совместно с БК ГК "Открытие")
13:00 - Лекция на английском (запись) - ПАД и МИЭФ
14:40 - Лекция на русском (запись) - ПМИ, ФЭН, МК
16:20 - Семинар на русском (запись) - ПМИ и МК
18:10 - Семинар на английском (запись) - ПАД1 и МИЭФ
19:40 - Семинар на английском - ПАД2
При посещении лекции и семинара в Zoom просим студентов сделать Rename и подписаться в формате «Префикс_Фамилия Имя», указав один из префиксов (МИЭФ, МК, ПАД, ПМИ, ФЭН). Например, «БИ_Иванов Алексей»
О курсе
Данная страничка содержит ссылки на материалы по курсу в 2021/2022 учебном году на потоке образовательных программ :
Образовательная программа | Курс | Факультет | Ссылка на страницу курса АДвБ |
---|---|---|---|
Прикладная Математика и Информатика | 3 курс | Факультета Компьютерных Наук НИУ ВШЭ | Анализ данных в бизнесе |
Прикладной анализ данных | 3 курс | Факультета Компьютерных Наук НИУ ВШЭ | Анализ данных в бизнесе |
Экономика | 3 курс | Факультета Экономических Наук НИУ ВШЭ | Анализ данных в бизнесе |
Экономика | 4 курс | Факультета Экономических Наук НИУ ВШЭ | Анализ данных в бизнесе |
Экономика и статистика | 3 курс | Факультета Экономических Наук НИУ ВШЭ | Анализ данных в бизнесе |
Экономика и статистика | 4 курс | Факультета Экономических Наук НИУ ВШЭ | Анализ данных в бизнесе |
Программа двух дипломов по экономике НИУ ВШЭ и Лондонского университета |
3 курс | Международный институт экономики и финансов НИУ ВШЭ | нет |
дополнительные ссылки:
- Базовая кафедра компании SAS на факультете компьютерных наук ВШЭ
- Карточка курса и программа
- Сайт компании SAS
Программа курса
Первый модуль будет читаться для 3 и 4 курса - обзор разделов:
- Клиентская аналитика;
- Текстовая аналитика;
- Задачи анализа данных в розничных сетях продаж товаров;
- Основы оценки рисков;
- ModelOps.
Первый модуль сможет погрузить студентов в актуальные задачи в бизнесе, а также в особенности анализа данных и построения аналитических моделей по каждому разделу модуля. В этом модуле студентов познакомят с программным обеспечением SAS.
Второй модуль – командный проект только для 3 курса.
Студенты будут разделены на группы по 2-7 человек и каждой группе будет дана практическая задача. Данный модуль позволит получить студентам практический опыт в анализе данных, разработке и в построении аналитических моделей на реальных данных.
Studying and using SAS software in «Data Analytics in Business» course
To perform practical tasks, a student is free of choice to pick any of the given software tools: SAS, R, Python.
Students who plan to perform practical tasks on SAS platform, may take advanced online courses for free.
To access the course, you must contact the course instructor - Natalia Titova via Telegram.
Links to access the software SAS -
https://sas-viya.cs.hse.ru/SASStudioV/main?locale=en_US
https://sas-viya.cs.hse.ru/SASStudioV/main?locale=ru_RU
If a student has completed all the practical tasks on the SAS and passed the course with excellence, then he will receive:
- academic SAS program completion certificate
- Acclaim electronic badge confirming completion of the course and a list of technologies used by SAS
All interested students can take basic SAS online courses for free:
- basics of programming on SAS Base link to the course
- basics of statistical analysis using SAS softwarelink to the course
Students who are willing to spend extra time learning to program in SAS can try to take a professional certification within the SCYP program for free (SAS® Software Certified Young Professionals) link to the course.
Лекции
суббота
Название раздела | Тема | Дата для 3 и 4 курса | Презентация | Запись |
---|---|---|---|---|
Клиентская аналитика | Введение в клиентскую и онлайн аналитику | 15.01.2022 | Лекция №1 - рус | |
Клиентская аналитика | Построение прогнозных моделей и визуализация данных | 22.01.2022 | ||
Текстовая аналитика | Введение в задачи анализа текстовых данных | 29.01.2022 | ||
Текстовая аналитика | Инструменты и методы текстовой аналитики | 05.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Введение в задачи анализа данных в ритейле. Прогнозирование спроса | 12.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Описательная аналитика в Ритейл: кластеризация магазинов, сегментация товаров, восстановление спроса | 19.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Задачи оптимизации запасов товаров в ритейл-сети, оптимизация цен, оптимизация ассортимента | 26.02.2022 | ||
Основы оценки рисков | Введение в кредитные риски | 5.03.2022 | ||
Основы оценки рисков | Введение в рыночные риски | 12.03.2022 | ||
Основы оценки рисков | Валидация моделей | 19.03.2022 | ||
ModelOps | Операционализация моделей машинного обучения | 26.03.2022 |
Семинары
суббота
Группа ФЭН 3 курс - 9:30,
Группы ФЭН 4 курс - 11:10,
Группа ПМИ+МК - 16:20,
Группа ПАД 1 и МИЭФ - 18:10,
Группа ПАД 2 - 19:40
ссылка на подключение к семинару - https://zoom.us/j/99220349786?pwd=WjFZTEFiQzA4b1lzVmVDbXdmNVMwUT09
Идентификатор конференции: 992 2034 9786
Код доступа: 476860
ссылка на доп.материалы - к семинарским занятиям
Название раздела | Тема | Дата для ПМИ, ПАД, МИЭФ и МК | Дата для ФЭН | Презентация | Запись |
---|---|---|---|---|---|
Клиентская аналитика | Введение в клиентскую и онлайн аналитику | 15.01.2022 | 22.01.2022 | Семинар №1 - рус | |
Клиентская аналитика | Построение прогнозных моделей и визуализация данных | 22.01.2022 | 29.01.2022 | ||
Текстовая аналитика | Введение в задачи анализа текстовых данных | 29.01.2022 | 05.02.2022 | ||
Текстовая аналитика | Инструменты и методы текстовой аналитики | 05.02.2022 | 12.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Введение в задачи анализа данных в ритейле. Прогнозирование спроса | 12.02.2022 | 19.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Описательная аналитика в Ритейл: кластеризация магазинов, сегментация товаров, восстановление спроса | 19.02.2022 | 26.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Задачи оптимизации запасов товаров в ритейл-сети, оптимизация цен, оптимизация ассортимента | 26.02.2022 | 5.03.2022 | ||
Основы оценки рисков | Введение в кредитные риски | 5.03.2022 | 12.03.2022 | ||
Основы оценки рисков | Введение в рыночные риски | 12.03.2022 | 19.03.2022 | ||
Основы оценки рисков | Валидация моделей | 19.03.2022 | 26.03.2022 | ||
ModelOps | Операционализация моделей машинного обучения | 26.03.2022 | 2.04.2022 |
Отчётность по курсу и критерии оценки
В курсе предусмотрено несколько форм контроля знания:
- 3 практических домашних задания
- Письменный экзамен, вопросы в виде теста с вариантами ответов
- Командный проект ( только для 3 курса )
Критерии оценки знаний, навыков
- Оценки за все домашние задания выставляются по 2-балльной шкале, где «2» — задание решено полностью, «1» — задание решено не полностью или с недочётами, «0» — задание не решено или решено неверно.
Если домашнее задание разбито на несколько частей, то каждая часть оценивается по 2-балльной шкале как описано выше, а затем оценки усредняются с равными весами без округления.
Перевод оценки за домашние задания из 2-балльной шкалы в 10-балльную проводится путём умножения оценки на 5 без округления.
- Оценка за экзамен выставляется по 10-балльной шкале.
- Оценка за командный проект выставляется по 10-балльной шкале.
Порядок формирования оценок по дисциплине
Пусть оценки за 3 домашних задания по 10-балльной шкале — O_1,O_2,O_3, а оценка за экзамен в конце первого модуля по 10-балльной шкале — O_экз.
Итоговая оценка для студентов 4 курса O_итог рассчитывается по формуле
O_итог = 0.225 * O_1 + 0.225 * O_2 + 0.225 * O_3 + 0.325 * O_экз
Итоговая оценка для студентов 3 курса в первом модуле O_мод рассчитывается по формуле
O_мод = 0.1 * O_1 + 0.1 * O_2 + 0.1 * O_3 + 0.2 * O_экз
Оценка за проект во втором модуле O_пр выставляется по 10-балльной шкале по итогам защиты проекта.
Итоговая оценка O_итог определяется по формуле O_итог = O_мод + 0.5 * O_пр
Округление происходит только в самом конце — в итоговой оценке. Округление арифметическое.
Каждое задание и экзамен оцениваются по 10-балльной шкале (по заданиям допускается дробная оценка). За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания.
Домашние задания
Домашнее задание №1
Задание состоит из 2 частей:
1. Исследование данных и обработка данных для проведения последующей сегментации;
2. Составить профили клиентов на основе проведенных сегментаций (использовать минимум 2 метода сегментации).
Пример подробного описания Домашнего задания №1 2020-2021 уч.года с примерами и результатами читай в приложенном файле
Каждый студент выбирает вариант, который указан напротив его ФИО в списке
по ссылке
Варианты и описание данных представлены в папке по ссылке
Для того, чтобы получить оценку, требуется:
1. Прислать архив с файлами, где производились все расчеты и сопроводительное письмо с выводами и комментариями по каждой части:
- Расчеты могут производиться через код (python/sas/sql), сводные таблицы и формулы в excel или проект SAS Viya;
- Все выводы необходимо подтверждать визуально интерпретируемыми графиками и данными.
2. Архив (.zip) с файлами требуется отправить на почту ntitova@hse.ru с темой «ФКН ВШЭ»
3. Название файла требуется отправлять по шаблону <Имя>_<Фамилия>_<номер группы>_hw1.zip.
Пример, Alexander_Sharipov_156_hw1
Оценка за домашнее задание №1 выставляется по 10-балльной шкале, где:
«8-10» — задание решено полностью, выполнены все 2 части домашней работы:
- проведен анализ данных, предоставлен рабочий код и таблицы по исследованию данных;
- построены сегментации 2-мя методами;
- предоставлены понятные выводы с подтверждёнными данными (таблицы, графики);
«6-7» —задание решено неполностью или с недочётами:
- проведен анализ данных, предоставлен рабочий код и таблицы по исследованию данных;
- построена сегментация хотя бы одним методом;
- предоставлены понятные выводы с подтверждёнными данными (таблицы, графики);
«4-5» —задание решено с существенными недочетами,
- проведен анализ данных, предоставлен рабочий код и таблицы по исследованию данных;
- выявлены верхнеуровневые зависимости и закономерности по клиентам без построения модели сегментации;
«0-3» — задание не решено или решено неверно.
Срок сдачи – 2 недели (19 февраля 2022 23:59).
Домашнее задание №2
Описание ДЗ 2 находится в файле по ссылке
Срок сдачи – 12 марта 2022 23:59. Решения присылать на почту aromanenko@hse.ru
В теме письма обязательно должно быть следующее: ВШЭ + Номер курса+номер_вариант+ФИО.
В названии файла необходимо указать:
- Номер курса
- Номер варианта
- ФИО
Пример: «ПМИ_3курс_Вариант_8_ИвановИванИванович»
Домашнее задание №3
Необходимо построить скориниговую модель, оценивающую вероятность дефолта клиента на стадии заведения кредитной заявки. Для этого необходимо:
0. Скачать данные по ссылке https://drive.google.com/drive/u/0/folders/16CMyPnLu7Fv7IgsYOZimQK-7MaFZEWEZ
Каждый студент выбирает 2 выборки "accept" и "reject", которые начинаются с варианта студента. Номера вариантов для ДЗ №3 необходимо взять такие же как и для ДЗ №1
Выполненное задание необходимо отправить в следующем виде:
1) Файл/скрипты с построенными моделями (обязательно должны быть комментарии, без комментариев задание считается нерешенным)
2) Excel файл с ответами на следующие вопросы:
1. Какая доля 1 в выборке "accept"?
2. Необходимо рассчитать для всех интервальных переменных следующее:
- Доля пропущенных значений - Медиана - Среднее - Среднеквадратическое отклонение - Есть ли аномальные значения, выбросы? - Information Value
3. Необходимо рассчитать для всех категориальных переменных следующее:
- Мода - Доля пропущенных значений - Information Value - Есть ли выбросы, аномальные значений
4. Построить логистическую регрессию только на одобренных заявках с преобразованными переменными WoE. Какое значение GINI? F1 мера?
5. Провести анализ Reject Inference. Какая доля отказанных заявок?
6. Построить логистическую регрессию на всех заявках с преобразованными переменными WoE. Какое значение GINI, F1? Изменилась ли модель?
7. Какую модель вы рекомендуете для внедрения в продуктивную среду? Дать развернутое пояснение
Оценка за домашние задания №3 выставляется по 2-балльной шкале, где «2» — задание решено полностью, «1» — задание решено не полностью или с недочётами, «0» — задание не решено или решено неверно.
Перевод оценки за домашние задания из 2-балльной шкалы в 10-балльную проводится путём умножения оценки на 5 без округления.
За домашнюю работу №3 будут выставляться оценки: «2» – правильно построена модель и на выборке accept, и на выборке reject. Даны верные ответы. «1,6» – правильно построена модель и на выборке accept, и на выборке reject. 50% ответов верные. «1,4» – правильно построена модель и на выборке accept, и на выборке reject. Даны неверные ответы «1» - построена модель только на выборке accept. «0,8» - задание решено не полностью. 50% ответов верные. «0» — задание не решено или решено неверно.
Срок сдачи – до 26.03.2022 включительно
Решения присылать на почту msvorobeva@hse.ru В теме письма обязательно должно быть следующее: ВШЭ + Номер курса+номер_вариант+ФИО.
В названии файла необходимо указать:
- Номер курса
- Номер варианта
- ФИО
Пример: «ПМИ_3курс_Вариант_8_ИвановИванИванович»
Если работы будут повторять друг друга, обе работы будут считаться нерешенными.
Командный проект для 3 курса
Выбор темы для командного проекта по курсу "Анализ данных в бизнесе"
Студенты делятся на группы по 3 человека. В дальнейшем 2-3 группы могут соединить в одну. Внутри группы должен быть определен капитан команды - ответственное лицо группы.
Ответственное лицо отвечает за выполнение и результат следующих основных функций:
- отправка заявки на тему проекта и согласование темы проекта от лица всей группы с преподавателями;
- предоставление информации куратору о текущем статусе проекта: учет, распределение и контроль выполнения задания по проекту;
- отправка отчетов, презентаций, технической документации по выполненными работам группы в электронном виде.
Описания тем проектов: ссылка на файл
Ссылка на форму подачи заявки на тему: ссылка на файл
Сроки выбора тем:
До 17 апреля группа должна выбрать две темы из указанного списка, указав первый и второй приоритет для этих тем.
18 апреля - каждой группе, которая подала заявку на проект, через указанную форму, будет назначена тема проекта и куратор. При назначении тем будут учитываться приоритеты указанные студентами, а также средний балл студентов в группе по первому модулю курса. На одну тему назначается не более 3-х групп студентов.
При возникновении вопросов пишите в Telegram Титовой Наталии.
Итогом каждого проекта должна быть презентация результатов проекта на 10-15 минут.
Защита проекта для ПАД и МИЭФ будет в середине мая (17-22 мая), а также для всех желающих, которые готовы будут защититься.
Финальная защита для ПМИ, ФЭН пройдет в середине июня (15-19 июня) до начала сессии.
Оценка за проект во втором модуле выставляется по 10-балльной шкале по итогам защиты проекта.
Те студенты, которые не нашли себе группу тоже подают заявку на тему, но на одного себя. Мы сами соединим с группой по схожей теме.
Даты защиты учебных проектов в 4 модуле:
Защиты проектов пройдут с 17 по 19 июня 2021 года.
В файле по ссылке вы найдете список проектных групп с привязкой к дате и времени защиты, а так же ссылки для подключения к самим защитам.
Командные проекты - даты защит по группам и ссылки на подключение.
Задать вопрос по курсу
Вопросы по курсу можно задавать в telegram чат курса, преподавателю курса Титовой Наталии @Natalitics или менеджеру кафедры SAS Лобок Татьяне @tatianalobok (tlobok@hse.ru).
Канал в telegram для объявлений: https://t.me/+Lj-yHhfNJTQxYWEy
Чат в telegram для обсуждений: https://t.me/+a1VMTe2xwNA5Mzcy
Все объявления и материалы по курсу будут выкладываться в чате и в канале telegram!
Преподаватели в чате бывают, но не всегда.
По всем важным вопросам стоит писать преподавателю Титовой Наталии в чате telegram @Natalitics или на почту Natalia.Titova@sas.com. В название письма обязательно добавлять тег [ПМИ ФКН ВШЭ/ПАД ФКН ВШЭ/МИЭФ ФКН ВШЭ/Эк ФЭН ВШЭ/ЭкСт ФЭН ВШЭ], а также указывать свою фамилию и имя.
Все приведенные файлы предназначены для использования студентами во время обучения и обновляются в течение года. По найденным опечаткам, неточностям, сбоям работы странички просьба писать на электронную почту tlobok@hse.ru.
Материалы по курсу
Документы и программа курса Внимание: файлы обновляются!
- Рабочая программа дисциплины для 3 и 4 курса можно найти по следующей ссылке.
- Лекции и семинары Внимание: файлы в папке обновляются!
Рекомендуемая литература и полезные дополнительные материалы
Полезные материалы
- Обучающий портал с дополнительной литературой для работы с SAS Enterprise Guide
- Блок компании SAS на хабре (Основы программирования на SAS Base)
Полезная литература
К разделу 1:
- Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, Third Edition Michael J. A. Berry Gordon S. Linoff
- Database Marketing. Analyzing and Managing Customers, Blattberg, Robert C., Kim, Byung-Do, Neslin, Scott A.
- LeSueur J. (2007) McKinsey&Company (2000) How to write a business plan.
- Shive W. and Mouton D. (2012) Improving Retail Decisions with Customer Analytics: Leveragin Actionable Customer Insights across the Retail Enterprise to Build Sales and Profits. Paper 286-2012, SAS Institute, Inc
- Baer D. (2017) Using Segmentation to Build More Powerful Models with SAS® Visual Analytics. Paper 733-2017, SAS Institute, Inc.
- К. Уолш (2000) Ключевые показатели менеджмента: как анализировать, сравнивать и контролировать данные, определяющие стоимость компании. М.: Дело. - Есть в открытом доступе.
- Kaplan Publishing (2018) CIMA P2 Study Text. Advanced Management Accounting.
- Shive W. and Mouton D. (2012) Improving Retail Decisions with Customer Analytics: Leveragin Actionable Customer Insights across the Retail Enterprise to Build Sales and Profits. Paper 2862012, SAS Institute, Inc., Cary, NC
- Baer D. and Grover S. (2016) Enhanced Segmentation Using SAS® Visual Analytics and SAS® Visual Statistics. Paper 6222-2016, SAS Institute, Inc., Cary, NC.
- SAS Documentation (2015). SAS® Visual Analytics 7.2, 7.3,and 7.4: Getting Started with Analytical Models
- SAS(R) Visual Analytics 7.3: User's Guide
К разделу 2:
- Шапиро Дж (2006). Моделирование цепи поставок. Питер. Серия «Теория менеджмента».
- Tijms H.C., Groenevelt H. (1984). Simple approximations for the reorder point in periodic and continuous review (s, S) inventory systems with service level constraints. European Journal of Operational Research, Vol. 17, Issue 2, August 1984, Pages 175-190.]
К разделу 3:
- Christoffersen P. (2012) Elements of Financial Risk Management. 2nd ed. Elseiver Academic Press.
К разделу 4:
- Мортон С. (2016) Лаборатория презентаций. Формула идеального выступления. Альпина Паблишер.
Контакты
Титова Наталия Николаевна - старший преподавательNatalia.Titova@sas.com
tlobok@hse.ru