Data Science Case Studies (JD SAS) 21/22 — различия между версиями
GBuzilov (обсуждение | вклад) |
GBuzilov (обсуждение | вклад) |
||
Строка 178: | Строка 178: | ||
In case if the homework is divided into several parts, then each part is evaluated on a 2-point scale as described above, and then the marks are averaged with equal weights without rounding. | In case if the homework is divided into several parts, then each part is evaluated on a 2-point scale as described above, and then the marks are averaged with equal weights without rounding. | ||
− | |||
The transfer of grades for homework from a 2-point scale to a 10-point scale is done by means of multiplying the grade by 5 without any rounding. | The transfer of grades for homework from a 2-point scale to a 10-point scale is done by means of multiplying the grade by 5 without any rounding. | ||
Версия 16:49, 2 февраля 2022
Содержание
- 1 Расписание занятий
- 2 О курсе
- 3 Программа курса
- 4 Studying and using SAS software in «Data Analytics in Business» course
- 5 Лекции
- 6 Семинары
- 7 Course report and grade evaluation
- 8 Home assignments
- 9 Командный проект для 3 курса
- 10 How to ask a question about the course
- 11 Материалы по курсу
- 12 Рекомендуемая литература и полезные дополнительные материалы
- 13 Контакты
Расписание занятий
Занятия проводятся по субботам
Общая ссылка для всех лекций и семинаров: https://zoom.us/j/99220349786?pwd=WjFZTEFiQzA4b1lzVmVDbXdmNVMwUT09
Идентификатор конференции: 992 2034 9786
Код доступа: 476860
9:30 - Семинар на русском - ФЭН 3 курс (совместно с БК ГК "Открытие")
11:10 - Семинар на русском - ФЭН 4 курс (совместно с БК ГК "Открытие")
13:00 - Лекция на английском (запись) - ПАД и МИЭФ
14:40 - Лекция на русском (запись) - ПМИ, ФЭН, МК
16:20 - Семинар на русском (запись) - ПМИ и МК
18:10 - Семинар на английском (запись) - ПАД1 и МИЭФ
19:40 - Семинар на английском - ПАД2
При посещении лекции и семинара в Zoom просим студентов сделать Rename и подписаться в формате «Префикс_Фамилия Имя», указав один из префиксов (МИЭФ, МК, ПАД, ПМИ, ФЭН). Например, «БИ_Иванов Алексей»
О курсе
Данная страничка содержит ссылки на материалы по курсу в 2021/2022 учебном году на потоке образовательных программ :
Образовательная программа | Курс | Факультет | Ссылка на страницу курса АДвБ |
---|---|---|---|
Прикладная Математика и Информатика | 3 курс | Факультета Компьютерных Наук НИУ ВШЭ | Анализ данных в бизнесе |
Прикладной анализ данных | 3 курс | Факультета Компьютерных Наук НИУ ВШЭ | Анализ данных в бизнесе |
Экономика | 3 курс | Факультета Экономических Наук НИУ ВШЭ | Анализ данных в бизнесе |
Экономика | 4 курс | Факультета Экономических Наук НИУ ВШЭ | Анализ данных в бизнесе |
Экономика и статистика | 3 курс | Факультета Экономических Наук НИУ ВШЭ | Анализ данных в бизнесе |
Экономика и статистика | 4 курс | Факультета Экономических Наук НИУ ВШЭ | Анализ данных в бизнесе |
Программа двух дипломов по экономике НИУ ВШЭ и Лондонского университета |
3 курс | Международный институт экономики и финансов НИУ ВШЭ | нет |
дополнительные ссылки:
- Базовая кафедра компании SAS на факультете компьютерных наук ВШЭ
- Карточка курса и программа
- Сайт компании SAS
Программа курса
Первый модуль будет читаться для 3 и 4 курса - обзор разделов:
- Клиентская аналитика;
- Текстовая аналитика;
- Задачи анализа данных в розничных сетях продаж товаров;
- Основы оценки рисков;
- ModelOps.
Первый модуль сможет погрузить студентов в актуальные задачи в бизнесе, а также в особенности анализа данных и построения аналитических моделей по каждому разделу модуля. В этом модуле студентов познакомят с программным обеспечением SAS.
Второй модуль – командный проект только для 3 курса.
Студенты будут разделены на группы по 2-7 человек и каждой группе будет дана практическая задача. Данный модуль позволит получить студентам практический опыт в анализе данных, разработке и в построении аналитических моделей на реальных данных.
Studying and using SAS software in «Data Analytics in Business» course
To perform practical tasks, a student is free of choice to pick any of the given software tools: SAS, R, Python.
Students who plan to perform practical tasks on SAS platform, may take advanced online courses for free.
To access the course, you must contact the course instructor - Natalia Titova via Telegram.
Links to access the software SAS -
https://sas-viya.cs.hse.ru/SASStudioV/main?locale=en_US
https://sas-viya.cs.hse.ru/SASStudioV/main?locale=ru_RU
If a student has completed all the practical tasks on the SAS and passed the course with excellence, then he will receive:
- academic SAS program completion certificate
- Acclaim electronic badge confirming completion of the course and a list of technologies used by SAS
All interested students can take basic SAS online courses for free:
- basics of programming on SAS Base link to the course
- basics of statistical analysis using SAS softwarelink to the course
Students who are willing to spend extra time learning to program in SAS can try to take a professional certification within the SCYP program for free (SAS® Software Certified Young Professionals) link to the course.
Лекции
суббота
Название раздела | Тема | Дата для 3 и 4 курса | Презентация | Запись |
---|---|---|---|---|
Клиентская аналитика | Введение в клиентскую и онлайн аналитику | 15.01.2022 | Лекция №1 - рус | |
Клиентская аналитика | Построение прогнозных моделей и визуализация данных | 22.01.2022 | ||
Текстовая аналитика | Введение в задачи анализа текстовых данных | 29.01.2022 | ||
Текстовая аналитика | Инструменты и методы текстовой аналитики | 05.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Введение в задачи анализа данных в ритейле. Прогнозирование спроса | 12.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Описательная аналитика в Ритейл: кластеризация магазинов, сегментация товаров, восстановление спроса | 19.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Задачи оптимизации запасов товаров в ритейл-сети, оптимизация цен, оптимизация ассортимента | 26.02.2022 | ||
Основы оценки рисков | Введение в кредитные риски | 5.03.2022 | ||
Основы оценки рисков | Введение в рыночные риски | 12.03.2022 | ||
Основы оценки рисков | Валидация моделей | 19.03.2022 | ||
ModelOps | Операционализация моделей машинного обучения | 26.03.2022 |
Семинары
суббота
Группа ФЭН 3 курс - 9:30,
Группы ФЭН 4 курс - 11:10,
Группа ПМИ+МК - 16:20,
Группа ПАД 1 и МИЭФ - 18:10,
Группа ПАД 2 - 19:40
ссылка на подключение к семинару - https://zoom.us/j/99220349786?pwd=WjFZTEFiQzA4b1lzVmVDbXdmNVMwUT09
Идентификатор конференции: 992 2034 9786
Код доступа: 476860
ссылка на доп.материалы - к семинарским занятиям
Название раздела | Тема | Дата для ПМИ, ПАД, МИЭФ и МК | Дата для ФЭН | Презентация | Запись |
---|---|---|---|---|---|
Клиентская аналитика | Введение в клиентскую и онлайн аналитику | 15.01.2022 | 22.01.2022 | Семинар №1 - рус | |
Клиентская аналитика | Построение прогнозных моделей и визуализация данных | 22.01.2022 | 29.01.2022 | ||
Текстовая аналитика | Введение в задачи анализа текстовых данных | 29.01.2022 | 05.02.2022 | ||
Текстовая аналитика | Инструменты и методы текстовой аналитики | 05.02.2022 | 12.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Введение в задачи анализа данных в ритейле. Прогнозирование спроса | 12.02.2022 | 19.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Описательная аналитика в Ритейл: кластеризация магазинов, сегментация товаров, восстановление спроса | 19.02.2022 | 26.02.2022 | ||
Задачи анализа данных в розничных сетях продаж товаров | Задачи оптимизации запасов товаров в ритейл-сети, оптимизация цен, оптимизация ассортимента | 26.02.2022 | 5.03.2022 | ||
Основы оценки рисков | Введение в кредитные риски | 5.03.2022 | 12.03.2022 | ||
Основы оценки рисков | Введение в рыночные риски | 12.03.2022 | 19.03.2022 | ||
Основы оценки рисков | Валидация моделей | 19.03.2022 | 26.03.2022 | ||
ModelOps | Операционализация моделей машинного обучения | 26.03.2022 | 2.04.2022 |
Course report and grade evaluation
The course includes several forms of knowledge control:
- 3 practical homework assignments
- Written exam, questions in the form of a test with multiple choice
- Team project (only for 3rd-year students)
Criteria for assessing knowledge, skills
- All homework assignments are graded on a 2-point scale, where «2» — task is fully completed, «1» — the task is not completely solved or with slight mistakes, «0» — task is not solved or solved incorrectly.
In case if the homework is divided into several parts, then each part is evaluated on a 2-point scale as described above, and then the marks are averaged with equal weights without rounding.
The transfer of grades for homework from a 2-point scale to a 10-point scale is done by means of multiplying the grade by 5 without any rounding.
- The grade for the exam is set on a 10-point scale.
- The grade for the team project is also set on a 10-point scale.
The order of the formation of grades for the discipline
Let's denote the grades for 3 homework assignments on a 10-point scale — O_1,O_2,O_3, and the grade for the exam at the end of the 1st module on a 10-point scale — O_ex.
The final grade for 4th-year students O_final is evaluated by the following formula
O_final = 0.225 * O_1 + 0.225 * O_2 + 0.225 * O_3 + 0.325 * O_ex
The final grade for 3rd-year students in the 1st module O_mod is evaluated by the following formula
O_mod = 0.1 * O_1 + 0.1 * O_2 + 0.1 * O_3 + 0.2 * O_ex
The grade for the project in the 2nd module O_prj is set on a 10-point scale by means of the project defense.
The final grade O_final is defined by the formula O_final = O_mod + 0.5 * O_prj
Rounding occurs only at the very end - in the final grade, i.e. arithmetic rounding.
Each task and exam is evaluated on a 10-point scale (fractional marks are allowed for tasks). For some tasks, it will be possible to receive bonus points, which will be announced when the task is issued.
Home assignments
Home assignment #1
The home task #1 consists of 2 parts:
1. Data research and data processing for subsequent segmentation;
2. Making customer profiles based on segmentations (use at least 2 segmentation methods).
An example of a detailed description of Home assignment №1 2020-2021 with examples and results read in the attached file
Each student chooses the version that is indicated opposite his name in the list link
Versions and data description are presented in the folder at the link
In order to receive an assessment, you need:
1. Send an archive with files where all calculations were made and a cover letter with conclusions and comments on each part:
- Calculations can be done using code (python/sas/sql), pivot tables and formulas in excel or SAS Viya project;
- All conclusions must be supported by visually interpretable graphs and data.
2. The archive (.zip) with the files must be sent to ntitova@hse.ru with the email subject “ФКН ВШЭ”
3. The file name must be sent according to the template <First Name>_<Last name>_<group number>_hw1.zip.
For example, Alexander_Sharipov_156_hw1
Grade for Home assignment #1 is given on a 10-point scale, where:
"8-10" - the task is completely solved, all 2 parts of homework are completed:
- data analysis was carried out, a code is working, and tables for data research were provided;
- constructed segmentation by 2 methods;
- provided clear conclusions with confirmed data (tables, graphs);
"6-7" - the task is solved incompletely or with shortcomings:
- data analysis was carried out, a working code and tables for data research were provided;
- built segmentation using at least one method;
- provided clear conclusions with confirmed data (tables, graphs);
"4-5" - the task was solved with significant shortcomings,
- data analysis was carried out, a working code and tables for data research were provided;
- revealed top-level dependencies and patterns for customers without building a segmentation model;
"0-3" - the task is not solved or solved incorrectly.
Deadline – 2 weeks (February 19, 2022 23:59).
Home assignment #2
Description of Home assignment #2 is in the file link
Deadline - March 12, 2022 23:59. Solutions should be sent to aromanenko@hse.ru
The subject of the letter must contain the following: HSE + Course number + version_number + full name.
The file name must include:
- Course number
- Version number
- Full name
Example: "ПМИ_3курс_Вариант_8_IvanovIvanIvanovich"
Home assignment #3
It is necessary to build a scoring model that assesses the probability of a client default at the stage of making a loan application. To do this you need:
0. Download data from the link https://drive.google.com/drive/u/0/folders/16CMyPnLu7Fv7IgsYOZimQK-7MaFZEWEZ
Each student selects 2 data samples "accept" and "reject", which start with the student's HW version. Version numbers for HW #3 must be taken the same as for HW #1.
The completed task must be sent in the following form:
1) File/scripts with built models (there must be comments, without comments the task is considered as unresolved)
2) Excel file with answers to the following questions:
1. What is the proportion of 1 in the "accept" sample?
2. It is necessary to calculate the following for all interval variables:
- Proportion of missing values - Median - Mean - Standard deviation - Are there any abnormal values, outliers? - Information Value
3. It is necessary to calculate for all categorical variables the following:
- Mode - Proportion of missing values - Information Value - Are there outliers, abnormal values?
4. Build logistic regression only on approved applications with transformed WoE variables. What is the meaning of GINI? F1 measure?
5. Conduct a Reject Inference analysis. What is the percentage of rejected applications?
6. Build a logistic regression on all applications with transformed WoE variables. What GINI, F1 mean? Has the model changed?
7. What model would you recommend for implementation in a productive environment? Give a detailed explanation
Assessment for HW #3 is set on a 2-point scale, where "2" - the task is solved completely, "1" - the task is not completely solved or with shortcomings, "0" - the task is not solved or solved incorrectly. The transfer of grades for homework from a 2-point scale to a 10-point scale is carried out by multiplying the grade by 5 without rounding.
For HW #3, marks will be given: "2" - the model is correctly built on both the accept and reject samples. Correct answers given. "1.6" - the model is correctly built both on the accept sample and on the reject sample. 50% of answers are correct. "1.4" - the model is correctly built both on the accept sample and on the reject sample. Wrong answers are given. "1" are given - the model is built only on the accept sample. "0.8" - the task is not completely solved. 50% of answers are correct. "0" - the task is not solved or solved incorrectly.
Deadline - until 26.03.2022 inclusive
Decisions should be sent to msvorobeva@hse.ru The subject of the letter must contain the following: HSE + Course number + version_number + full name.
The file name must include:
- Course number
- Version number
- Full name
Example: "ПМИ_3курс_Вариант_8_IvanovIvanIvanovich"
If the works will repeat each other, both works will be considered unresolved.
Командный проект для 3 курса
Выбор темы для командного проекта по курсу "Анализ данных в бизнесе"
Студенты делятся на группы по 3 человека. В дальнейшем 2-3 группы могут соединить в одну. Внутри группы должен быть определен капитан команды - ответственное лицо группы.
Ответственное лицо отвечает за выполнение и результат следующих основных функций:
- отправка заявки на тему проекта и согласование темы проекта от лица всей группы с преподавателями;
- предоставление информации куратору о текущем статусе проекта: учет, распределение и контроль выполнения задания по проекту;
- отправка отчетов, презентаций, технической документации по выполненными работам группы в электронном виде.
Описания тем проектов: ссылка на файл
Ссылка на форму подачи заявки на тему: ссылка на файл
Сроки выбора тем:
До 17 апреля группа должна выбрать две темы из указанного списка, указав первый и второй приоритет для этих тем.
18 апреля - каждой группе, которая подала заявку на проект, через указанную форму, будет назначена тема проекта и куратор. При назначении тем будут учитываться приоритеты указанные студентами, а также средний балл студентов в группе по первому модулю курса. На одну тему назначается не более 3-х групп студентов.
При возникновении вопросов пишите в Telegram Титовой Наталии.
Итогом каждого проекта должна быть презентация результатов проекта на 10-15 минут.
Защита проекта для ПАД и МИЭФ будет в середине мая (17-22 мая), а также для всех желающих, которые готовы будут защититься.
Финальная защита для ПМИ, ФЭН пройдет в середине июня (15-19 июня) до начала сессии.
Оценка за проект во втором модуле выставляется по 10-балльной шкале по итогам защиты проекта.
Те студенты, которые не нашли себе группу тоже подают заявку на тему, но на одного себя. Мы сами соединим с группой по схожей теме.
Даты защиты учебных проектов в 4 модуле:
Защиты проектов пройдут с 17 по 19 июня 2021 года.
В файле по ссылке вы найдете список проектных групп с привязкой к дате и времени защиты, а так же ссылки для подключения к самим защитам.
Командные проекты - даты защит по группам и ссылки на подключение.
How to ask a question about the course
Questions about the course can be asked in the telegram chat of the course, the course professor Natalia Titova @Natalitics or the manager of the SAS department Tatiana Lobok @tatianalobok (tlobok@hse.ru).
Telegram channel for announcements: https://t.me/+Lj-yHhfNJTQxYWEy
Chat in telegram for discussions: https://t.me/+a1VMTe2xwNA5Mzcy
All announcements and course materials will be posted in the telegram chat and in the telegram channel!
There are professors in the chat, but not always.
For all important questions, you should write to Natalia Titova in the telegram chat @Natalitics or mail Natalia.Titova@sas.com. Be sure to add the tag [ПМИ ФКН ВШЭ/ПАД ФКН ВШЭ/МИЭФ ФКН ВШЭ/Эк ФЭН ВШЭ/ЭкСт ФЭН ВШЭ] to the title of the letter, and also indicate your last name and first name.
All files provided are intended for use by students during their studies and are updated throughout the year. If you find any typos, inaccuracies, malfunctions of the page, please send email tlobok@hse.ru.
Материалы по курсу
Документы и программа курса Внимание: файлы обновляются!
- Рабочая программа дисциплины для 3 и 4 курса можно найти по следующей ссылке.
- Лекции и семинары Внимание: файлы в папке обновляются!
Рекомендуемая литература и полезные дополнительные материалы
Полезные материалы
- Обучающий портал с дополнительной литературой для работы с SAS Enterprise Guide
- Блок компании SAS на хабре (Основы программирования на SAS Base)
Полезная литература
К разделу 1:
- Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, Third Edition Michael J. A. Berry Gordon S. Linoff
- Database Marketing. Analyzing and Managing Customers, Blattberg, Robert C., Kim, Byung-Do, Neslin, Scott A.
- LeSueur J. (2007) McKinsey&Company (2000) How to write a business plan.
- Shive W. and Mouton D. (2012) Improving Retail Decisions with Customer Analytics: Leveragin Actionable Customer Insights across the Retail Enterprise to Build Sales and Profits. Paper 286-2012, SAS Institute, Inc
- Baer D. (2017) Using Segmentation to Build More Powerful Models with SAS® Visual Analytics. Paper 733-2017, SAS Institute, Inc.
- К. Уолш (2000) Ключевые показатели менеджмента: как анализировать, сравнивать и контролировать данные, определяющие стоимость компании. М.: Дело. - Есть в открытом доступе.
- Kaplan Publishing (2018) CIMA P2 Study Text. Advanced Management Accounting.
- Shive W. and Mouton D. (2012) Improving Retail Decisions with Customer Analytics: Leveragin Actionable Customer Insights across the Retail Enterprise to Build Sales and Profits. Paper 2862012, SAS Institute, Inc., Cary, NC
- Baer D. and Grover S. (2016) Enhanced Segmentation Using SAS® Visual Analytics and SAS® Visual Statistics. Paper 6222-2016, SAS Institute, Inc., Cary, NC.
- SAS Documentation (2015). SAS® Visual Analytics 7.2, 7.3,and 7.4: Getting Started with Analytical Models
- SAS(R) Visual Analytics 7.3: User's Guide
К разделу 2:
- Шапиро Дж (2006). Моделирование цепи поставок. Питер. Серия «Теория менеджмента».
- Tijms H.C., Groenevelt H. (1984). Simple approximations for the reorder point in periodic and continuous review (s, S) inventory systems with service level constraints. European Journal of Operational Research, Vol. 17, Issue 2, August 1984, Pages 175-190.]
К разделу 3:
- Christoffersen P. (2012) Elements of Financial Risk Management. 2nd ed. Elseiver Academic Press.
К разделу 4:
- Мортон С. (2016) Лаборатория презентаций. Формула идеального выступления. Альпина Паблишер.
Контакты
Титова Наталия Николаевна - старший преподавательNatalia.Titova@sas.com
tlobok@hse.ru