МОВС Data Engineering (2023-24 уч. год, 6 модуль) — различия между версиями
Материал из Wiki - Факультет компьютерных наук
м (add dates) |
м (добавил дедлайн) |
||
(не показано 26 промежуточных версии 2 участников) | |||
Строка 1: | Строка 1: | ||
==О курсе== | ==О курсе== | ||
− | Занятия проводятся в [ | + | Занятия проводятся в [https://us06web.zoom.us/j/82384730469?pwd=UBU9PdaT93p3WDhDlxFr7slHGrmH4u.1 Zoom] по '''средам''' в '''18.00''' |
− | Онлайн-курс в дополнение к парам: [ | + | Онлайн-курс в дополнение к парам: [https://edu.hse.ru/course/view.php?id=182244 курс] |
==Контакты== | ==Контакты== | ||
− | Чат курса в TG: | + | Чат курса в TG: https://t.me/+bZVVpYru9p9mMWVi |
− | Преподаватель: Дикалин Кирилл | + | Преподаватель: Дикалин Кирилл, Анатолий Бардуков |
{| class="wikitable" | {| class="wikitable" | ||
Строка 27: | Строка 27: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам | + | ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам |
|- | |- | ||
− | | style="background:#eaecf0;" | '''1''' [ | + | | style="background:#eaecf0;" | '''1''' [https://youtu.be/MSqm4E7sBRo?si=CZnryjpWGZ-P22Kj Запись] || [https://docs.google.com/presentation/d/1pQgYLAx7Tg50iqRpJ8Sk-x6WwRbb2XJ8/edit?usp=sharing&ouid=101732437281663190857&rtpof=true&sd=true Введение инженер данных] || 01.11.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''2''' [ | + | | style="background:#eaecf0;" | '''2''' [https://youtu.be/B2f3XudVmDw?si=s4A1oA5pW4sazJIz Запись] || [https://docs.google.com/presentation/d/1nS_OkWjHURME71EAulZersuvtElPp11L/edit?usp=sharing&ouid=107809942589012152758&rtpof=true&sd=true PostgreSQL, Схема данных, Slowly Changing Dimensions] || 08.11.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''3''' [ | + | | style="background:#eaecf0;" | '''3''' [https://youtu.be/2vnaX7H9leg?si=S08NTQ73_CT16-6N Запись] || [https://docs.google.com/presentation/d/159P4b7ndBmF-sZbxZKJ9S86wdejxT8ju/edit?usp=sharing&ouid=107809942589012152758&rtpof=true&sd=true Агрегатные функции, SCD] || 15.11.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''4''' [ | + | | style="background:#eaecf0;" | '''4''' [https://youtu.be/Zc-kFVga6_A Запись] || [https://docs.google.com/presentation/d/14NLqIUhzYBWnApkHwyzswH6zVaMSBTF-/edit?usp=sharing&ouid=107809942589012152758&rtpof=true&sd=true Регулярные выражения] || 22.11.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''5''' [ | + | | style="background:#eaecf0;" | '''5''' [https://www.youtube.com/watch?v=3iVfwZVKgTA&list=PLmA-1xX7IuzAlLMt5dER6WYXFuTNhmVpG Запись] || [https://docs.google.com/presentation/d/1unBxoZRdVfco7Jsm886BFm0FXWJqe_mE/edit?usp=sharing&ouid=107809942589012152758&rtpof=true&sd=true Оптимизация запросов и CDC] || 29.11.23 || |
|- | |- | ||
− | | style="background:#eaecf0;" | '''6''' [ | + | | style="background:#eaecf0;" | '''6''' [https://youtu.be/dNw3cq3vpZA?si=aM0f_blwFINo7DtR Запись] || Пример ETL процесса || 06.12.23 || |
|- | |- | ||
| style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ Ноутбук]] Оптимизация производительности || 13.12.23 || | | style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ Ноутбук]] Оптимизация производительности || 13.12.23 || | ||
Строка 49: | Строка 49: | ||
==Формула оценивания== | ==Формула оценивания== | ||
− | Оценка = . | + | Оценка = '''0.3'''*проект + '''0.5'''*практические задания + '''0.2'''*тесты |
+ | '''UPD1:''' начиная со второго домашнего задания, снимаем 1 балл раз в три дня за сдачу после deadline, но ниже 4 не снимаем. | ||
+ | |||
+ | '''UPD2:''' начиная с 3 ДЗ снимаем до 1 балла за неаккуратное оформление кода (не следует общеизвестным sql style guides) | ||
== Домашние задания == | == Домашние задания == | ||
− | # | + | Ссылка на Anytask: https://anytask.org/course/1073 |
− | # | + | |
− | # | + | Инвайт: <code>pAmU3Cl</code> |
− | # | + | |
+ | # Нормальные формы и нормализация (см. слайды 1-й лекции) ('''дедлайн''': 14.11.23 23.30) | ||
+ | # SCD 2 ('''дедлайн''': 25.11 23:59) | ||
+ | # ДЗ-3 ('''deadline 3.12.23 23:59''') | ||
+ | # ДЗ-4 ('''deadline 12.12.23 23:59''') | ||
+ | # ДЗ-5 ('''deadline 18.12.23 23:59''') | ||
+ | |||
+ | == Проект == | ||
+ | |||
+ | [https://docs.google.com/document/d/1-z-lDPeuFKCxObfJtk4vIiJpdDR12CuoGDHT4wN4RCk/edit?usp=sharing ссылка на условия] | ||
+ | |||
+ | '''UPD''': дедлайн по проекту '''30.12.2023 23:59''' | ||
== Литература == | == Литература == |
Текущая версия на 01:58, 21 декабря 2023
Содержание
О курсе
Занятия проводятся в Zoom по средам в 18.00
Онлайн-курс в дополнение к парам: курс
Контакты
Чат курса в TG: https://t.me/+bZVVpYru9p9mMWVi
Преподаватель: Дикалин Кирилл, Анатолий Бардуков
Ассистент | Контакты |
---|---|
Андрей Бабынин | @maninoffice |
Максим | @mlixakov |
Материалы курса
Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzAlLMt5dER6WYXFuTNhmVpG
Ссылка на GitHub с материалами курса: GitHub repository
Занятие | Тема | Дата | Материалы для самоподготовки к семинарам |
---|---|---|---|
1 Запись | Введение инженер данных | 01.11.23 | |
2 Запись | PostgreSQL, Схема данных, Slowly Changing Dimensions | 08.11.23 | |
3 Запись | Агрегатные функции, SCD | 15.11.23 | |
4 Запись | Регулярные выражения | 22.11.23 | |
5 Запись | Оптимизация запросов и CDC | 29.11.23 | |
6 Запись | Пример ETL процесса | 06.12.23 | |
7 Запись | Ноутбук Оптимизация производительности | 13.12.23 |
Записи консультаций
Формула оценивания
Оценка = 0.3*проект + 0.5*практические задания + 0.2*тесты
UPD1: начиная со второго домашнего задания, снимаем 1 балл раз в три дня за сдачу после deadline, но ниже 4 не снимаем.
UPD2: начиная с 3 ДЗ снимаем до 1 балла за неаккуратное оформление кода (не следует общеизвестным sql style guides)
Домашние задания
Ссылка на Anytask: https://anytask.org/course/1073
Инвайт: pAmU3Cl
- Нормальные формы и нормализация (см. слайды 1-й лекции) (дедлайн: 14.11.23 23.30)
- SCD 2 (дедлайн: 25.11 23:59)
- ДЗ-3 (deadline 3.12.23 23:59)
- ДЗ-4 (deadline 12.12.23 23:59)
- ДЗ-5 (deadline 18.12.23 23:59)
Проект
UPD: дедлайн по проекту 30.12.2023 23:59
Литература
- Kimball, R. and M. Ross. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition), 2002
- Inmon, W. H., Teradata, and Corporation. (2016). Building the Data Warehouse. John Wiley & Sons.
Redman, T. C. (1996). Data Quality: The Field Guide. Digital Press. - "Медленно меняющееся измерение (SCD)"
- Connelly, J. Asynchronous Data Dependencies in Distributed Systems. ACM Digital Library.
Ousterhout, J. A. (2013). A Philosophy of Software Design. Addison-Wesley.
Martin, R. C. (2017). Clean Architecture: A Craftsman's Guide to Software Structure and Design. Pearson Education.
Fowler, M. (2012). Patterns of Enterprise Application Architecture. Addison-Wesley.
Смит, М., & Дэвидсон, Р. (2015). Разработка эффективных алгоритмов и программ. Вильямс.
Gamma, E., Helm, R., Johnson, R., & Vlissides, J. (1994). Design Patterns: Elements of Reusable Object-Oriented Software. Addison-Wesley. - "SQL Performance Explained" by Markus Winand.
"High Performance MySQL" by Baron Schwartz, Peter Zaitsev, Vadim Tkachenko.
"Designing Data-Intensive Applications" by Martin Kleppmann.
"The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling" by Ralph Kimball and Margy Ross.
"Practical ETL Design: Building High-Performance Data Integration Systems" by Jordan Tigani and Christopher Jones.
...
- Jay Kreps - "I Heart Logs: Event Data, Stream Processing, and Data Integration"
Nathan Marz, James Warren - "Big Data: Principles and best practices of scalable real-time data systems"