МОВС Data Engineering (2023-24 уч. год, 6 модуль) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (ссылка на зум)
м (добавил дедлайн)
 
(не показано 14 промежуточных версии 2 участников)
Строка 33: Строка 33:
 
| style="background:#eaecf0;" | '''2''' [https://youtu.be/B2f3XudVmDw?si=s4A1oA5pW4sazJIz Запись] || [https://docs.google.com/presentation/d/1nS_OkWjHURME71EAulZersuvtElPp11L/edit?usp=sharing&ouid=107809942589012152758&rtpof=true&sd=true PostgreSQL, Схема данных, Slowly Changing Dimensions] || 08.11.23 ||  
 
| style="background:#eaecf0;" | '''2''' [https://youtu.be/B2f3XudVmDw?si=s4A1oA5pW4sazJIz Запись] || [https://docs.google.com/presentation/d/1nS_OkWjHURME71EAulZersuvtElPp11L/edit?usp=sharing&ouid=107809942589012152758&rtpof=true&sd=true PostgreSQL, Схема данных, Slowly Changing Dimensions] || 08.11.23 ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''3''' [[ Запись]] || [[ Ноутбук]] Источники данных в DWH || 15.11.23 ||
+
| style="background:#eaecf0;" | '''3''' [https://youtu.be/2vnaX7H9leg?si=S08NTQ73_CT16-6N Запись] || [https://docs.google.com/presentation/d/159P4b7ndBmF-sZbxZKJ9S86wdejxT8ju/edit?usp=sharing&ouid=107809942589012152758&rtpof=true&sd=true Агрегатные функции, SCD] || 15.11.23 ||
 
|-
 
|-
| style="background:#eaecf0;" | '''4''' [[ Запись]] || [[ Ноутбук]] Работа с данными в разных временных контекстах || 22.11.23 ||  
+
| style="background:#eaecf0;" | '''4''' [https://youtu.be/Zc-kFVga6_A Запись] || [https://docs.google.com/presentation/d/14NLqIUhzYBWnApkHwyzswH6zVaMSBTF-/edit?usp=sharing&ouid=107809942589012152758&rtpof=true&sd=true Регулярные выражения] || 22.11.23 ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''5''' [[ Запись]] || [[ Ноутбук]] Асинхронные и сложные зависимости в данных || 29.11.23 ||  
+
| style="background:#eaecf0;" | '''5''' [https://www.youtube.com/watch?v=3iVfwZVKgTA&list=PLmA-1xX7IuzAlLMt5dER6WYXFuTNhmVpG Запись] || [https://docs.google.com/presentation/d/1unBxoZRdVfco7Jsm886BFm0FXWJqe_mE/edit?usp=sharing&ouid=107809942589012152758&rtpof=true&sd=true Оптимизация запросов и CDC] || 29.11.23 ||  
 
|-
 
|-
| style="background:#eaecf0;" | '''6''' [[ Запись]] || [[ Ноутбук]] Стриминг данных || 06.12.23 ||  
+
| style="background:#eaecf0;" | '''6''' [https://youtu.be/dNw3cq3vpZA?si=aM0f_blwFINo7DtR Запись] || Пример ETL процесса || 06.12.23 ||  
 
|-
 
|-
 
| style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ Ноутбук]] Оптимизация производительности || 13.12.23 ||  
 
| style="background:#eaecf0;" | '''7''' [[ Запись]] || [[ Ноутбук]] Оптимизация производительности || 13.12.23 ||  
Строка 50: Строка 50:
  
 
Оценка = '''0.3'''*проект + '''0.5'''*практические задания + '''0.2'''*тесты
 
Оценка = '''0.3'''*проект + '''0.5'''*практические задания + '''0.2'''*тесты
 +
 +
'''UPD1:''' начиная со второго домашнего задания, снимаем 1 балл раз в три дня за сдачу после deadline, но ниже 4 не снимаем.
 +
 +
'''UPD2:''' начиная с 3 ДЗ снимаем до 1 балла за неаккуратное оформление кода (не следует общеизвестным sql style guides)
  
 
== Домашние задания ==
 
== Домашние задания ==
 +
Ссылка на Anytask: https://anytask.org/course/1073
 +
 +
Инвайт: <code>pAmU3Cl</code>
 +
 
# Нормальные формы и нормализация (см. слайды 1-й лекции) ('''дедлайн''': 14.11.23 23.30)
 
# Нормальные формы и нормализация (см. слайды 1-й лекции) ('''дедлайн''': 14.11.23 23.30)
#  
+
# SCD 2 ('''дедлайн''': 25.11 23:59)
#  
+
# ДЗ-3 ('''deadline 3.12.23 23:59''')
#
+
# ДЗ-4 ('''deadline 12.12.23 23:59''')
 +
# ДЗ-5 ('''deadline 18.12.23 23:59''')
 +
 
 +
== Проект ==
  
Ссылка на anytask: https://anytask.org/course/1073
+
[https://docs.google.com/document/d/1-z-lDPeuFKCxObfJtk4vIiJpdDR12CuoGDHT4wN4RCk/edit?usp=sharing ссылка на условия]
  
Инвайт: pAmU3Cl
+
'''UPD''': дедлайн по проекту '''30.12.2023 23:59'''
  
 
== Литература ==
 
== Литература ==
Строка 65: Строка 76:
 
* Inmon, W. H., Teradata, and Corporation. (2016). Building the Data Warehouse. John Wiley & Sons. <br/> Redman, T. C. (1996). Data Quality: The Field Guide. Digital Press.
 
* Inmon, W. H., Teradata, and Corporation. (2016). Building the Data Warehouse. John Wiley & Sons. <br/> Redman, T. C. (1996). Data Quality: The Field Guide. Digital Press.
 
* [https://ru.wikipedia.org/wiki/Медленно_меняющееся_измерение "Медленно меняющееся измерение (SCD)"]
 
* [https://ru.wikipedia.org/wiki/Медленно_меняющееся_измерение "Медленно меняющееся измерение (SCD)"]
* Connelly, J. Asynchronous Data Dependencies in Distributed Systems. ACM Digital Library.
+
* Connelly, J. Asynchronous Data Dependencies in Distributed Systems. ACM Digital Library.<br/>Ousterhout, J. A. (2013). A Philosophy of Software Design. Addison-Wesley.<br/>Martin, R. C. (2017). Clean Architecture: A Craftsman's Guide to Software Structure and Design. Pearson Education.<br/>Fowler, M. (2012). Patterns of Enterprise Application Architecture. Addison-Wesley.<br/>Смит, М., & Дэвидсон, Р. (2015). Разработка эффективных алгоритмов и программ. Вильямс.<br/>Gamma, E., Helm, R., Johnson, R., & Vlissides, J. (1994). Design Patterns: Elements of Reusable Object-Oriented Software. Addison-Wesley.
* Ousterhout, J. A. (2013). A Philosophy of Software Design. Addison-Wesley.
+
*
* Martin, R. C. (2017). Clean Architecture: A Craftsman's Guide to Software Structure and Design. Pearson Education.
+
* "SQL Performance Explained" by Markus Winand. <br/>"High Performance MySQL" by Baron Schwartz, Peter Zaitsev, Vadim Tkachenko. <br/> "Designing Data-Intensive Applications" by Martin Kleppmann. <br/>"The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling" by Ralph Kimball and Margy Ross. <br/> "Practical ETL Design: Building High-Performance Data Integration Systems" by Jordan Tigani and Christopher Jones.
* Fowler, M. (2012). Patterns of Enterprise Application Architecture. Addison-Wesley.
+
...
* Разработка эффективных алгоритмов и программ. Вильямс.
+
* Jay Kreps - "I Heart Logs: Event Data, Stream Processing, and Data Integration" <br/> Nathan Marz, James Warren - "Big Data: Principles and best practices of scalable real-time data systems"
* Gamma, E., Helm, R., Johnson, R., & Vlissides, J. (1994). Design Patterns: Elements of Reusable Object-Oriented Software. Addison-Wesley.
+
* "SQL Performance Explained" by Markus Winand.  
+
* "High Performance MySQL" by Baron Schwartz, Peter Zaitsev, Vadim Tkachenko.  
+
* "Designing Data-Intensive Applications" by Martin Kleppmann.  
+
* "The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling" by Ralph Kimball and Margy Ross.  
+
* "Practical ETL Design: Building High-Performance Data Integration Systems" by Jordan Tigani and Christopher Jones.
+
* Jay Kreps - "I Heart Logs: Event Data, Stream Processing, and Data Integration"
+
* Nathan Marz, James Warren - "Big Data: Principles and best practices of scalable real-time data systems"
+

Текущая версия на 01:58, 21 декабря 2023

О курсе

Занятия проводятся в Zoom по средам в 18.00

Онлайн-курс в дополнение к парам: курс

Контакты

Чат курса в TG: https://t.me/+bZVVpYru9p9mMWVi

Преподаватель: Дикалин Кирилл, Анатолий Бардуков

Ассистент Контакты
Андрей Бабынин @maninoffice
Максим @mlixakov

Материалы курса

Плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzAlLMt5dER6WYXFuTNhmVpG

Ссылка на GitHub с материалами курса: GitHub repository

Занятие Тема Дата Материалы для самоподготовки к семинарам
1 Запись Введение инженер данных 01.11.23
2 Запись PostgreSQL, Схема данных, Slowly Changing Dimensions 08.11.23
3 Запись Агрегатные функции, SCD 15.11.23
4 Запись Регулярные выражения 22.11.23
5 Запись Оптимизация запросов и CDC 29.11.23
6 Запись Пример ETL процесса 06.12.23
7 Запись Ноутбук Оптимизация производительности 13.12.23

Записи консультаций

Формула оценивания

Оценка = 0.3*проект + 0.5*практические задания + 0.2*тесты

UPD1: начиная со второго домашнего задания, снимаем 1 балл раз в три дня за сдачу после deadline, но ниже 4 не снимаем.

UPD2: начиная с 3 ДЗ снимаем до 1 балла за неаккуратное оформление кода (не следует общеизвестным sql style guides)

Домашние задания

Ссылка на Anytask: https://anytask.org/course/1073

Инвайт: pAmU3Cl

  1. Нормальные формы и нормализация (см. слайды 1-й лекции) (дедлайн: 14.11.23 23.30)
  2. SCD 2 (дедлайн: 25.11 23:59)
  3. ДЗ-3 (deadline 3.12.23 23:59)
  4. ДЗ-4 (deadline 12.12.23 23:59)
  5. ДЗ-5 (deadline 18.12.23 23:59)

Проект

ссылка на условия

UPD: дедлайн по проекту 30.12.2023 23:59

Литература

  • Kimball, R. and M. Ross. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition), 2002
  • Inmon, W. H., Teradata, and Corporation. (2016). Building the Data Warehouse. John Wiley & Sons.
    Redman, T. C. (1996). Data Quality: The Field Guide. Digital Press.
  • "Медленно меняющееся измерение (SCD)"
  • Connelly, J. Asynchronous Data Dependencies in Distributed Systems. ACM Digital Library.
    Ousterhout, J. A. (2013). A Philosophy of Software Design. Addison-Wesley.
    Martin, R. C. (2017). Clean Architecture: A Craftsman's Guide to Software Structure and Design. Pearson Education.
    Fowler, M. (2012). Patterns of Enterprise Application Architecture. Addison-Wesley.
    Смит, М., & Дэвидсон, Р. (2015). Разработка эффективных алгоритмов и программ. Вильямс.
    Gamma, E., Helm, R., Johnson, R., & Vlissides, J. (1994). Design Patterns: Elements of Reusable Object-Oriented Software. Addison-Wesley.
  • "SQL Performance Explained" by Markus Winand.
    "High Performance MySQL" by Baron Schwartz, Peter Zaitsev, Vadim Tkachenko.
    "Designing Data-Intensive Applications" by Martin Kleppmann.
    "The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling" by Ralph Kimball and Margy Ross.
    "Practical ETL Design: Building High-Performance Data Integration Systems" by Jordan Tigani and Christopher Jones.

...

  • Jay Kreps - "I Heart Logs: Event Data, Stream Processing, and Data Integration"
    Nathan Marz, James Warren - "Big Data: Principles and best practices of scalable real-time data systems"