Распределённые системы 1-2021-2022 — различия между версиями
Материал из Wiki - Факультет компьютерных наук
м (add sems 2-3) |
м (some improvements) |
||
Строка 67: | Строка 67: | ||
== Задания == | == Задания == | ||
# Реализовать в Python с помощью rabbitMQ алгоритм для снимка глобального состояния распределённой системы (см. [https://en.wikipedia.org/wiki/Chandy%E2%80%93Lamport_algorithm Chandy–Lamport algorithm on Wiki]). Рекомендуется библиотека [https://pika.readthedocs.io/en/stable/ pika] | # Реализовать в Python с помощью rabbitMQ алгоритм для снимка глобального состояния распределённой системы (см. [https://en.wikipedia.org/wiki/Chandy%E2%80%93Lamport_algorithm Chandy–Lamport algorithm on Wiki]). Рекомендуется библиотека [https://pika.readthedocs.io/en/stable/ pika] | ||
+ | # Реализовать MapReduce решение, позволяющее построить обратный индекс с частотностью слов по коллекции предоставленных документов. Слова достаточно очистить от знаков пунктуации и привести к нижнему регистру. Результат - csv-таблица: по вертикали - слова (токены), по горизонтали - документы. Для каждой пары токен+документ написать количество вхождений. Сравнить время выполнения на одном и нескольких клиентах | ||
+ | # Реализовать максимально возможное ускорение обработки датасета путём распараллеливания на MPI для обработки датасета на основе ноутбука /NEW_HDD/HDD_3TB/kosarev/HW3MPI/create_audio_features.ipynb . Данные в той же директории. Также лежит на всякий случай на https://disk.yandex.ru/d/ouF-uOdrXtGNBw | ||
+ | # Новое домашнее задание по проекту, выполняем в командах. Реализация обучения свёрточной сети с помощью horovod на 4 видеокартах сервера для данных, полученных в результате предобработки, выполненной в предыдущем задании. Можно выполнить по аналогии с /NEW_HDD/HDD_3TB/kosarev/hvdExample/pytorch_mnist.py | ||
==Формула оценивания== | ==Формула оценивания== |
Версия 11:49, 3 августа 2022
О курсе
Этот курс является логическим продолжением курса "Обработка и анализ больших данных", проходившего в 4-5 модулях
Занятия проводятся в Zoom по четвергам в 18:00
Контакты
Канал курса в TG: HighLoad channel link
Чат курса в TG: HighLoad chat link
Преподаватель | Контакты |
---|---|
Илья Косарев | Telegram |
Материалы курса
Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzCc_Jh9l9x6oWadW31XhDux
Описание проекта: GoogleDoc
Неделя | Тема | Материалы для подготовки к занятию | Дополнительные материалы |
---|---|---|---|
1 | Основы распределённых систем |
Статья PhoenixNAP: "How to Use SSH to Connect to a Remote Server in Linux or Windows", Статья на doc-странице VSCode "Remote Development using SSH", Splunk: "What are distributed systems", |
[Рабочий конфиг], должен лежать в папке .ssh |
2 | Консультация | Chandy–Lamport’s global state recording algorithm | |
3 |
Прогнать на сервере ноутбук "FMA: A Dataset For Music Analysis" |
||
4 | |||
... | |||
Задания
- Реализовать в Python с помощью rabbitMQ алгоритм для снимка глобального состояния распределённой системы (см. Chandy–Lamport algorithm on Wiki). Рекомендуется библиотека pika
- Реализовать MapReduce решение, позволяющее построить обратный индекс с частотностью слов по коллекции предоставленных документов. Слова достаточно очистить от знаков пунктуации и привести к нижнему регистру. Результат - csv-таблица: по вертикали - слова (токены), по горизонтали - документы. Для каждой пары токен+документ написать количество вхождений. Сравнить время выполнения на одном и нескольких клиентах
- Реализовать максимально возможное ускорение обработки датасета путём распараллеливания на MPI для обработки датасета на основе ноутбука /NEW_HDD/HDD_3TB/kosarev/HW3MPI/create_audio_features.ipynb . Данные в той же директории. Также лежит на всякий случай на https://disk.yandex.ru/d/ouF-uOdrXtGNBw
- Новое домашнее задание по проекту, выполняем в командах. Реализация обучения свёрточной сети с помощью horovod на 4 видеокартах сервера для данных, полученных в результате предобработки, выполненной в предыдущем задании. Можно выполнить по аналогии с /NEW_HDD/HDD_3TB/kosarev/hvdExample/pytorch_mnist.py