Распределённые системы 1-2021-2022
Материал из Wiki - Факультет компьютерных наук
Версия от 11:49, 3 августа 2022; SavelyProkhorov (обсуждение | вклад)
О курсе
Этот курс является логическим продолжением курса "Обработка и анализ больших данных", проходившего в 4-5 модулях
Занятия проводятся в Zoom по четвергам в 18:00
Контакты
Канал курса в TG: HighLoad channel link
Чат курса в TG: HighLoad chat link
Преподаватель | Контакты |
---|---|
Илья Косарев | Telegram |
Материалы курса
Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzCc_Jh9l9x6oWadW31XhDux
Описание проекта: GoogleDoc
Неделя | Тема | Материалы для подготовки к занятию | Дополнительные материалы |
---|---|---|---|
1 | Основы распределённых систем |
Статья PhoenixNAP: "How to Use SSH to Connect to a Remote Server in Linux or Windows", Статья на doc-странице VSCode "Remote Development using SSH", Splunk: "What are distributed systems", |
[Рабочий конфиг], должен лежать в папке .ssh |
2 | Консультация | Chandy–Lamport’s global state recording algorithm | |
3 |
Прогнать на сервере ноутбук "FMA: A Dataset For Music Analysis" |
||
4 | |||
... | |||
Задания
- Реализовать в Python с помощью rabbitMQ алгоритм для снимка глобального состояния распределённой системы (см. Chandy–Lamport algorithm on Wiki). Рекомендуется библиотека pika
- Реализовать MapReduce решение, позволяющее построить обратный индекс с частотностью слов по коллекции предоставленных документов. Слова достаточно очистить от знаков пунктуации и привести к нижнему регистру. Результат - csv-таблица: по вертикали - слова (токены), по горизонтали - документы. Для каждой пары токен+документ написать количество вхождений. Сравнить время выполнения на одном и нескольких клиентах
- Реализовать максимально возможное ускорение обработки датасета путём распараллеливания на MPI для обработки датасета на основе ноутбука /NEW_HDD/HDD_3TB/kosarev/HW3MPI/create_audio_features.ipynb . Данные в той же директории. Также лежит на всякий случай на https://disk.yandex.ru/d/ouF-uOdrXtGNBw
- Новое домашнее задание по проекту, выполняем в командах. Реализация обучения свёрточной сети с помощью horovod на 4 видеокартах сервера для данных, полученных в результате предобработки, выполненной в предыдущем задании. Можно выполнить по аналогии с /NEW_HDD/HDD_3TB/kosarev/hvdExample/pytorch_mnist.py