Распределённые системы 1-2021-2022

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Этот курс является логическим продолжением курса "Обработка и анализ больших данных", проходившего в 4-5 модулях

Занятия проводятся в Zoom по четвергам в 18:00

Контакты

Канал курса в TG: HighLoad channel link

Чат курса в TG: HighLoad chat link

Преподаватель Контакты
Илья Косарев Telegram

Материалы курса

Ссылка на плейлист курса на YouTube: https://www.youtube.com/playlist?list=PLmA-1xX7IuzCc_Jh9l9x6oWadW31XhDux

Описание проекта: GoogleDoc

Неделя Тема Материалы для подготовки к занятию Дополнительные материалы
1 Основы распределённых систем

Статья PhoenixNAP: "How to Use SSH to Connect to a Remote Server in Linux or Windows",

Статья на doc-странице VSCode "Remote Development using SSH",

Splunk: "What are distributed systems",

Wiki: Message Passing Inetrface (MPI),

[генерируем SSH-ключ]

[Рабочий конфиг], должен лежать в папке .ssh

[Презентация с занятия]

2 Консультация Chandy–Lamport’s global state recording algorithm
3

Message Passing Interface

MapReduce

Прогнать на сервере ноутбук "FMA: A Dataset For Music Analysis"

4
...

Задания

  1. Реализовать в Python с помощью rabbitMQ алгоритм для снимка глобального состояния распределённой системы (см. Chandy–Lamport algorithm on Wiki). Рекомендуется библиотека pika
  2. Реализовать MapReduce решение, позволяющее построить обратный индекс с частотностью слов по коллекции предоставленных документов. Слова достаточно очистить от знаков пунктуации и привести к нижнему регистру. Результат - csv-таблица: по вертикали - слова (токены), по горизонтали - документы. Для каждой пары токен+документ написать количество вхождений. Сравнить время выполнения на одном и нескольких клиентах
  3. Реализовать максимально возможное ускорение обработки датасета путём распараллеливания на MPI для обработки датасета на основе ноутбука /NEW_HDD/HDD_3TB/kosarev/HW3MPI/create_audio_features.ipynb . Данные в той же директории. Также лежит на всякий случай на https://disk.yandex.ru/d/ouF-uOdrXtGNBw
  4. Новое домашнее задание по проекту, выполняем в командах. Реализация обучения свёрточной сети с помощью horovod на 4 видеокартах сервера для данных, полученных в результате предобработки, выполненной в предыдущем задании. Можно выполнить по аналогии с /NEW_HDD/HDD_3TB/kosarev/hvdExample/pytorch_mnist.py

Формула оценивания