НИС Распределенные системы (3 курс, 2017)
Содержание
Информация про семинар
В рамках научно-исследовательского семинара по распределенным системам изучаются основные понятия, принципы и результаты предметной области.
Контакты: Пузыревский Иван Витальевич
Список тем курсовых работ: http://wiki.cs.hse.ru/Темы_для_курсовых_работ_2017_(РС)
Оценка
- Проверочная работа 1 <= 4 баллов
- Задание 1 <= 3 баллов
- Проверочная работа 2 <= 4 баллов
- Задание 2 <= 3 баллов
Текущая таблица с оценками и ведомостью: https://docs.google.com/spreadsheets/d/16Z74fhT_TnNscsVviU9KU2mVlaMrmX3weQ6ku5jGGbk/edit?usp=sharing
Занятия
1 модуль
- Модель распределенных вычислений.
- Объекты-регистры, типы регистров (bool/int; safe/regular/atomic; single/multi-reader; single/multi-writer).
- Эквивалентность вычислительной силы SRSW Bool Safe & MRMW Int Atomic.
- Блокировки (locks). Понятия живости (liveness) и безопасности (safety). Мьютекс Лампорта.
Литература: Herlihy, Shavit -- The Art of Multiprocessor Programming (https://www.dropbox.com/s/s8sssgp95hq5f6q/aompp.pdf?dl=0). Главы 2-4.
2 модуль
- Lock-free & wait-free исполнения.
- Примитив консенсуса. Число консенсуса как характеристика примитивов синхронизации.
- Универальность консенсуса.
Литература: Herlihy, Shavit -- The Art of Multiprocessor Programming (https://www.dropbox.com/s/s8sssgp95hq5f6q/aompp.pdf?dl=0). Главы 5-6.
Работа над ошибками (всем): задачи 11-19, все; deadline: НИС неделе 15.01-21.01.
3 модуль
Распределенные алгоритмы. Время, часы, порядок на событиях.
Назначенные статьи для разбора на занятии:
- на 29.01; Богданова: Lamport -- Time, clocks and the ordering of events in a distributed system (pdf)
- на 29.01; Божко: Fidge -- Timestamps in message-passing systems that preserve the partial ordering (pdf)
- на 05.02; Когтенков: Mills -- Internet time synchronization: the network time protocol (pdf)
Литература: Garg -- Elements Of Distributed Computing.
4 модуль
Назначенные статьи для разбора на занятии:
- на 25.05; ???: Liskov, Cowling -- Viewstamped replication revisited (pdf) + Oki, Liskov -- Viewstamped replication: a new primary copy method to support highly available distributed systems (pdf)
- на 08.06; ???: Ongaro, Ousterhout -- In search of understandable consensus algorithm (pdf) + Ousterhout -- Raft lecture (video; 1.0ч)
Задание 1
Заготовка: https://github.com/sandello/hse-queue-assignment
Дедлайн: 23 апреля 08:00.
Вам необходимо создать файл solution_xxx.cpp ("xxx" замените на вашу фамилию), содержащий реализацию lock-free многопоточной очереди с интерфейсом IQueue; в конце файла определить тип TheQueue. Далее, скомпилировать ваше решение можно с помощью скрипта compile.sh. Решение считается корректным, если скомпилированная программа корректно, без ошибок отрабатывает при запуске с флагом --gtest_repeat=100.
В качестве решения можно реализовать Michael-Scott Queue или очередь с использованием универсальной конструкции из второго модуля.
Ваше решение -- cpp-файл -- присылайте на почту sandello@gmail.com или присылайте ссылку на GH.
Задание 2
Заготовка: https://github.com/sandello/hse-paxos-assignment
Дедлайн: 4 июня 08:00.
Вам необходимо создать файл solution_xxx.py ("xxx" замените на вашу фамилию), содержащий реализацию процесса распределенного отказоустойчивого write-once key-value хранилища. Write-once значит, что каждый ключ можно записать не более, чем один раз (попытки перезаписи не приводят к изменению значения). Key-value store значит, что хранилище адресует пользовательские строковые данные по пользовательскому строковому ключу. Работа с данными по фиксированному ключу имеет семантику регулярного регистра. Распределенность и отказоустойчивость значат, что операции чтения и записи может обрабатывать любая реплика (экземпляр процесса), и остановка меньшей части реплик не останавливает процесс операций.
В задании предполагается следующая модель разработки: ваш процесс должен наследоваться от класса Process, определенном в файле public.py. Класс Process обладает тремя абстрактными методами: setup, on_tick, on_receive. Метод setup вызывается при инициализации теста и используется для передачи вашему процессу информации об окружении: в частности, о количестве процессов. Метод on_tick вызывается, когда конкретно данному процессу дается квант времени для внутренней работы. Метод on_receive вызывается при доставке данному конкретному процессу сообщения (в качестве сообщения можно использовать любой сериализуемый в json объект). В методы on_tick и on_receive передается контекст (ctx); объект контекста реализует интерфейс Context; контекст можно использовать для получения текущего (логического) времени и для отправки сообщения какому-либо другому процессу. Контекст нельзя сохранять и переиспользовать между разными вызовами on_tick и on_receive.
Такая модель разработки отражает теоретическую модель и позволяет эмулировать отказы и эффекты асинхронности в тестах. Не допускается порождать и использовать фоновые потоки (threads); ваш код должен быть однопоточным. Код тестов взаимодействует с вашим процессом путем отправки специальных сообщений а-ля RPC-запрос. Формат сообщения следующий: {"method": "M", "request_id": N, ...}. Код тестов отправляет запросы с M=get или M=set и ожидает получить в ответ (спустя некоторое количество шагов) в ответ структуру с ответом, аннотированную request_id.
Более точно, протокол взаимодействия следующий:
- {"method": "get", "request_id": N, "key": "K"} -> {"request_id": N, "value": "V"} ; запрос на чтение данных по ключу K (строка); в ответ ожидается значение V (строка).
- {"method": "set", "request_id": N, "key": "K", "value": "V"} -> {"request_id": N, "value": "W", "flag": "F"} ; запрос на запись данных V (строка) по ключу K (строка); в ответ приходит флаг-индикатор F исхода операции; если флаг истинен, то операция закончилась успешно, и в ячейку по ключу K было действительно сохранено значение V, и в таком случае возвращаемое значение W совпадает с V; если флаг ложен, то по каким-либо причинам операция записи закончилась неуспешно (заполненность ячейки / конкуренция при записи), и возвращается фактическое значение в ячейке W.
- в тестах чтение ключа K всегда идет строго после какой-либо успешной записи по ключу K.
Для запуска тестов используйте скрипт main.py. Ему необходимо передать путь до вашего класса в формате "МОДУЛЬ.КЛАСС". К примеру, main.py -i solution_puzyrevskiy_example.GlobalKeyValueStoreProcess. Для отладки передайте ключ -v.
Набор тестов скоро пополнится стресс-тестом. Если вы придумаете хороший, полезный тест, то присылайте PR.
Ваше решение -- py-файл и имя класса -- присылайте на почту sandello@gmail.com или присылайте ссылку на GH.