Сервис хранения аннотированных разноформатных данных “Large Data Inventory” — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
м (Откат правок Seosky (обсуждение) к версии Aapoludnitsin)
 
Строка 1: Строка 1:
Segeralah Mendaftar langsung di
+
{{Карточка_проекта
* [https://macanplay.net/ Macanslot]
+
|name=Сервис хранения аннотированных разноформатных данных “Large Data Inventory”
* [https://paradox3d.net/ InaTogel]
+
|mentor=Космачев Алексей
* [https://macanwin.net/ QqMacan]
+
|mentor_login={{URLENCODE:akosmachev|WIKI}}
* [https://lechers.cc/ RoyalToto]
+
|semester=Осень 2018
* [https://xenogames.net/ JayaTogelUp]
+
|course=3-4
* [https://eeooii.info/ Raja Slot4D]
+
|number_of_students=2-3
* [https://139.180.153.95/ Raja Slot4D]
+
|categorize=yes
* [https://209.58.183.93/ JayaTogelUp]
+
}}
* [https://ronin138.com/ Ronin138]
+
===Что за проект?===
* [https://addicthealious.website/ slot 4d]
+
Биоинформатические алгоритмы анализа данных пациента генерируют огромное количество различных файлов (порядка 50-100 Гб на каждого пациента). Для хранения таких объемов информации используются различные облачные хранилища, такие как  Rackspace Cloud Files, Amazon S3 и тд.  
* [https://18.142.23.191/ Macan Slot]
+
Основная проблема - это понять принадлежность того или иного объекта в хранилищах: к какому пациенту относится, к какому dataset, когда и кто данный объект загрузил, какой биоинформатический инструмент сгенерировал файл (название, версия и прочие метаданные), какие данные (мутации, экспрессии и т.п.) и какой формат данных, как долго нужно хранить данный объект и так далее.
* [https://royaltotopedia.com RoyTop88]
+
Важно отметить, что в хранилище помещаются данные пациентов из госпиталей, которая является PHI-информацией. Это означает, что необходим гибкий и надежный механизм разграничения прав доступа к распределенному хранилищу.
* [https://macanplay.com MacanSlot]
+
Помимо этого, необходимо обеспечивать консистентность данных, хранимых в системе - не должно быть фантомных объектов, которых на самом деле не существует, не должно оставаться файлов в реальном хранилище после удаления и тд.  
* [https://macantoto88.com Toto 88]
+
Каждый объект, помещаемый в LDI (Large Data Inventory), снабжается минимально необходимым набором атрибутов и мета-данных. Атрибуты могут быть заданы как пользователем, так и встроенными в систему. Атрибуты и значения будут использоваться при выборке и отображении хранимым в системе объектов. Метаданные - некоторый системный набор атрибутов, например, кто загрузил объект, когда, какой размер объекта, mime-тип данных и т.п.
* [https://jayatogelup.com.com jayatogelup]
+
Необходимо разработать прототип компоненты, которая на основе облачного хранилища общего назначения предоставит RESTful API для интеграции в платформу, CLI для доступа пользователя к хранилищу.  
[https://ronin19.com/ Ronin138]
+
===Начальные требования===
[https://addicthealing.website/ slot 4d]
+
* Умение работать с англоязычной технической литературой
[https://jayatogelcc.cc/ jayatogel]
+
* Базовое знание Python
[https://jayatogelcc.cc/ jayatogelcc]
+
* Готовность изучать новые технологии
[http://northcoaststeelhead.com/ northcoaststeelhead.com]
+
===Чему вы научитесь===
[http://supremeoutlet.us/ supremeoutlet.us]
+
* Обеспечивать гибкий авторизованный доступ к данным в распределенной системе
[http://208.78.220.231/ freebet]
+
* Реализовывать свой язык запросов и производить эффективный поиск по нему
[http://blackfridaymichaelkors.us/ freebet]
+
* Реализовывать клиентское приложение для работы с системой
[https://supremeshirtshop.us/ supremeshirtshop.us]
+
* Разворачивать самостоятельно и работать с существующими облачными решениями для хранения больших данных
[https://macanplayslot.web.fc2.com/ macanplay]
+
===Какие будут использоваться технологии===
[https://royaltotopedia4d.web.fc2.com/ royaltotopedia]
+
* Python, Golang
[https://macanplay8.web.fc2.com/ macanplay slot]
+
* Amazon S3 (Minio)
[https://royaltotopedia88.web.fc2.com/ royaltoto]
+
* MongoDB
[https://olxtotos.web.fc2.com/ olxtoto]
+
* Yacc\Lex
[https://linklist.bio/OLX.TOTO olxtoto]
+
===Критерии оценивания===
[https://c.mi.com/thread-4131553-1-0.html olxtoto]
+
* 4 - Реализован сервис, предоставляющий RESTApi с возможностью добавления записи о файле и его поиска
[https://heylink.me/FAFA138 fafa138]
+
* +2 - Реализован domain-specific language запросов
[https://heylink.me/FaFa138 fafa138]
+
* +3 - Реализован CLI c возможностью загружать реальные данные
[https://heylink.me/Fafa138 fafa138]
+
* +3 - Реализована авторизация
[https://magic.ly/FAFA138 fafa138]
+
===Контакты===
[https://fafa138slot.web.fc2.com fafa138]
+
Космачев Алексей adkosmachev@edu.hse.ru‎
[https://heylink.me/FAFA138 fafa138]
+
[http://ec2-13-250-3-146.ap-southeast-1.compute.amazonaws.com/ fafa138]
+

Текущая версия на 09:36, 26 августа 2022

Ментор Космачев Алексей
Учебный семестр Осень 2018
Учебный курс 3-4-й курс
Максимальное количество студентов, выбравших проект: 2-3


Что за проект?

Биоинформатические алгоритмы анализа данных пациента генерируют огромное количество различных файлов (порядка 50-100 Гб на каждого пациента). Для хранения таких объемов информации используются различные облачные хранилища, такие как Rackspace Cloud Files, Amazon S3 и тд. Основная проблема - это понять принадлежность того или иного объекта в хранилищах: к какому пациенту относится, к какому dataset, когда и кто данный объект загрузил, какой биоинформатический инструмент сгенерировал файл (название, версия и прочие метаданные), какие данные (мутации, экспрессии и т.п.) и какой формат данных, как долго нужно хранить данный объект и так далее. Важно отметить, что в хранилище помещаются данные пациентов из госпиталей, которая является PHI-информацией. Это означает, что необходим гибкий и надежный механизм разграничения прав доступа к распределенному хранилищу. Помимо этого, необходимо обеспечивать консистентность данных, хранимых в системе - не должно быть фантомных объектов, которых на самом деле не существует, не должно оставаться файлов в реальном хранилище после удаления и тд. Каждый объект, помещаемый в LDI (Large Data Inventory), снабжается минимально необходимым набором атрибутов и мета-данных. Атрибуты могут быть заданы как пользователем, так и встроенными в систему. Атрибуты и значения будут использоваться при выборке и отображении хранимым в системе объектов. Метаданные - некоторый системный набор атрибутов, например, кто загрузил объект, когда, какой размер объекта, mime-тип данных и т.п. Необходимо разработать прототип компоненты, которая на основе облачного хранилища общего назначения предоставит RESTful API для интеграции в платформу, CLI для доступа пользователя к хранилищу.

Начальные требования

  • Умение работать с англоязычной технической литературой
  • Базовое знание Python
  • Готовность изучать новые технологии

Чему вы научитесь

  • Обеспечивать гибкий авторизованный доступ к данным в распределенной системе
  • Реализовывать свой язык запросов и производить эффективный поиск по нему
  • Реализовывать клиентское приложение для работы с системой
  • Разворачивать самостоятельно и работать с существующими облачными решениями для хранения больших данных

Какие будут использоваться технологии

  • Python, Golang
  • Amazon S3 (Minio)
  • MongoDB
  • Yacc\Lex

Критерии оценивания

  • 4 - Реализован сервис, предоставляющий RESTApi с возможностью добавления записи о файле и его поиска
  • +2 - Реализован domain-specific language запросов
  • +3 - Реализован CLI c возможностью загружать реальные данные
  • +3 - Реализована авторизация

Контакты

Космачев Алексей adkosmachev@edu.hse.ru‎