Симулятор прочтений генома (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Темы вводных занятий)
(Критерии оценки)
Строка 32: Строка 32:
  
 
=== Критерии оценки ===
 
=== Критерии оценки ===
4-5: необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации.  С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
+
* "удл" – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации.  С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
6-7: алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
+
* "хор" – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
8-10: генерация данных специфичных для различных выравнивателей и сравнение специфичных качества работы различных выравнивателей с учетом полученных данных.
+
* "отл" – генерация данных специфичных для различных выравнивателей и сравнение специфичных качества работы различных выравнивателей с учетом полученных данных.

Версия 01:07, 24 ноября 2014

Ментор Колесниченко Игнатий
Учебный семестр Весна 2015
Учебный курс 1-й курс
Проект можно развивать на летней практике



Что это за проект?

Задача состоит в том, чтобы написать программу, которая генерирует случайные прочтения генома. Данная программа крайне полезна для тестирования различных алгоритмов выравнивания (https://ru.wikipedia.org/wiki/Картирование_коротких_прочтений). Также будет необходимо измерить качество различных алгоритмов выравнивания на симулированных данных.

Чему вы научитесь?

Вы узнаете:

  1. Что такое секвенирование нового поколения, и как обрабатываются его данные.
  2. Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.
  3. Как сравнивать различные симуляторы и визуализировать результаты сравнения.

Какие начальные требования?

Необходимо на базовом уровне знать C++ и Python а также желание разобраться в том как анализируется геном.

Какие будут использоваться технологии?

В процессе работы необходимо будет работать с разными форматы представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).

Темы вводных занятий

  1. Введение в молекулярную биологию: что такое ДНК, геном, белки, мутации.
  2. Алгоритмы выравнивания коротких прочтений.

Направления развития

Можно научиться генерировать разные типа ошибок: точечные мутации, которкие инсерции/делеции, длинные инсерции/делеции, транслокации. Также можно научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д

Критерии оценки

  • "удл" – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации. С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
  • "хор" – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
  • "отл" – генерация данных специфичных для различных выравнивателей и сравнение специфичных качества работы различных выравнивателей с учетом полученных данных.