Симулятор прочтений генома (проект)


Ментор	Колесниченко Игнатий
Учебный семестр	Весна 2015
Учебный курс	1-й курс
Проект можно развивать на летней практике

Содержание 1 Что это за проект? 2 Чему вы научитесь? 3 Какие начальные требования? 4 Какие будут использоваться технологии? 5 Темы вводных занятий 6 Направления развития 7 Критерии оценки

Что это за проект?

Задача состоит в том, чтобы написать программу, которая генерирует случайные прочтения генома. Данная программа крайне полезна для тестирования различных алгоритмов выравнивания (https://ru.wikipedia.org/wiki/Картирование_коротких_прочтений). Также будет необходимо измерить качество различных алгоритмов выравнивания на симулированных данных.

Чему вы научитесь?

Вы узнаете:

Что такое секвенирование генома нового поколения, и как обрабатываются его данные.
Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.
Как сравнивать различные выравниватели и визуализировать результаты сравнения.

Какие начальные требования?

Необходимо на базовом уровне знать C++ и Python, а также желание разобраться в том, как анализируется геном.

Какие будут использоваться технологии?

В процессе работы необходимо будет работать с разными форматы представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).

Темы вводных занятий

Введение в молекулярную биологию: что такое ДНК, геном, белки, мутации.
Алгоритмы выравнивания коротких прочтений.

Направления развития

Научиться генерировать разные типа ошибок: точечные мутации, короткие инсерции/делеции, длинные инсерции/делеции, транслокации.
Научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д

Критерии оценки

4-5 – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации. С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
6-7 – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
8-10 – генерация данных специфичных для различных выравнивателей и сравнение качества работы различных специфичных выравнивателей с учетом полученных данных. Добавление в сравнение качества коллеров мутаций.

Симулятор прочтений генома (проект)

Содержание

Что это за проект?

Чему вы научитесь?

Какие начальные требования?

Какие будут использоваться технологии?

Темы вводных занятий

Направления развития

Критерии оценки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты