Симулятор прочтений генома (проект) — различия между версиями
Ignat (обсуждение | вклад) (→Чему вы научитесь?) |
Ignat (обсуждение | вклад) (→Темы вводных занятий) |
||
Строка 25: | Строка 25: | ||
=== Темы вводных занятий === | === Темы вводных занятий === | ||
− | + | # Введение в молекулярную биологию: что такое ДНК, геном, белки, мутации. | |
− | + | # Алгоритмы выравнивания коротких прочтений. | |
− | + | ||
=== Направления развития === | === Направления развития === |
Версия 01:05, 24 ноября 2014
Ментор | Колесниченко Игнатий |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Проект можно развивать на летней практике | |
Что это за проект?
Задача состоит в том, чтобы написать программу, которая генерирует случайные прочтения генома. Данная программа крайне полезна для тестирования различных алгоритмов выравнивания (https://ru.wikipedia.org/wiki/Картирование_коротких_прочтений). Также будет необходимо измерить качество различных алгоритмов выравнивания на симулированных данных.
Чему вы научитесь?
Вы узнаете:
- Что такое секвенирование нового поколения, и как обрабатываются его данные.
- Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.
- Как сравнивать различные симуляторы и визуализировать результаты сравнения.
Какие начальные требования?
Необходимо на базовом уровне знать C++ и Python а также желание разобраться в том как анализируется геном.
Какие будут использоваться технологии?
В процессе работы необходимо будет работать с разными форматы представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).
Темы вводных занятий
- Введение в молекулярную биологию: что такое ДНК, геном, белки, мутации.
- Алгоритмы выравнивания коротких прочтений.
Направления развития
Можно научиться генерировать разные типа ошибок: точечные мутации, которкие инсерции/делеции, длинные инсерции/делеции, транслокации. Также можно научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д
Критерии оценки
4-5: необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации. С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей. 6-7: алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр. 8-10: генерация данных специфичных для различных выравнивателей и сравнение специфичных качества работы различных выравнивателей с учетом полученных данных.