Симулятор прочтений генома (проект) — различия между версиями

Версия 01:07, 24 ноября 2014


Ментор	Колесниченко Игнатий
Учебный семестр	Весна 2015
Учебный курс	1-й курс
Проект можно развивать на летней практике

Содержание 1 Что это за проект? 2 Чему вы научитесь? 3 Какие начальные требования? 4 Какие будут использоваться технологии? 5 Темы вводных занятий 6 Направления развития 7 Критерии оценки

Что это за проект?

Задача состоит в том, чтобы написать программу, которая генерирует случайные прочтения генома. Данная программа крайне полезна для тестирования различных алгоритмов выравнивания (https://ru.wikipedia.org/wiki/Картирование_коротких_прочтений). Также будет необходимо измерить качество различных алгоритмов выравнивания на симулированных данных.

Чему вы научитесь?

Вы узнаете:

Что такое секвенирование нового поколения, и как обрабатываются его данные.
Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.
Как сравнивать различные симуляторы и визуализировать результаты сравнения.

Какие начальные требования?

Необходимо на базовом уровне знать C++ и Python а также желание разобраться в том как анализируется геном.

Какие будут использоваться технологии?

В процессе работы необходимо будет работать с разными форматы представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).

Темы вводных занятий

Введение в молекулярную биологию: что такое ДНК, геном, белки, мутации.
Алгоритмы выравнивания коротких прочтений.

Направления развития

Можно научиться генерировать разные типа ошибок: точечные мутации, которкие инсерции/делеции, длинные инсерции/делеции, транслокации. Также можно научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д

Критерии оценки

"удл" – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации. С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
"хор" – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
"отл" – генерация данных специфичных для различных выравнивателей и сравнение специфичных качества работы различных выравнивателей с учетом полученных данных.

@@ Строка 32: / Строка 32: @@
 === Критерии оценки ===
--5: необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации.  С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
+* "удл" – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации.  С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
--7: алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
+* "хор" – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
--10: генерация данных специфичных для различных выравнивателей и сравнение специфичных качества работы различных выравнивателей с учетом полученных данных.
+* "отл" – генерация данных специфичных для различных выравнивателей и сравнение специфичных качества работы различных выравнивателей с учетом полученных данных.

Симулятор прочтений генома (проект) — различия между версиями

Версия 01:07, 24 ноября 2014

Содержание

Что это за проект?

Чему вы научитесь?

Какие начальные требования?

Какие будут использоваться технологии?

Темы вводных занятий

Направления развития

Критерии оценки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты