Симулятор прочтений генома (проект) — различия между версиями

Версия 01:13, 24 ноября 2014


Ментор	Колесниченко Игнатий
Учебный семестр	Весна 2015
Учебный курс	1-й курс
Проект можно развивать на летней практике

Содержание 1 Что это за проект? 2 Чему вы научитесь? 3 Какие начальные требования? 4 Какие будут использоваться технологии? 5 Темы вводных занятий 6 Направления развития 7 Критерии оценки

Что это за проект?

Задача состоит в том, чтобы написать программу, которая генерирует случайные прочтения генома. Данная программа крайне полезна для тестирования различных алгоритмов выравнивания (https://ru.wikipedia.org/wiki/Картирование_коротких_прочтений). Также будет необходимо измерить качество различных алгоритмов выравнивания на симулированных данных.

Чему вы научитесь?

Вы узнаете:

Что такое секвенирование генома нового поколения, и как обрабатываются его данные.
Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.
Как сравнивать различные выравниватели и визуализировать результаты сравнения.

Какие начальные требования?

Необходимо на базовом уровне знать C++ и Python а также желание разобраться в том как анализируется геном.

Какие будут использоваться технологии?

В процессе работы необходимо будет работать с разными форматы представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).

Темы вводных занятий

Введение в молекулярную биологию: что такое ДНК, геном, белки, мутации.
Алгоритмы выравнивания коротких прочтений.

Направления развития

Научиться генерировать разные типа ошибок: точечные мутации, которкие инсерции/делеции, длинные инсерции/делеции, транслокации.
Научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д

Критерии оценки

"удл" – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации. С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
"хор" – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
"отл" – генерация данных специфичных для различных выравнивателей и сравнение качества работы различных специфичных выравнивателей с учетом полученных данных. Добавление в сравнение качества коллеров мутаций.

@@ Строка 1: / Строка 1: @@
 {{Карточка_проекта
-|name=Симулятор прочтений генома
+|name=Симулятор случайных прочтений генома
 |mentor=Колесниченко Игнатий
 |mentor_login={{URLENCODE:{{REVISIONUSER}}|WIKI}}

Симулятор прочтений генома (проект) — различия между версиями

Версия 01:13, 24 ноября 2014

Содержание

Что это за проект?

Чему вы научитесь?

Какие начальные требования?

Какие будут использоваться технологии?

Темы вводных занятий

Направления развития

Критерии оценки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты