Симулятор прочтений генома (проект) — различия между версиями

Текущая версия на 10:52, 20 октября 2015


Ментор	Колесниченко Игнатий
Учебный семестр	Весна 2015
Учебный курс	1-й курс


Содержание 1 Что это за проект? 2 Чему вы научитесь? 3 Какие начальные требования? 4 Какие будут использоваться технологии? 5 Темы вводных занятий 6 Направления развития 7 Критерии оценки

Что это за проект?

Задача состоит в том, чтобы написать программу, которая генерирует случайные прочтения генома. Данная программа крайне полезна для тестирования различных алгоритмов выравнивания (https://ru.wikipedia.org/wiki/Картирование_коротких_прочтений). Также будет необходимо измерить качество различных алгоритмов выравнивания на симулированных данных.

Чему вы научитесь?

Вы узнаете:

Что такое секвенирование генома нового поколения, и как обрабатываются его данные.
Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.
Как сравнивать различные выравниватели и визуализировать результаты сравнения.

Какие начальные требования?

Необходимо на базовом уровне знать C++ и Python, а также желание разобраться в том, как анализируется геном.

Какие будут использоваться технологии?

В процессе работы необходимо будет работать с разными форматами представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).

Темы вводных занятий

Введение в молекулярную биологию: что такое ДНК, геном, белки, мутации.
Алгоритмы выравнивания коротких прочтений.

Направления развития

Научиться генерировать разные типа ошибок: точечные мутации, короткие инсерции/делеции, длинные инсерции/делеции, транслокации.
Научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д

Критерии оценки

4-5 – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации. С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
6-7 – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
8-10 – генерация данных специфичных для различных выравнивателей и сравнение качества работы различных специфичных выравнивателей с учетом полученных данных. Добавление в сравнение качества коллеров мутаций.

@@ Строка 1: / Строка 1: @@
 {{Карточка_проекта
-|name=Симулятор прочтений генома
+|name=Симулятор случайных прочтений генома
 |mentor=Колесниченко Игнатий
-|mentor_login={{URLENCODE:{{REVISIONUSER}}|WIKI}}
+|mentor_login={{URLENCODE:Ignat|WIKI}}
 |semester=Весна 2015
 |course=1
-|summer=on
+|summer=
 |categorize=yes
+|is_archived=yes
 }}
@@ Строка 14: / Строка 15: @@
 === Чему вы научитесь? ===
 Вы узнаете:
-* Что такое секвенирование нового поколения, и как обрабатываются его данные.
+* Что такое секвенирование генома нового поколения, и как обрабатываются его данные.
 * Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.
-* Как сравнивать различные симуляторы и визуализировать результаты сравнения.
+* Как сравнивать различные выравниватели и визуализировать результаты сравнения.
 === Какие начальные требования? ===
-Необходимо на базовом уровне знать C++ и Python а также желание разобраться в том как анализируется геном.
+Необходимо на базовом уровне знать C++ и Python, а также желание разобраться в том, как анализируется геном.
 === Какие будут использоваться технологии? ===
-В процессе работы необходимо будет работать с разными форматы представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).
+В процессе работы необходимо будет работать с разными форматами представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).
 === Темы вводных занятий ===
@@ Строка 29: / Строка 30: @@
 === Направления развития ===
-* Научиться генерировать разные типа ошибок: точечные мутации, которкие инсерции/делеции, длинные инсерции/делеции, транслокации.
+* Научиться генерировать разные типа ошибок: точечные мутации, короткие инсерции/делеции, длинные инсерции/делеции, транслокации.
 * Научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д
 === Критерии оценки ===
-* "удл" – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации.  С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
+* 4-5 – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации.  С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
-* "хор" – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
+* 6-7 – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
-* "отл" – генерация данных специфичных для различных выравнивателей и сравнение специфичных качества работы различных выравнивателей с учетом полученных данных.
+* 8-10 – генерация данных специфичных для различных выравнивателей и сравнение качества работы различных специфичных выравнивателей с учетом полученных данных. Добавление в сравнение качества коллеров мутаций.

Симулятор прочтений генома (проект) — различия между версиями

Текущая версия на 10:52, 20 октября 2015

Содержание

Что это за проект?

Чему вы научитесь?

Какие начальные требования?

Какие будут использоваться технологии?

Темы вводных занятий

Направления развития

Критерии оценки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Действия

Поиск

Навигация

Инструменты