Симулятор прочтений генома (проект) — различия между версиями
Материал из Wiki - Факультет компьютерных наук
Ignat (обсуждение | вклад) |
|||
(не показано 11 промежуточных версии 3 участников) | |||
Строка 1: | Строка 1: | ||
{{Карточка_проекта | {{Карточка_проекта | ||
− | |name=Симулятор прочтений генома | + | |name=Симулятор случайных прочтений генома |
|mentor=Колесниченко Игнатий | |mentor=Колесниченко Игнатий | ||
− | |mentor_login={{URLENCODE: | + | |mentor_login={{URLENCODE:Ignat|WIKI}} |
|semester=Весна 2015 | |semester=Весна 2015 | ||
|course=1 | |course=1 | ||
− | |summer= | + | |summer= |
|categorize=yes | |categorize=yes | ||
+ | |is_archived=yes | ||
}} | }} | ||
Строка 14: | Строка 15: | ||
=== Чему вы научитесь? === | === Чему вы научитесь? === | ||
Вы узнаете: | Вы узнаете: | ||
− | * Что такое секвенирование нового поколения, и как обрабатываются его данные. | + | * Что такое секвенирование генома нового поколения, и как обрабатываются его данные. |
* Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом. | * Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом. | ||
− | * Как сравнивать различные | + | * Как сравнивать различные выравниватели и визуализировать результаты сравнения. |
=== Какие начальные требования? === | === Какие начальные требования? === | ||
− | Необходимо на базовом уровне знать C++ и Python а также желание разобраться в том как анализируется геном. | + | Необходимо на базовом уровне знать C++ и Python, а также желание разобраться в том, как анализируется геном. |
=== Какие будут использоваться технологии? === | === Какие будут использоваться технологии? === | ||
− | В процессе работы необходимо будет работать с разными | + | В процессе работы необходимо будет работать с разными форматами представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp). |
=== Темы вводных занятий === | === Темы вводных занятий === | ||
Строка 29: | Строка 30: | ||
=== Направления развития === | === Направления развития === | ||
− | * Научиться генерировать разные типа ошибок: точечные мутации, | + | * Научиться генерировать разные типа ошибок: точечные мутации, короткие инсерции/делеции, длинные инсерции/делеции, транслокации. |
* Научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д | * Научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д | ||
=== Критерии оценки === | === Критерии оценки === | ||
− | * | + | * 4-5 – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации. С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей. |
− | * | + | * 6-7 – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр. |
− | * | + | * 8-10 – генерация данных специфичных для различных выравнивателей и сравнение качества работы различных специфичных выравнивателей с учетом полученных данных. Добавление в сравнение качества коллеров мутаций. |
Текущая версия на 10:52, 20 октября 2015
Ментор | Колесниченко Игнатий |
Учебный семестр | Весна 2015 |
Учебный курс | 1-й курс |
Внимание! Данный проект находится в архиве и реализован не будет. |
Что это за проект?
Задача состоит в том, чтобы написать программу, которая генерирует случайные прочтения генома. Данная программа крайне полезна для тестирования различных алгоритмов выравнивания (https://ru.wikipedia.org/wiki/Картирование_коротких_прочтений). Также будет необходимо измерить качество различных алгоритмов выравнивания на симулированных данных.
Чему вы научитесь?
Вы узнаете:
- Что такое секвенирование генома нового поколения, и как обрабатываются его данные.
- Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.
- Как сравнивать различные выравниватели и визуализировать результаты сравнения.
Какие начальные требования?
Необходимо на базовом уровне знать C++ и Python, а также желание разобраться в том, как анализируется геном.
Какие будут использоваться технологии?
В процессе работы необходимо будет работать с разными форматами представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).
Темы вводных занятий
- Введение в молекулярную биологию: что такое ДНК, геном, белки, мутации.
- Алгоритмы выравнивания коротких прочтений.
Направления развития
- Научиться генерировать разные типа ошибок: точечные мутации, короткие инсерции/делеции, длинные инсерции/делеции, транслокации.
- Научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д
Критерии оценки
- 4-5 – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации. С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
- 6-7 – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
- 8-10 – генерация данных специфичных для различных выравнивателей и сравнение качества работы различных специфичных выравнивателей с учетом полученных данных. Добавление в сравнение качества коллеров мутаций.