Симулятор прочтений генома (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
 
(не показано 10 промежуточных версии 3 участников)
Строка 1: Строка 1:
 
{{Карточка_проекта
 
{{Карточка_проекта
|name=Симулятор прочтений генома
+
|name=Симулятор случайных прочтений генома
 
|mentor=Колесниченко Игнатий
 
|mentor=Колесниченко Игнатий
|mentor_login={{URLENCODE:{{REVISIONUSER}}|WIKI}}
+
|mentor_login={{URLENCODE:Ignat|WIKI}}
 
|semester=Весна 2015
 
|semester=Весна 2015
 
|course=1
 
|course=1
|summer=on
+
|summer=
 
|categorize=yes
 
|categorize=yes
 +
|is_archived=yes
 
}}
 
}}
  
Строка 14: Строка 15:
 
=== Чему вы научитесь? ===
 
=== Чему вы научитесь? ===
 
Вы узнаете:
 
Вы узнаете:
* Что такое секвенирование нового поколения, и как обрабатываются его данные.  
+
* Что такое секвенирование генома нового поколения, и как обрабатываются его данные.  
 
* Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.  
 
* Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.  
* Как сравнивать различные симуляторы и визуализировать результаты сравнения.
+
* Как сравнивать различные выравниватели и визуализировать результаты сравнения.
  
 
=== Какие начальные требования? ===
 
=== Какие начальные требования? ===
Необходимо на базовом уровне знать C++ и Python а также желание разобраться в том как анализируется геном.
+
Необходимо на базовом уровне знать C++ и Python, а также желание разобраться в том, как анализируется геном.
  
 
=== Какие будут использоваться технологии? ===
 
=== Какие будут использоваться технологии? ===
В процессе работы необходимо будет работать с разными форматы представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).
+
В процессе работы необходимо будет работать с разными форматами представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).
  
 
=== Темы вводных занятий ===
 
=== Темы вводных занятий ===
Строка 29: Строка 30:
  
 
=== Направления развития ===
 
=== Направления развития ===
* Научиться генерировать разные типа ошибок: точечные мутации, которкие инсерции/делеции, длинные инсерции/делеции, транслокации.  
+
* Научиться генерировать разные типа ошибок: точечные мутации, короткие инсерции/делеции, длинные инсерции/делеции, транслокации.  
 
* Научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д
 
* Научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д
  
 
=== Критерии оценки ===
 
=== Критерии оценки ===
* "удл" – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации.  С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
+
* 4-5 – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации.  С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
* "хор" – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
+
* 6-7 – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
* "отл" – генерация данных специфичных для различных выравнивателей и сравнение качества работы различных специфичных выравнивателей с учетом полученных данных. Добавление в сравнение качества коллеров мутаций.
+
* 8-10 – генерация данных специфичных для различных выравнивателей и сравнение качества работы различных специфичных выравнивателей с учетом полученных данных. Добавление в сравнение качества коллеров мутаций.

Текущая версия на 10:52, 20 октября 2015

Ментор Колесниченко Игнатий
Учебный семестр Весна 2015
Учебный курс 1-й курс


Внимание! Данный проект находится в архиве и реализован не будет.

Что это за проект?

Задача состоит в том, чтобы написать программу, которая генерирует случайные прочтения генома. Данная программа крайне полезна для тестирования различных алгоритмов выравнивания (https://ru.wikipedia.org/wiki/Картирование_коротких_прочтений). Также будет необходимо измерить качество различных алгоритмов выравнивания на симулированных данных.

Чему вы научитесь?

Вы узнаете:

  • Что такое секвенирование генома нового поколения, и как обрабатываются его данные.
  • Какие ошибки бывают в данной технологии и как такие ошибки можно симулировать искусственным образом.
  • Как сравнивать различные выравниватели и визуализировать результаты сравнения.

Какие начальные требования?

Необходимо на базовом уровне знать C++ и Python, а также желание разобраться в том, как анализируется геном.

Какие будут использоваться технологии?

В процессе работы необходимо будет работать с разными форматами представлени геномных данных (fastq, fasta, sam, bam) а также запускать различные программы для их обработки (BWA, Bowtie, Shrimp).

Темы вводных занятий

  • Введение в молекулярную биологию: что такое ДНК, геном, белки, мутации.
  • Алгоритмы выравнивания коротких прочтений.

Направления развития

  • Научиться генерировать разные типа ошибок: точечные мутации, короткие инсерции/делеции, длинные инсерции/делеции, транслокации.
  • Научиться учитывать специфику различных секвенаторов: падение качества выравнивания ближе к концу рида, парные риды, высокая частота точечных делеций и.т.д

Критерии оценки

  • 4-5 – необходимо написать простейший алгоритм генерации случайных прочтений, учитывающий точечные мутации. С помощью сгенерированных данных необходимо измерить качество хотя бы двух выравнивателей.
  • 6-7 – алгоритм должен уметь генерировать инсерции и делеции, иметь разные настройки про желаемое покрытие, частоту мутаций и пр.
  • 8-10 – генерация данных специфичных для различных выравнивателей и сравнение качества работы различных специфичных выравнивателей с учетом полученных данных. Добавление в сравнение качества коллеров мутаций.