Методы моделирования пространственной структуры протеинов. мАДБМ (2020-2021) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(22.09.2020)
(Преподаватели)
Строка 13: Строка 13:
 
| [https://www.hse.ru/org/persons/101521863 Игнатов Андрей Дмитриевич] || [https://t.me/a_ignatov Telegram], [mailto:aignatov@hse.ru Почта]
 
| [https://www.hse.ru/org/persons/101521863 Игнатов Андрей Дмитриевич] || [https://t.me/a_ignatov Telegram], [mailto:aignatov@hse.ru Почта]
 
|-
 
|-
| Маминов Артем Дмитриевич || ---
+
| Маминов Артем Дмитриевич || [https://t.me/a_maminov Telegram], [mailto:amaminov@hse.ru Почта]
 
|-
 
|-
 
| [https://www.hse.ru/org/persons/224730323 Горчаков Андрей Юрьевич] || ---
 
| [https://www.hse.ru/org/persons/224730323 Горчаков Андрей Юрьевич] || ---

Версия 11:36, 25 сентября 2020

О курсе

Необходимые ссылки

Конференция в Zoom

Преподаватели

Преподаватель Контакты
Посыпкин Михаил Анатольевич Telegram, Почта
Игнатов Андрей Дмитриевич Telegram, Почта
Маминов Артем Дмитриевич Telegram, Почта
Горчаков Андрей Юрьевич ---

Формула оценки

Oитог = 0.5 * Oлекции + 0.5 * Oсеминары

Материалы курса

08.09.2020: Введение, основы Biopython

Jupyter Notebook по Biopython

15.09.2020: Белковая геометрия

Необходимо выполнить задания в тетрадке: ДЗ

Для выполнения задания 5 требуется загрузить следующий файл и положить его в ту же директорию, где находится тетрадка: geometry.py

22.09.2020

Задание: 1) Извлечь признаки для обучения из файлов train.acc (доступность растворителя), train.ss (вторичная структура), train.pssm (матрица PSSM), train.fasta (FASTA последовательность, также можно извлечь из train.pssm) и длину белка (длина FASTA цепочки) (features.zip ). Стоит ограничиться белками длиной от 15 до 45 (40, 35, 30) аминокислот в зависимости от производительности вашей системы. One-hot-encode категориальные признаки (вместо одного класса вы получаете вектор длинной num_classes, где все значения нули, кроме индекса соответствующего класса). В итоге вы должны получить трёхмерную матрицу NxMx45 для каждого белка, где N - кол-во белков, M - длина белка, 45 - количество признаков (20 - One-hot-encoded аминокислот, 20 - PSSM, 3 - вторичная структура, 1 - доступность растворителя и 1 - длина белка)

2) Сохранить имена выбранных pdb (например в файл pdb_short)

3) Скачать все белки pdb_short из базы pdb, посчитать для них матрицы контактов, сохранить в файл, в итоге у вас получится матрица NxMxM. Ноутбук для расчёта матрицы контактов и матрицы расстояний белка, а также их визуализация, вам достаточно будет использовать функцию get_contact_matrix на всех белках из pdb_short