Методы моделирования пространственной структуры протеинов. мАДБМ (2020-2021) — различия между версиями
A ignatov (обсуждение | вклад) (Добавлены материалы первых двух недель) |
A maminov (обсуждение | вклад) (→22.09.2020) |
||
Строка 32: | Строка 32: | ||
[http://rayignatov.vds.client.ideah.ru/proteins/2_15.09.2020/geometry.py geometry.py] | [http://rayignatov.vds.client.ideah.ru/proteins/2_15.09.2020/geometry.py geometry.py] | ||
===22.09.2020=== | ===22.09.2020=== | ||
+ | Задание: | ||
+ | 1) Извлечь признаки для обучения из файлов train.acc (доступность растворителя), train.ss (вторичная структура), train.pssm (матрица PSSM), train.fasta (FASTA последовательность, также можно извлечь из train.pssm) и длину белка (длина FASTA цепочки) ([https://drive.google.com/file/d/1AsyhJI558M-ooOQuQfUpIJyMAfUm7VDV/view?usp=sharing features.zip] ). Стоит ограничиться белками длиной от 15 до 45 (40, 35, 30) аминокислот в зависимости от производительности вашей системы. One-hot-encode категориальные признаки (вместо одного класса вы получаете вектор длинной num_classes, где все значения нули, кроме индекса соответствующего класса). В итоге вы должны получить трёхмерную матрицу NxMx45 для каждого белка, где N - кол-во белков, M - длина белка, 45 - количество признаков (20 - One-hot-encoded аминокислот, 20 - PSSM, 3 - вторичная структура, 1 - доступность растворителя и 1 - длина белка) | ||
+ | |||
+ | 2) Сохранить имена выбранных pdb (например в файл pdb_short) | ||
+ | |||
+ | 3) Скачать все белки pdb_short из базы pdb, посчитать для них матрицы контактов, сохранить в файл, в итоге у вас получится матрица NxMxM. | ||
+ | [https://drive.google.com/file/d/1smQvSBQYhmfqNLr0ajXjY4fv_YsQJpV6/view?usp=sharing Ноутбук] для расчёта матрицы контактов и матрицы расстояний белка, а также их визуализация, вам достаточно будет использовать функцию get_contact_matrix на всех белках из pdb_short |
Версия 11:21, 25 сентября 2020
Содержание
О курсе
Необходимые ссылки
Преподаватели
Преподаватель | Контакты |
---|---|
Посыпкин Михаил Анатольевич | Telegram, Почта |
Игнатов Андрей Дмитриевич | Telegram, Почта |
Маминов Артем Дмитриевич | --- |
Горчаков Андрей Юрьевич | --- |
Формула оценки
Oитог = 0.5 * Oлекции + 0.5 * Oсеминары
Материалы курса
08.09.2020: Введение, основы Biopython
15.09.2020: Белковая геометрия
Необходимо выполнить задания в тетрадке: ДЗ
Для выполнения задания 5 требуется загрузить следующий файл и положить его в ту же директорию, где находится тетрадка: geometry.py
22.09.2020
Задание: 1) Извлечь признаки для обучения из файлов train.acc (доступность растворителя), train.ss (вторичная структура), train.pssm (матрица PSSM), train.fasta (FASTA последовательность, также можно извлечь из train.pssm) и длину белка (длина FASTA цепочки) (features.zip ). Стоит ограничиться белками длиной от 15 до 45 (40, 35, 30) аминокислот в зависимости от производительности вашей системы. One-hot-encode категориальные признаки (вместо одного класса вы получаете вектор длинной num_classes, где все значения нули, кроме индекса соответствующего класса). В итоге вы должны получить трёхмерную матрицу NxMx45 для каждого белка, где N - кол-во белков, M - длина белка, 45 - количество признаков (20 - One-hot-encoded аминокислот, 20 - PSSM, 3 - вторичная структура, 1 - доступность растворителя и 1 - длина белка)
2) Сохранить имена выбранных pdb (например в файл pdb_short)
3) Скачать все белки pdb_short из базы pdb, посчитать для них матрицы контактов, сохранить в файл, в итоге у вас получится матрица NxMxM. Ноутбук для расчёта матрицы контактов и матрицы расстояний белка, а также их визуализация, вам достаточно будет использовать функцию get_contact_matrix на всех белках из pdb_short