Методы моделирования пространственной структуры протеинов. мАДБМ (2020-2021) — различия между версиями
A ignatov (обсуждение | вклад) (Инициализация страницы курса) |
A ignatov (обсуждение | вклад) (-) |
||
(не показано 7 промежуточных версии 2 участников) | |||
Строка 13: | Строка 13: | ||
| [https://www.hse.ru/org/persons/101521863 Игнатов Андрей Дмитриевич] || [https://t.me/a_ignatov Telegram], [mailto:aignatov@hse.ru Почта] | | [https://www.hse.ru/org/persons/101521863 Игнатов Андрей Дмитриевич] || [https://t.me/a_ignatov Telegram], [mailto:aignatov@hse.ru Почта] | ||
|- | |- | ||
− | | Маминов Артем Дмитриевич || | + | | Маминов Артем Дмитриевич || [https://t.me/a_maminov Telegram], [mailto:amaminov@hse.ru Почта] |
|- | |- | ||
| [https://www.hse.ru/org/persons/224730323 Горчаков Андрей Юрьевич] || --- | | [https://www.hse.ru/org/persons/224730323 Горчаков Андрей Юрьевич] || --- | ||
|- | |- | ||
|} | |} | ||
− | |||
− | |||
− | |||
==Материалы курса== | ==Материалы курса== | ||
− | === | + | |
− | === | + | ===13.10.2020 (Силовые поля, Потенциалы)=== |
+ | Материалы для практического занятия доступны [https://yadi.sk/d/Ykx-npuqEF5Dng?w=1 здесь]. | ||
+ | |||
+ | ===06.10.2020 (Боковые цепочки: геометрия и предсказание)=== | ||
+ | Необходимо выполнить задание в [https://yadi.sk/d/1hzV3LYhO5eigg тетрадке]. Дедлайн - 23.10.2020. | ||
+ | |||
+ | ===29.09.2020=== | ||
+ | 4) Для завершения работы по предсказанию матрицы контактов вам нужно использовать сгенерированные выборки признаков и матриц контактов, дозаполненные нулями (zero-padding) до выбранной вами максимальной длины. Затем вам нужно создать нейронную сеть, обучить её и протестировать. Напоминаю, что т.к. матрица контактов симметрична можно предсказывать только её половину. Рекомендую ознакомиться с дипломной [https://www.hse.ru/edu/vkr/366007539 работой], сделанной по этой теме. Там же можно посмотреть варианты архитектур нейронныйх сетей. | ||
+ | |||
+ | В результате вы должны получить полный цикл предсказания матрицы контактов. В данном работе будет оцениваться то, насколько вам удалось построить все составные части программы и удалось ли вам получить итоговый результат. Качество предсказания оцениваться не будет. | ||
+ | Дедлайн будет за два дня до экзамена (17-22 октября), т.к в зависимости от результатов домашних работ будет решаться вопрос о сдаче вами экзамена и разумеется потребуется время на её проверку и возможную доработку домашнего задания вами. | ||
+ | |||
===22.09.2020=== | ===22.09.2020=== | ||
+ | Задание: | ||
+ | 1) Извлечь признаки для обучения из файлов train.acc (доступность растворителя), train.ss (вторичная структура), train.pssm (матрица PSSM), train.fasta (FASTA последовательность, также можно извлечь из train.pssm) и длину белка (длина FASTA цепочки) ([https://drive.google.com/file/d/1AsyhJI558M-ooOQuQfUpIJyMAfUm7VDV/view?usp=sharing features.zip] ). Стоит ограничиться белками длиной от 15 до 45 (40, 35, 30) аминокислот в зависимости от производительности вашей системы. One-hot-encode категориальные признаки (вместо одного класса вы получаете вектор длинной num_classes, где все значения нули, кроме индекса соответствующего класса). В итоге вы должны получить трёхмерную матрицу NxMx45 для каждого белка, где N - кол-во белков, M - длина белка, 45 - количество признаков (20 - One-hot-encoded аминокислот, 20 - PSSM, 3 - вторичная структура, 1 - доступность растворителя и 1 - длина белка) | ||
+ | |||
+ | 2) Сохранить имена выбранных pdb (например в файл pdb_short) | ||
+ | |||
+ | 3) Скачать все белки pdb_short из базы pdb, посчитать для них матрицы контактов, сохранить в файл, в итоге у вас получится матрица NxMxM. | ||
+ | [https://drive.google.com/file/d/1smQvSBQYhmfqNLr0ajXjY4fv_YsQJpV6/view?usp=sharing Ноутбук] для расчёта матрицы контактов и матрицы расстояний белка, а также их визуализация, вам достаточно будет использовать функцию get_contact_matrix на всех белках из pdb_short | ||
+ | |||
+ | ===15.09.2020: Белковая геометрия=== | ||
+ | Необходимо выполнить задания в тетрадке: | ||
+ | [https://yadi.sk/d/7pHn7hM1PL9ieQ ДЗ] | ||
+ | |||
+ | Для выполнения задания 5 требуется загрузить следующий файл и положить его в ту же директорию, где находится тетрадка: | ||
+ | [https://yadi.sk/d/QFymCllkjVpKTg geometry.py] | ||
+ | |||
+ | ===08.09.2020: Введение, основы Biopython === | ||
+ | [https://yadi.sk/d/iX1FDUCQvPb6ww Jupyter Notebook по Biopython] |
Текущая версия на 17:09, 26 октября 2020
Содержание
О курсе
Необходимые ссылки
Преподаватели
Преподаватель | Контакты |
---|---|
Посыпкин Михаил Анатольевич | Telegram, Почта |
Игнатов Андрей Дмитриевич | Telegram, Почта |
Маминов Артем Дмитриевич | Telegram, Почта |
Горчаков Андрей Юрьевич | --- |
Материалы курса
13.10.2020 (Силовые поля, Потенциалы)
Материалы для практического занятия доступны здесь.
06.10.2020 (Боковые цепочки: геометрия и предсказание)
Необходимо выполнить задание в тетрадке. Дедлайн - 23.10.2020.
29.09.2020
4) Для завершения работы по предсказанию матрицы контактов вам нужно использовать сгенерированные выборки признаков и матриц контактов, дозаполненные нулями (zero-padding) до выбранной вами максимальной длины. Затем вам нужно создать нейронную сеть, обучить её и протестировать. Напоминаю, что т.к. матрица контактов симметрична можно предсказывать только её половину. Рекомендую ознакомиться с дипломной работой, сделанной по этой теме. Там же можно посмотреть варианты архитектур нейронныйх сетей.
В результате вы должны получить полный цикл предсказания матрицы контактов. В данном работе будет оцениваться то, насколько вам удалось построить все составные части программы и удалось ли вам получить итоговый результат. Качество предсказания оцениваться не будет. Дедлайн будет за два дня до экзамена (17-22 октября), т.к в зависимости от результатов домашних работ будет решаться вопрос о сдаче вами экзамена и разумеется потребуется время на её проверку и возможную доработку домашнего задания вами.
22.09.2020
Задание: 1) Извлечь признаки для обучения из файлов train.acc (доступность растворителя), train.ss (вторичная структура), train.pssm (матрица PSSM), train.fasta (FASTA последовательность, также можно извлечь из train.pssm) и длину белка (длина FASTA цепочки) (features.zip ). Стоит ограничиться белками длиной от 15 до 45 (40, 35, 30) аминокислот в зависимости от производительности вашей системы. One-hot-encode категориальные признаки (вместо одного класса вы получаете вектор длинной num_classes, где все значения нули, кроме индекса соответствующего класса). В итоге вы должны получить трёхмерную матрицу NxMx45 для каждого белка, где N - кол-во белков, M - длина белка, 45 - количество признаков (20 - One-hot-encoded аминокислот, 20 - PSSM, 3 - вторичная структура, 1 - доступность растворителя и 1 - длина белка)
2) Сохранить имена выбранных pdb (например в файл pdb_short)
3) Скачать все белки pdb_short из базы pdb, посчитать для них матрицы контактов, сохранить в файл, в итоге у вас получится матрица NxMxM. Ноутбук для расчёта матрицы контактов и матрицы расстояний белка, а также их визуализация, вам достаточно будет использовать функцию get_contact_matrix на всех белках из pdb_short
15.09.2020: Белковая геометрия
Необходимо выполнить задания в тетрадке: ДЗ
Для выполнения задания 5 требуется загрузить следующий файл и положить его в ту же директорию, где находится тетрадка: geometry.py