Методы моделирования пространственной структуры протеинов. мАДБМ (2020-2021) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(добавлены материалы от 06.10.2020)
Строка 23: Строка 23:
  
 
==Материалы курса==
 
==Материалы курса==
===08.09.2020: Введение, основы Biopython ===
 
[http://rayignatov.vds.client.ideah.ru/proteins/1_08.09.2020/biopython_tutorial.ipynb Jupyter Notebook по Biopython]
 
===15.09.2020: Белковая геометрия===
 
Необходимо выполнить задания в тетрадке:
 
[http://rayignatov.vds.client.ideah.ru/proteins/2_15.09.2020/geometry_task.ipynb ДЗ]
 
  
Для выполнения задания 5 требуется загрузить следующий файл и положить его в ту же директорию, где находится тетрадка:
+
===06.10.2020 (Боковые цепочки: геометрия и предсказание)===
[http://rayignatov.vds.client.ideah.ru/proteins/2_15.09.2020/geometry.py geometry.py]
+
Необходимо выполнить задание в [https://yadi.sk/d/1hzV3LYhO5eigg тетрадке]. Дедлайн - 23.10.2020.
 +
 
 +
===29.09.2020===
 +
4) Для завершения работы по предсказанию матрицы контактов вам нужно использовать сгенерированные выборки признаков и матриц контактов, дозаполненные нулями (zero-padding) до выбранной вами максимальной длины. Затем вам нужно создать нейронную сеть, обучить её и протестировать. Напоминаю, что т.к. матрица контактов симметрична можно предсказывать только её половину. Рекомендую ознакомиться с дипломной [https://www.hse.ru/edu/vkr/366007539 работой], сделанной по этой теме. Там же можно посмотреть варианты архитектур нейронныйх сетей.
 +
 
 +
В результате вы должны получить полный цикл предсказания матрицы контактов. В данном работе будет оцениваться то, насколько вам удалось построить все составные части программы и удалось ли вам получить итоговый результат. Качество предсказания оцениваться не будет.
 +
Дедлайн будет за два дня до экзамена (17-22 октября), т.к в зависимости от результатов домашних работ будет решаться вопрос о сдаче вами экзамена и разумеется потребуется время на её проверку и возможную доработку домашнего задания вами.
 +
 
 
===22.09.2020===
 
===22.09.2020===
 
Задание:
 
Задание:
Строка 40: Строка 42:
 
[https://drive.google.com/file/d/1smQvSBQYhmfqNLr0ajXjY4fv_YsQJpV6/view?usp=sharing Ноутбук] для расчёта матрицы контактов и матрицы расстояний белка, а также их визуализация, вам достаточно будет использовать функцию get_contact_matrix на всех белках из pdb_short
 
[https://drive.google.com/file/d/1smQvSBQYhmfqNLr0ajXjY4fv_YsQJpV6/view?usp=sharing Ноутбук] для расчёта матрицы контактов и матрицы расстояний белка, а также их визуализация, вам достаточно будет использовать функцию get_contact_matrix на всех белках из pdb_short
  
===29.09.2020===
+
===15.09.2020: Белковая геометрия===
4) Для завершения работы по предсказанию матрицы контактов вам нужно использовать сгенерированные выборки признаков и матриц контактов, дозаполненные нулями (zero-padding) до выбранной вами максимальной длины. Затем вам нужно создать нейронную сеть, обучить её и протестировать. Напоминаю, что т.к. матрица контактов симметрична можно предсказывать только её половину. Рекомендую ознакомиться с дипломной [https://www.hse.ru/edu/vkr/366007539 работой], сделанной по этой теме. Там же можно посмотреть варианты архитектур нейронныйх сетей.
+
Необходимо выполнить задания в тетрадке:
 +
[https://yadi.sk/d/7pHn7hM1PL9ieQ ДЗ]
  
В результате вы должны получить полный цикл предсказания матрицы контактов. В данном работе будет оцениваться то, насколько вам удалось построить все составные части программы и удалось ли вам получить итоговый результат. Качество предсказания оцениваться не будет.
+
Для выполнения задания 5 требуется загрузить следующий файл и положить его в ту же директорию, где находится тетрадка:
Дедлайн будет за два дня до экзамена (17-22 октября), т.к в зависимости от результатов домашних работ будет решаться вопрос о сдаче вами экзамена и разумеется потребуется время на её проверку и возможную доработку домашнего задания вами.
+
[https://yadi.sk/d/QFymCllkjVpKTg geometry.py]
 +
 
 +
===08.09.2020: Введение, основы Biopython ===
 +
[https://yadi.sk/d/iX1FDUCQvPb6ww Jupyter Notebook по Biopython]

Версия 13:52, 11 октября 2020

О курсе

Необходимые ссылки

Конференция в Zoom

Преподаватели

Преподаватель Контакты
Посыпкин Михаил Анатольевич Telegram, Почта
Игнатов Андрей Дмитриевич Telegram, Почта
Маминов Артем Дмитриевич Telegram, Почта
Горчаков Андрей Юрьевич ---

Формула оценки

Oитог = 0.5 * Oлекции + 0.5 * Oсеминары

Материалы курса

06.10.2020 (Боковые цепочки: геометрия и предсказание)

Необходимо выполнить задание в тетрадке. Дедлайн - 23.10.2020.

29.09.2020

4) Для завершения работы по предсказанию матрицы контактов вам нужно использовать сгенерированные выборки признаков и матриц контактов, дозаполненные нулями (zero-padding) до выбранной вами максимальной длины. Затем вам нужно создать нейронную сеть, обучить её и протестировать. Напоминаю, что т.к. матрица контактов симметрична можно предсказывать только её половину. Рекомендую ознакомиться с дипломной работой, сделанной по этой теме. Там же можно посмотреть варианты архитектур нейронныйх сетей.

В результате вы должны получить полный цикл предсказания матрицы контактов. В данном работе будет оцениваться то, насколько вам удалось построить все составные части программы и удалось ли вам получить итоговый результат. Качество предсказания оцениваться не будет. Дедлайн будет за два дня до экзамена (17-22 октября), т.к в зависимости от результатов домашних работ будет решаться вопрос о сдаче вами экзамена и разумеется потребуется время на её проверку и возможную доработку домашнего задания вами.

22.09.2020

Задание: 1) Извлечь признаки для обучения из файлов train.acc (доступность растворителя), train.ss (вторичная структура), train.pssm (матрица PSSM), train.fasta (FASTA последовательность, также можно извлечь из train.pssm) и длину белка (длина FASTA цепочки) (features.zip ). Стоит ограничиться белками длиной от 15 до 45 (40, 35, 30) аминокислот в зависимости от производительности вашей системы. One-hot-encode категориальные признаки (вместо одного класса вы получаете вектор длинной num_classes, где все значения нули, кроме индекса соответствующего класса). В итоге вы должны получить трёхмерную матрицу NxMx45 для каждого белка, где N - кол-во белков, M - длина белка, 45 - количество признаков (20 - One-hot-encoded аминокислот, 20 - PSSM, 3 - вторичная структура, 1 - доступность растворителя и 1 - длина белка)

2) Сохранить имена выбранных pdb (например в файл pdb_short)

3) Скачать все белки pdb_short из базы pdb, посчитать для них матрицы контактов, сохранить в файл, в итоге у вас получится матрица NxMxM. Ноутбук для расчёта матрицы контактов и матрицы расстояний белка, а также их визуализация, вам достаточно будет использовать функцию get_contact_matrix на всех белках из pdb_short

15.09.2020: Белковая геометрия

Необходимо выполнить задания в тетрадке: ДЗ

Для выполнения задания 5 требуется загрузить следующий файл и положить его в ту же директорию, где находится тетрадка: geometry.py

08.09.2020: Введение, основы Biopython

Jupyter Notebook по Biopython