Введение в статистику и машинное обучение — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 7: Строка 7:
  
 
'''Цель курса''' «Введение в статистику и машинное обучение» — познакомить учащихся с основными методами статистики и машинного обучения, а также с ключевыми библиотеками Python (NumPy, Pandas, Matplotlib) для анализа данных. Программа охватывает теорию вероятностей, оценивание параметров, линейные и логистические модели, основы нейронных сетей и архитектуру Трансформер. Факультатив поможет подготовиться к исследовательским проектам и обязательным курсам по ML на втором курсе.
 
'''Цель курса''' «Введение в статистику и машинное обучение» — познакомить учащихся с основными методами статистики и машинного обучения, а также с ключевыми библиотеками Python (NumPy, Pandas, Matplotlib) для анализа данных. Программа охватывает теорию вероятностей, оценивание параметров, линейные и логистические модели, основы нейронных сетей и архитектуру Трансформер. Факультатив поможет подготовиться к исследовательским проектам и обязательным курсам по ML на втором курсе.
Занятия проводятся в формате еженедельных лекций и семинаров с участием экспертов из индустрии.
+
 
 +
'''Задачи дисциплины:'''
 +
* Элемент маркированного списка
 +
Погружение в основные библиотеки Python для работы с данными и построения визуализаций (NumPy, Pandas, Matplotlib);
 +
* Элемент маркированного списка
 +
Применение теории вероятностей и статистических методов для анализа и интерпретации данных;
 +
* Элемент маркированного списка
 +
Решение оптимизационных задач, характерных для машинного обучения, с использованием методов градиентного спуска;
 +
* Элемент маркированного списка
 +
Применение линейных и логистических моделей для анализа и обработки данных в реальных задачах;
 +
* Элемент маркированного списка
 +
Разработка и настройка нейронных сетей для анализа сложных данных, включая использование сверточных сетей, методов регуляризации и dropout;
 +
* Элемент маркированного списка
 +
Реализация моделей на основе архитектуры Трансформеров с применением механизмов внимания.
  
 
Оценивание включает домашние задания, midterm-экзамен и устный финальный экзамен.
 
Оценивание включает домашние задания, midterm-экзамен и устный финальный экзамен.
 +
 +
=== Содержание дисциплины ===
 +
{| class="wikitable"
 +
|-
 +
! № !! Раздел!! Тема
 +
|-
 +
| 1 || Введение в Python для машинного обучения || 
 +
* Элемент маркированного списка
 +
Основы Python для машинного обучения
 +
* Элемент маркированного списка
 +
Введение в библиотеки: NumPy, Pandas, Matplotlib
 +
* Элемент маркированного списка
 +
Исследование данных и визуализация
 +
 +
|-
 +
| 2 || Продолжение. Введение. Основы молекулярной биологии. Клетка, геном, белки, поток информации, генетический код. [https://drive.google.com/open?id=1SEOTQyumGUff8Bwu54skDpu0ts38PfMG презентация] || Генетический код, рамки считывания, biopython [https://colab.research.google.com/drive/1zg94BdF-xA2ZT8Quk5cY0umsJ-mEYzDq?usp=sharing тетрадка]
 +
|-
 +
| 3 || Организация геномов прокариот и эукариот. Гены и регуляторные элементы. Белок-кодирующие и РНК-кодирующие гены. Экзоны и интроны. Сплайсинг. Промоторы и энхансеры. [https://drive.google.com/file/d/1eOHa1N9d9kEb4py_omwMacccHxtd_VaL/view?usp=sharing презентация] || UCSC genome browser. Геном человека. Строение генов. Треки консервативности, SNPs, структурных вариантов, повторов. Скачивание полного генома человека. Table browser. [https://docs.google.com/document/d/1rzUnplDpWV3bD587Y4dfxCTJH0OwVN1Nw3D_Z9XzUzw/edit?usp=sharing содержание]
 +
|-
 +
| 4 || Продолжение. Организация геномов прокариот и эукариот. Гены и регуляторные элементы. Белок-кодирующие и РНК-кодирующие гены. Экзоны и интроны. Сплайсинг. Промоторы и энхансеры. [https://drive.google.com/file/d/1eOHa1N9d9kEb4py_omwMacccHxtd_VaL/view?usp=sharing презентация] || Модели генов. Геномные браузеры.Table browser. [https://docs.google.com/spreadsheets/d/1VLiZVGndDfw3C2qa-F3h84CNkRUgneBcnp1xksa_1Qw/edit?usp=sharing таблица к заданию] [https://docs.google.com/document/d/1rzUnplDpWV3bD587Y4dfxCTJH0OwVN1Nw3D_Z9XzUzw/edit?usp=sharing содержание]
 +
|-
 +
| 5 || Молекулярная эволюция. Поиск схожих последовательностей. Алгоритм и программа BLAST. Статистика локального выравнивания. [https://docs.google.com/presentation/d/1XVrDFEtTOGm7Vn3vIyDxZbCb68EA948B/edit?usp=sharing&ouid=109540323021403462314&rtpof=true&sd=true презентация]
 +
||
 +
BLAST.
 +
[https://docs.google.com/document/d/1suCytYXQBnDoA3cIt0LttFchxXrALJtxzc-5PvJ_5CI/edit?usp=sharing содержание]
 +
|-
 +
| 6 || Модели эволюции аминоклислотных последовательностей. Матрицы PAM и BLOSUM. [https://drive.google.com/file/d/1ByPuofZmv30TSyyr-XloGkY9xdazGLmx/view?usp=sharing презентация]
 +
||
 +
BLAST.[https://docs.google.com/spreadsheets/d/1cdbjw_rC_I727lDWyIFwienfYdl77ouY9RgtVhsESP4/edit?usp=sharing таблица к семинару] Работа с bed файлами, bedtools. [https://colab.research.google.com/drive/1b_Grc0hCL9ldF7NM-Nu6NPcj5lOSCT2z?usp=sharing содержание]
 +
|-
 +
|-
 +
| 7 || Алгоритмы попарного и множественного выравнивания последовательностей. Динамическое программирование. [https://drive.google.com/file/d/134zLTklVjmCVHKqn14IwVF3oBjmGVogc/view?usp=sharing презентация]
 +
||
 +
Закрепляем NW. Обсуждение ДЗ. Работа с bed файлами, bedtools. [https://colab.research.google.com/drive/1b_Grc0hCL9ldF7NM-Nu6NPcj5lOSCT2z?usp=sharing содержание]
 +
|}
 +
  
 
=== Полезные ссылки ===
 
=== Полезные ссылки ===

Версия 15:25, 6 ноября 2024

О курсе

Курс читается для студентов 1-го курса ПМИ (ИИ360) во 2 модуле.

Лектор: Алексей Зайцев, Руководитель внешних академических исследований в блоке риски «Сбера»

Распределение часов по курсу: 28 часов в 2 модуле (14 часов лекций, 14 часов семинаров)

Цель курса «Введение в статистику и машинное обучение» — познакомить учащихся с основными методами статистики и машинного обучения, а также с ключевыми библиотеками Python (NumPy, Pandas, Matplotlib) для анализа данных. Программа охватывает теорию вероятностей, оценивание параметров, линейные и логистические модели, основы нейронных сетей и архитектуру Трансформер. Факультатив поможет подготовиться к исследовательским проектам и обязательным курсам по ML на втором курсе.

Задачи дисциплины:

  • Элемент маркированного списка

Погружение в основные библиотеки Python для работы с данными и построения визуализаций (NumPy, Pandas, Matplotlib);

  • Элемент маркированного списка

Применение теории вероятностей и статистических методов для анализа и интерпретации данных;

  • Элемент маркированного списка

Решение оптимизационных задач, характерных для машинного обучения, с использованием методов градиентного спуска;

  • Элемент маркированного списка

Применение линейных и логистических моделей для анализа и обработки данных в реальных задачах;

  • Элемент маркированного списка

Разработка и настройка нейронных сетей для анализа сложных данных, включая использование сверточных сетей, методов регуляризации и dropout;

  • Элемент маркированного списка

Реализация моделей на основе архитектуры Трансформеров с применением механизмов внимания.

Оценивание включает домашние задания, midterm-экзамен и устный финальный экзамен.

Содержание дисциплины

Раздел Тема
1 Введение в Python для машинного обучения
  • Элемент маркированного списка

Основы Python для машинного обучения

  • Элемент маркированного списка

Введение в библиотеки: NumPy, Pandas, Matplotlib

  • Элемент маркированного списка

Исследование данных и визуализация

2 Продолжение. Введение. Основы молекулярной биологии. Клетка, геном, белки, поток информации, генетический код. презентация Генетический код, рамки считывания, biopython тетрадка
3 Организация геномов прокариот и эукариот. Гены и регуляторные элементы. Белок-кодирующие и РНК-кодирующие гены. Экзоны и интроны. Сплайсинг. Промоторы и энхансеры. презентация UCSC genome browser. Геном человека. Строение генов. Треки консервативности, SNPs, структурных вариантов, повторов. Скачивание полного генома человека. Table browser. содержание
4 Продолжение. Организация геномов прокариот и эукариот. Гены и регуляторные элементы. Белок-кодирующие и РНК-кодирующие гены. Экзоны и интроны. Сплайсинг. Промоторы и энхансеры. презентация Модели генов. Геномные браузеры.Table browser. таблица к заданию содержание
5 Молекулярная эволюция. Поиск схожих последовательностей. Алгоритм и программа BLAST. Статистика локального выравнивания. презентация

BLAST. содержание

6 Модели эволюции аминоклислотных последовательностей. Матрицы PAM и BLOSUM. презентация

BLAST.таблица к семинару Работа с bed файлами, bedtools. содержание

7 Алгоритмы попарного и множественного выравнивания последовательностей. Динамическое программирование. презентация

Закрепляем NW. Обсуждение ДЗ. Работа с bed файлами, bedtools. содержание


Полезные ссылки

Телеграм-канал курса

Разделение по группам на факультативе

Расписание пар

Чат в telegram

Преподаватели

Группа Преподаватель Время занятия
Лекции Алексей Зайцев 18:10 - 19:30
1 Аркадий Алиев 19:40 - 21:00
2 Александр Кудряшов 19:40 - 21:00