Введение в статистику и машинное обучение — различия между версиями
| Строка 7: | Строка 7: | ||
'''Цель курса''' «Введение в статистику и машинное обучение» — познакомить учащихся с основными методами статистики и машинного обучения, а также с ключевыми библиотеками Python (NumPy, Pandas, Matplotlib) для анализа данных. Программа охватывает теорию вероятностей, оценивание параметров, линейные и логистические модели, основы нейронных сетей и архитектуру Трансформер. Факультатив поможет подготовиться к исследовательским проектам и обязательным курсам по ML на втором курсе. | '''Цель курса''' «Введение в статистику и машинное обучение» — познакомить учащихся с основными методами статистики и машинного обучения, а также с ключевыми библиотеками Python (NumPy, Pandas, Matplotlib) для анализа данных. Программа охватывает теорию вероятностей, оценивание параметров, линейные и логистические модели, основы нейронных сетей и архитектуру Трансформер. Факультатив поможет подготовиться к исследовательским проектам и обязательным курсам по ML на втором курсе. | ||
| − | + | ||
| + | '''Задачи дисциплины:''' | ||
| + | * Элемент маркированного списка | ||
| + | Погружение в основные библиотеки Python для работы с данными и построения визуализаций (NumPy, Pandas, Matplotlib); | ||
| + | * Элемент маркированного списка | ||
| + | Применение теории вероятностей и статистических методов для анализа и интерпретации данных; | ||
| + | * Элемент маркированного списка | ||
| + | Решение оптимизационных задач, характерных для машинного обучения, с использованием методов градиентного спуска; | ||
| + | * Элемент маркированного списка | ||
| + | Применение линейных и логистических моделей для анализа и обработки данных в реальных задачах; | ||
| + | * Элемент маркированного списка | ||
| + | Разработка и настройка нейронных сетей для анализа сложных данных, включая использование сверточных сетей, методов регуляризации и dropout; | ||
| + | * Элемент маркированного списка | ||
| + | Реализация моделей на основе архитектуры Трансформеров с применением механизмов внимания. | ||
Оценивание включает домашние задания, midterm-экзамен и устный финальный экзамен. | Оценивание включает домашние задания, midterm-экзамен и устный финальный экзамен. | ||
| + | |||
| + | === Содержание дисциплины === | ||
| + | {| class="wikitable" | ||
| + | |- | ||
| + | ! № !! Раздел!! Тема | ||
| + | |- | ||
| + | | 1 || Введение в Python для машинного обучения || | ||
| + | * Элемент маркированного списка | ||
| + | Основы Python для машинного обучения | ||
| + | * Элемент маркированного списка | ||
| + | Введение в библиотеки: NumPy, Pandas, Matplotlib | ||
| + | * Элемент маркированного списка | ||
| + | Исследование данных и визуализация | ||
| + | |||
| + | |- | ||
| + | | 2 || Продолжение. Введение. Основы молекулярной биологии. Клетка, геном, белки, поток информации, генетический код. [https://drive.google.com/open?id=1SEOTQyumGUff8Bwu54skDpu0ts38PfMG презентация] || Генетический код, рамки считывания, biopython [https://colab.research.google.com/drive/1zg94BdF-xA2ZT8Quk5cY0umsJ-mEYzDq?usp=sharing тетрадка] | ||
| + | |- | ||
| + | | 3 || Организация геномов прокариот и эукариот. Гены и регуляторные элементы. Белок-кодирующие и РНК-кодирующие гены. Экзоны и интроны. Сплайсинг. Промоторы и энхансеры. [https://drive.google.com/file/d/1eOHa1N9d9kEb4py_omwMacccHxtd_VaL/view?usp=sharing презентация] || UCSC genome browser. Геном человека. Строение генов. Треки консервативности, SNPs, структурных вариантов, повторов. Скачивание полного генома человека. Table browser. [https://docs.google.com/document/d/1rzUnplDpWV3bD587Y4dfxCTJH0OwVN1Nw3D_Z9XzUzw/edit?usp=sharing содержание] | ||
| + | |- | ||
| + | | 4 || Продолжение. Организация геномов прокариот и эукариот. Гены и регуляторные элементы. Белок-кодирующие и РНК-кодирующие гены. Экзоны и интроны. Сплайсинг. Промоторы и энхансеры. [https://drive.google.com/file/d/1eOHa1N9d9kEb4py_omwMacccHxtd_VaL/view?usp=sharing презентация] || Модели генов. Геномные браузеры.Table browser. [https://docs.google.com/spreadsheets/d/1VLiZVGndDfw3C2qa-F3h84CNkRUgneBcnp1xksa_1Qw/edit?usp=sharing таблица к заданию] [https://docs.google.com/document/d/1rzUnplDpWV3bD587Y4dfxCTJH0OwVN1Nw3D_Z9XzUzw/edit?usp=sharing содержание] | ||
| + | |- | ||
| + | | 5 || Молекулярная эволюция. Поиск схожих последовательностей. Алгоритм и программа BLAST. Статистика локального выравнивания. [https://docs.google.com/presentation/d/1XVrDFEtTOGm7Vn3vIyDxZbCb68EA948B/edit?usp=sharing&ouid=109540323021403462314&rtpof=true&sd=true презентация] | ||
| + | || | ||
| + | BLAST. | ||
| + | [https://docs.google.com/document/d/1suCytYXQBnDoA3cIt0LttFchxXrALJtxzc-5PvJ_5CI/edit?usp=sharing содержание] | ||
| + | |- | ||
| + | | 6 || Модели эволюции аминоклислотных последовательностей. Матрицы PAM и BLOSUM. [https://drive.google.com/file/d/1ByPuofZmv30TSyyr-XloGkY9xdazGLmx/view?usp=sharing презентация] | ||
| + | || | ||
| + | BLAST.[https://docs.google.com/spreadsheets/d/1cdbjw_rC_I727lDWyIFwienfYdl77ouY9RgtVhsESP4/edit?usp=sharing таблица к семинару] Работа с bed файлами, bedtools. [https://colab.research.google.com/drive/1b_Grc0hCL9ldF7NM-Nu6NPcj5lOSCT2z?usp=sharing содержание] | ||
| + | |- | ||
| + | |- | ||
| + | | 7 || Алгоритмы попарного и множественного выравнивания последовательностей. Динамическое программирование. [https://drive.google.com/file/d/134zLTklVjmCVHKqn14IwVF3oBjmGVogc/view?usp=sharing презентация] | ||
| + | || | ||
| + | Закрепляем NW. Обсуждение ДЗ. Работа с bed файлами, bedtools. [https://colab.research.google.com/drive/1b_Grc0hCL9ldF7NM-Nu6NPcj5lOSCT2z?usp=sharing содержание] | ||
| + | |} | ||
| + | |||
=== Полезные ссылки === | === Полезные ссылки === | ||
Версия 15:25, 6 ноября 2024
О курсе
Курс читается для студентов 1-го курса ПМИ (ИИ360) во 2 модуле.
Лектор: Алексей Зайцев, Руководитель внешних академических исследований в блоке риски «Сбера»
Распределение часов по курсу: 28 часов в 2 модуле (14 часов лекций, 14 часов семинаров)
Цель курса «Введение в статистику и машинное обучение» — познакомить учащихся с основными методами статистики и машинного обучения, а также с ключевыми библиотеками Python (NumPy, Pandas, Matplotlib) для анализа данных. Программа охватывает теорию вероятностей, оценивание параметров, линейные и логистические модели, основы нейронных сетей и архитектуру Трансформер. Факультатив поможет подготовиться к исследовательским проектам и обязательным курсам по ML на втором курсе.
Задачи дисциплины:
- Элемент маркированного списка
Погружение в основные библиотеки Python для работы с данными и построения визуализаций (NumPy, Pandas, Matplotlib);
- Элемент маркированного списка
Применение теории вероятностей и статистических методов для анализа и интерпретации данных;
- Элемент маркированного списка
Решение оптимизационных задач, характерных для машинного обучения, с использованием методов градиентного спуска;
- Элемент маркированного списка
Применение линейных и логистических моделей для анализа и обработки данных в реальных задачах;
- Элемент маркированного списка
Разработка и настройка нейронных сетей для анализа сложных данных, включая использование сверточных сетей, методов регуляризации и dropout;
- Элемент маркированного списка
Реализация моделей на основе архитектуры Трансформеров с применением механизмов внимания.
Оценивание включает домашние задания, midterm-экзамен и устный финальный экзамен.
Содержание дисциплины
| № | Раздел | Тема |
|---|---|---|
| 1 | Введение в Python для машинного обучения |
Основы Python для машинного обучения
Введение в библиотеки: NumPy, Pandas, Matplotlib
Исследование данных и визуализация |
| 2 | Продолжение. Введение. Основы молекулярной биологии. Клетка, геном, белки, поток информации, генетический код. презентация | Генетический код, рамки считывания, biopython тетрадка |
| 3 | Организация геномов прокариот и эукариот. Гены и регуляторные элементы. Белок-кодирующие и РНК-кодирующие гены. Экзоны и интроны. Сплайсинг. Промоторы и энхансеры. презентация | UCSC genome browser. Геном человека. Строение генов. Треки консервативности, SNPs, структурных вариантов, повторов. Скачивание полного генома человека. Table browser. содержание |
| 4 | Продолжение. Организация геномов прокариот и эукариот. Гены и регуляторные элементы. Белок-кодирующие и РНК-кодирующие гены. Экзоны и интроны. Сплайсинг. Промоторы и энхансеры. презентация | Модели генов. Геномные браузеры.Table browser. таблица к заданию содержание |
| 5 | Молекулярная эволюция. Поиск схожих последовательностей. Алгоритм и программа BLAST. Статистика локального выравнивания. презентация |
BLAST. содержание |
| 6 | Модели эволюции аминоклислотных последовательностей. Матрицы PAM и BLOSUM. презентация |
BLAST.таблица к семинару Работа с bed файлами, bedtools. содержание |
| 7 | Алгоритмы попарного и множественного выравнивания последовательностей. Динамическое программирование. презентация |
Закрепляем NW. Обсуждение ДЗ. Работа с bed файлами, bedtools. содержание |
Полезные ссылки
Разделение по группам на факультативе
Преподаватели
| Группа | Преподаватель | Время занятия |
|---|---|---|
| Лекции | Алексей Зайцев | 18:10 - 19:30 |
| 1 | Аркадий Алиев | 19:40 - 21:00 |
| 2 | Александр Кудряшов | 19:40 - 21:00 |