Введение в статистику и машинное обучение — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
Строка 9: Строка 9:
  
 
'''Задачи дисциплины:'''
 
'''Задачи дисциплины:'''
* Элемент маркированного списка
+
* Погружение в основные библиотеки Python для работы с данными и построения визуализаций (NumPy, Pandas, Matplotlib);
Погружение в основные библиотеки Python для работы с данными и построения визуализаций (NumPy, Pandas, Matplotlib);
+
* Применение теории вероятностей и статистических методов для анализа и интерпретации данных;
* Элемент маркированного списка
+
* Решение оптимизационных задач, характерных для машинного обучения, с использованием методов градиентного спуска;
Применение теории вероятностей и статистических методов для анализа и интерпретации данных;
+
* Применение линейных и логистических моделей для анализа и обработки данных в реальных задачах;
* Элемент маркированного списка
+
* Разработка и настройка нейронных сетей для анализа сложных данных, включая использование сверточных сетей, методов регуляризации и dropout;
Решение оптимизационных задач, характерных для машинного обучения, с использованием методов градиентного спуска;
+
* Реализация моделей на основе архитектуры Трансформеров с применением механизмов внимания.
* Элемент маркированного списка
+
Применение линейных и логистических моделей для анализа и обработки данных в реальных задачах;
+
* Элемент маркированного списка
+
Разработка и настройка нейронных сетей для анализа сложных данных, включая использование сверточных сетей, методов регуляризации и dropout;
+
* Элемент маркированного списка
+
Реализация моделей на основе архитектуры Трансформеров с применением механизмов внимания.
+
  
 
Оценивание включает домашние задания, midterm-экзамен и устный финальный экзамен.
 
Оценивание включает домашние задания, midterm-экзамен и устный финальный экзамен.
Строка 35: Строка 29:
  
 
|-
 
|-
| 2 || Продолжение. Введение. Основы молекулярной биологии. Клетка, геном, белки, поток информации, генетический код. [https://drive.google.com/open?id=1SEOTQyumGUff8Bwu54skDpu0ts38PfMG презентация] || Генетический код, рамки считывания, biopython [https://colab.research.google.com/drive/1zg94BdF-xA2ZT8Quk5cY0umsJ-mEYzDq?usp=sharing тетрадка]
+
| 2 || Основы теории вероятностей ||  
 +
* Дискретная теория вероятности
 +
* Статистики: среднее, медиана, мода, дисперсия и стандартное отклонение
 +
* Введение в основные распределения
 +
* Распределение Бернулли
 +
* Биномиальное распределение
 +
* Нормальное распределение
 
|-
 
|-
| 3 || Организация геномов прокариот и эукариот. Гены и регуляторные элементы. Белок-кодирующие и РНК-кодирующие гены. Экзоны и интроны. Сплайсинг. Промоторы и энхансеры. [https://drive.google.com/file/d/1eOHa1N9d9kEb4py_omwMacccHxtd_VaL/view?usp=sharing презентация] || UCSC genome browser. Геном человека. Строение генов. Треки консервативности, SNPs, структурных вариантов, повторов. Скачивание полного генома человека. Table browser. [https://docs.google.com/document/d/1rzUnplDpWV3bD587Y4dfxCTJH0OwVN1Nw3D_Z9XzUzw/edit?usp=sharing содержание]
+
| 3 || Основы математической статистики ||  
 +
* Оценивание параметров
 +
* Оценки среднего и дисперсии
 +
* Свойства оценок
 
|-
 
|-
| 4 || Продолжение. Организация геномов прокариот и эукариот. Гены и регуляторные элементы. Белок-кодирующие и РНК-кодирующие гены. Экзоны и интроны. Сплайсинг. Промоторы и энхансеры. [https://drive.google.com/file/d/1eOHa1N9d9kEb4py_omwMacccHxtd_VaL/view?usp=sharing презентация] || Модели генов. Геномные браузеры.Table browser. [https://docs.google.com/spreadsheets/d/1VLiZVGndDfw3C2qa-F3h84CNkRUgneBcnp1xksa_1Qw/edit?usp=sharing таблица к заданию] [https://docs.google.com/document/d/1rzUnplDpWV3bD587Y4dfxCTJH0OwVN1Nw3D_Z9XzUzw/edit?usp=sharing содержание]
+
| 4 || Основы оптимизации для машинного обучения ||  
 +
* Градиентный спуск
 +
* Методы второго порядка
 +
 
 
|-
 
|-
| 5 || Молекулярная эволюция. Поиск схожих последовательностей. Алгоритм и программа BLAST. Статистика локального выравнивания. [https://docs.google.com/presentation/d/1XVrDFEtTOGm7Vn3vIyDxZbCb68EA948B/edit?usp=sharing&ouid=109540323021403462314&rtpof=true&sd=true презентация]
+
| 5 || Классическое машинное обучение
 
||
 
||
BLAST.
+
* Обобщенные линейные модели
[https://docs.google.com/document/d/1suCytYXQBnDoA3cIt0LttFchxXrALJtxzc-5PvJ_5CI/edit?usp=sharing содержание]
+
* Линейная регрессия
 +
* Логистическая регрессия
 +
* Переобучение
 +
* Регуляризация
 +
 
 
|-
 
|-
| 6 || Модели эволюции аминоклислотных последовательностей. Матрицы PAM и BLOSUM. [https://drive.google.com/file/d/1ByPuofZmv30TSyyr-XloGkY9xdazGLmx/view?usp=sharing презентация]
+
| 6 || Основы нейронных сетей
 
||
 
||
BLAST.[https://docs.google.com/spreadsheets/d/1cdbjw_rC_I727lDWyIFwienfYdl77ouY9RgtVhsESP4/edit?usp=sharing таблица к семинару] Работа с bed файлами, bedtools. [https://colab.research.google.com/drive/1b_Grc0hCL9ldF7NM-Nu6NPcj5lOSCT2z?usp=sharing содержание]
+
* Основы нейронных сетей: персептроны и функции активации
 +
* Прямое и обратное распространение ошибок
 +
* Введение в глубокое обучение: сверточные нейронные сети (CNN)
 
|-
 
|-
 
|-
 
|-
| 7 || Алгоритмы попарного и множественного выравнивания последовательностей. Динамическое программирование. [https://drive.google.com/file/d/134zLTklVjmCVHKqn14IwVF3oBjmGVogc/view?usp=sharing презентация]
+
| 7 || Механизм внимания
 
||  
 
||  
Закрепляем NW. Обсуждение ДЗ. Работа с bed файлами, bedtools. [https://colab.research.google.com/drive/1b_Grc0hCL9ldF7NM-Nu6NPcj5lOSCT2z?usp=sharing содержание]
+
* Как устроены большие языковые модели
 +
* Архитектура трансформер
 +
* Основные концепции: фильтры, пулинг, функции активации
 +
* Техники регуляризации: dropout и L2-регуляризация
 +
 
 
|}
 
|}
  

Версия 15:29, 6 ноября 2024

О курсе

Курс читается для студентов 1-го курса ПМИ (ИИ360) во 2 модуле.

Лектор: Алексей Зайцев, Руководитель внешних академических исследований в блоке риски «Сбера»

Распределение часов по курсу: 28 часов в 2 модуле (14 часов лекций, 14 часов семинаров)

Цель курса «Введение в статистику и машинное обучение» — познакомить учащихся с основными методами статистики и машинного обучения, а также с ключевыми библиотеками Python (NumPy, Pandas, Matplotlib) для анализа данных. Программа охватывает теорию вероятностей, оценивание параметров, линейные и логистические модели, основы нейронных сетей и архитектуру Трансформер. Факультатив поможет подготовиться к исследовательским проектам и обязательным курсам по ML на втором курсе.

Задачи дисциплины:

  • Погружение в основные библиотеки Python для работы с данными и построения визуализаций (NumPy, Pandas, Matplotlib);
  • Применение теории вероятностей и статистических методов для анализа и интерпретации данных;
  • Решение оптимизационных задач, характерных для машинного обучения, с использованием методов градиентного спуска;
  • Применение линейных и логистических моделей для анализа и обработки данных в реальных задачах;
  • Разработка и настройка нейронных сетей для анализа сложных данных, включая использование сверточных сетей, методов регуляризации и dropout;
  • Реализация моделей на основе архитектуры Трансформеров с применением механизмов внимания.

Оценивание включает домашние задания, midterm-экзамен и устный финальный экзамен.

Содержание дисциплины

Раздел Тема
1 Введение в Python для машинного обучения
  • Основы Python для машинного обучения
  • Введение в библиотеки: NumPy, Pandas, Matplotlib
  • Исследование данных и визуализация
2 Основы теории вероятностей
  • Дискретная теория вероятности
  • Статистики: среднее, медиана, мода, дисперсия и стандартное отклонение
  • Введение в основные распределения
  • Распределение Бернулли
  • Биномиальное распределение
  • Нормальное распределение
3 Основы математической статистики
  • Оценивание параметров
  • Оценки среднего и дисперсии
  • Свойства оценок
4 Основы оптимизации для машинного обучения
  • Градиентный спуск
  • Методы второго порядка
5 Классическое машинное обучение
  • Обобщенные линейные модели
  • Линейная регрессия
  • Логистическая регрессия
  • Переобучение
  • Регуляризация
6 Основы нейронных сетей
  • Основы нейронных сетей: персептроны и функции активации
  • Прямое и обратное распространение ошибок
  • Введение в глубокое обучение: сверточные нейронные сети (CNN)
7 Механизм внимания
  • Как устроены большие языковые модели
  • Архитектура трансформер
  • Основные концепции: фильтры, пулинг, функции активации
  • Техники регуляризации: dropout и L2-регуляризация

Полезные ссылки

Телеграм-канал курса

Разделение по группам на факультативе

Расписание пар

Чат в telegram

Преподаватели

Группа Преподаватель Время занятия
Лекции Алексей Зайцев 18:10 - 19:30
1 Аркадий Алиев 19:40 - 21:00
2 Александр Кудряшов 19:40 - 21:00