Введение в статистику и машинное обучение

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск

О курсе

Курс читается для студентов 1-го курса ПМИ (ИИ360) во 2 модуле.

Лектор: Алексей Зайцев, Руководитель внешних академических исследований в блоке риски «Сбера»

Распределение часов по курсу: 28 часов в 2 модуле (14 часов лекций, 14 часов семинаров)

Цель курса «Введение в статистику и машинное обучение» — познакомить учащихся с основными методами статистики и машинного обучения, а также с ключевыми библиотеками Python (NumPy, Pandas, Matplotlib) для анализа данных. Программа охватывает теорию вероятностей, оценивание параметров, линейные и логистические модели, основы нейронных сетей и архитектуру Трансформер. Факультатив поможет подготовиться к исследовательским проектам и обязательным курсам по ML на втором курсе.

Задачи дисциплины:

  • Погружение в основные библиотеки Python для работы с данными и построения визуализаций (NumPy, Pandas, Matplotlib);
  • Применение теории вероятностей и статистических методов для анализа и интерпретации данных;
  • Решение оптимизационных задач, характерных для машинного обучения, с использованием методов градиентного спуска;
  • Применение линейных и логистических моделей для анализа и обработки данных в реальных задачах;
  • Разработка и настройка нейронных сетей для анализа сложных данных, включая использование сверточных сетей, методов регуляризации и dropout;
  • Реализация моделей на основе архитектуры Трансформеров с применением механизмов внимания.

Оценивание включает домашние задания, midterm-экзамен и устный финальный экзамен.

Полезные ссылки

Телеграм-канал курса

Разделение по группам на факультативе

Расписание пар

Записи занятий

Дата Ссылка
Занятие 1 06.11.2024

https://disk.yandex.ru/d/SNs4TmYBdckmvQ

Занятие 2 11.11.2024

https://disk.yandex.ru/d/cdQkvU6AwPrSdA

Занятие 3 18.11.2024

https://disk.yandex.ru/d/gfVohmylNMrcdg

Занятие 4 25.11.2024

https://disk.yandex.ru/d/qUo7R_3P8Il5tQ

Занятие 5 02.12.2024

https://disk.yandex.ru/d/4Mqa9k3bLaBk0w

Занятие 6 09.12.2024

https://disk.yandex.ru/d/Tbaz9M_gw7U2wA

Занятие 7 16.12.2024

https://disk.yandex.ru/d/cxLZEopf-FGxyw

Содержание дисциплины

Раздел Тема
1 Введение в Python для машинного обучения
  • Основы Python для машинного обучения
  • Введение в библиотеки: NumPy, Pandas, Matplotlib
  • Исследование данных и визуализация
2 Основы теории вероятностей
  • Дискретная теория вероятности
  • Статистики: среднее, медиана, мода, дисперсия и стандартное отклонение
  • Введение в основные распределения
  • Распределение Бернулли
  • Биномиальное распределение
  • Нормальное распределение
3 Основы математической статистики
  • Оценивание параметров
  • Оценки среднего и дисперсии
  • Свойства оценок
4 Основы оптимизации для машинного обучения
  • Градиентный спуск
  • Методы второго порядка
5 Классическое машинное обучение
  • Обобщенные линейные модели
  • Линейная регрессия
  • Логистическая регрессия
  • Переобучение
  • Регуляризация
6 Основы нейронных сетей
  • Основы нейронных сетей: персептроны и функции активации
  • Прямое и обратное распространение ошибок
  • Введение в глубокое обучение: сверточные нейронные сети (CNN)
7 Механизм внимания
  • Как устроены большие языковые модели
  • Архитектура трансформер
  • Основные концепции: фильтры, пулинг, функции активации
  • Техники регуляризации: dropout и L2-регуляризация

Преподаватели

Группа Преподаватель Время занятия
Лекции Алексей Зайцев 18:10 - 19:30
1 Аркадий Алиев 19:40 - 21:00
2 Александр Кудряшов 19:40 - 21:00