Машинное обучение на матфаке 2018/2019/Программа контрольной — различия между версиями
Материал из Wiki - Факультет компьютерных наук
(не показано 9 промежуточных версии этого же участника) | |||
Строка 1: | Строка 1: | ||
− | На контрольной будут задачи, проверяющие знание и понимание основных понятий и методов, обсуждавшихся на лекциях и семинарах, в рамках следующих тем: | + | На контрольной по курсу [[Машинное обучение на матфаке 2018/2019|Машинное обучение]] будут задачи, проверяющие знание и понимание основных понятий и методов, обсуждавшихся на лекциях и семинарах, в рамках следующих тем: |
* Теория вероятностей: вероятностное пространство, случайная величина, дискретные и абсолютно непрерывные случайные величины, функция распределения, функция плотности. Матожидание, дисперсия. Системы случайных величин, совместное распределение, совместная плотность. Условное распределение, условная плотность. Независимость случайных величин (дискретных и абсолютно непрерывных). Условное матожидание. Ковариационная матрица случайного вектора, её свойства. | * Теория вероятностей: вероятностное пространство, случайная величина, дискретные и абсолютно непрерывные случайные величины, функция распределения, функция плотности. Матожидание, дисперсия. Системы случайных величин, совместное распределение, совместная плотность. Условное распределение, условная плотность. Независимость случайных величин (дискретных и абсолютно непрерывных). Условное матожидание. Ковариационная матрица случайного вектора, её свойства. | ||
* Основы математической статистики. Выборка. Статистические оценки. Состоятельность, несмещённость. Выборочное среднее как оценка матожидания, выборочная дисперсия (обычная и исправленная) как оценка дисперсии. | * Основы математической статистики. Выборка. Статистические оценки. Состоятельность, несмещённость. Выборочное среднее как оценка матожидания, выборочная дисперсия (обычная и исправленная) как оценка дисперсии. | ||
− | * Общая постановка задачи supervised learning («обучение с учителем»). Функция потерь. Ожидаемая ошибка. | + | * Общая постановка задачи supervised learning («обучение с учителем»). Функция потерь. Ожидаемая ошибка. Идеальная функция предсказания для квадратичной функции потерь (матожидание условного распределения y при заданном x). Метод k ближайших соседей для задач регрессии и классификации. Accuracy как метрика качества классификатора, её ограничения. |
− | * Разложение ожидаемой квадратичной ошибки на шум, смещение и разброс. Приложение к методу k ближайших соседей: как выбор k влияет на смещение и разброс. Проклятие размерности. | + | * Разложение ожидаемой квадратичной ошибки на шум, смещение и разброс. Приложение к методу k ближайших соседей: как выбор k влияет на смещение и разброс. Bias-variance tradeoff. Проклятие размерности. |
− | * Оценка ожидаемой ошибки с помощью кросс-валидации: проверка на отложенной выборке, k-fold cross validation. | + | * Оценка ожидаемой ошибки с помощью кросс-валидации: проверка на отложенной выборке, k-fold cross validation, стратифицированный k-fold. |
− | * Линейная регрессия: постановка задачи. Вывод метода наименьших квадратов как MLE-оценки для линейной регрессии с нормальными ошибками. Явный вид МНК-оценки. Несмещённость МНК-оценки. Ковариацонная матрица. Теорема Гаусса — Маркова (без доказательства). | + | * Линейная регрессия: постановка задачи. Вывод метода наименьших квадратов как MLE-оценки для линейной регрессии с нормальными ошибками. RSS и R<sup>2</sup>. Явный вид МНК-оценки. Несмещённость МНК-оценки. Ковариацонная матрица. Теорема Гаусса — Маркова (без доказательства). |
− | * Решение оптимизационных задач с помощью градиентного спуска. | + | * Решение оптимизационных задач с помощью градиентного спуска. Применение к задаче регрессии. Зачем нужно находить МНК-оценку с помощью градиентного спуска когда есть явная формула? |
− | * Уменьшение разброса в линейных регрессиях. Отбор признаков. Регуляризация: | + | * Уменьшение разброса в линейных регрессиях. Отбор признаков. Регуляризация: L<sub>2</sub> и L<sub>1</sub>. |
− | * | + | * Преобразование и создание новых признаков (feature engineering). Кодирование категориальных признаков (one hot encoding, label encoder). Нормализация числовых признаков. Линейные комбинации признаков. Нелинейные преобразования признаков. Проблема переобучения при добавлении признаков (bias-variance tradeoff в задаче линейной регрессии). |
Текущая версия на 13:54, 19 октября 2018
На контрольной по курсу Машинное обучение будут задачи, проверяющие знание и понимание основных понятий и методов, обсуждавшихся на лекциях и семинарах, в рамках следующих тем:
- Теория вероятностей: вероятностное пространство, случайная величина, дискретные и абсолютно непрерывные случайные величины, функция распределения, функция плотности. Матожидание, дисперсия. Системы случайных величин, совместное распределение, совместная плотность. Условное распределение, условная плотность. Независимость случайных величин (дискретных и абсолютно непрерывных). Условное матожидание. Ковариационная матрица случайного вектора, её свойства.
- Основы математической статистики. Выборка. Статистические оценки. Состоятельность, несмещённость. Выборочное среднее как оценка матожидания, выборочная дисперсия (обычная и исправленная) как оценка дисперсии.
- Общая постановка задачи supervised learning («обучение с учителем»). Функция потерь. Ожидаемая ошибка. Идеальная функция предсказания для квадратичной функции потерь (матожидание условного распределения y при заданном x). Метод k ближайших соседей для задач регрессии и классификации. Accuracy как метрика качества классификатора, её ограничения.
- Разложение ожидаемой квадратичной ошибки на шум, смещение и разброс. Приложение к методу k ближайших соседей: как выбор k влияет на смещение и разброс. Bias-variance tradeoff. Проклятие размерности.
- Оценка ожидаемой ошибки с помощью кросс-валидации: проверка на отложенной выборке, k-fold cross validation, стратифицированный k-fold.
- Линейная регрессия: постановка задачи. Вывод метода наименьших квадратов как MLE-оценки для линейной регрессии с нормальными ошибками. RSS и R2. Явный вид МНК-оценки. Несмещённость МНК-оценки. Ковариацонная матрица. Теорема Гаусса — Маркова (без доказательства).
- Решение оптимизационных задач с помощью градиентного спуска. Применение к задаче регрессии. Зачем нужно находить МНК-оценку с помощью градиентного спуска когда есть явная формула?
- Уменьшение разброса в линейных регрессиях. Отбор признаков. Регуляризация: L2 и L1.
- Преобразование и создание новых признаков (feature engineering). Кодирование категориальных признаков (one hot encoding, label encoder). Нормализация числовых признаков. Линейные комбинации признаков. Нелинейные преобразования признаков. Проблема переобучения при добавлении признаков (bias-variance tradeoff в задаче линейной регрессии).