Генеративные модели на основе ODE и SDE
Содержание
Общая информация
Лектор: Денис Ракитин
Туториал по ODE/SDE моделям, близкий к программе курса
Оценки
Таблица с оценками
Формула итоговой оценки: Оитог = 0.5 * Одз + 0.3 * Опроект + 0.2 * Оэкз
Формула накопленной оценки: Онакоп = 5/8 * Одз + 3/8 * Опроект
Если Онакоп больше или равна 5.5, ее можно округлить и зачесть за итог.
Домашние задания
Вес у всех задач одинаковый, задачи оцениваются из 4 баллов. Если в задачах есть пункты, то будет подписано количество баллов за каждый пункт, иначе баллы между пунктами делятся поровну.
Сдать можно в classroom: ссылка, инвайт oup7kk4.
Бонусные задачи
Проект
Состоит в реализации и проведении экспериментов с одной из рассмотренных на курсе моделей. Полное описание здесь.
Полезные архитектуры можно найти здесь.
Дедлайн: 19 декабря 23:59.
Лекции
Записи
Лекция 1. Повторение теории вероятностей: условное матожидание, свойства. Теорема о представлении условного матожидания как L2 проекции. Score-функция, применения: поиск моды, семплирование с помощью динамики Ланжевена. Представление score-функции зашумленного распределения как УМО от условной score-функции. Denoising score matching: обучение score-функции регрессией на условную score-функцию. Noise Conditional Score Networks: обобщение на последовательность зашумленных распределений.
Статья(NCSN): https://arxiv.org/abs/1907.05600
Лекция 2. Повторение NCSN, визуальная интерпретация выражения score-функции через условную score-функцию. Обыкновенные дифференциальные уравнения (ODE): напоминание, дискретизация по схеме Эйлера. Винеровский процесс: определение, свойства, смысл. Представление Винеровского процесса через предел кусочно-линейного процесса случайного блуждания (Принцип инвариантности Донскера-Прохорова, формулировка). Стохастические дифференциальные уравнения (SDE): неформальное определение дискретизацией по схеме Эйлера(-Маруямы). Эволюция плотности величины, подчиняющейся ODE: уравнение непрерывности.
Лекция 3. Примеры SDE, обобщающих дискретные процессы: процесс Орнштейна-Уленбека (уравнение Ланжевена, Variance Preserving SDE), непрерывная Динамика Ланжевена. Эволюция плотности величины, подчиняющейся SDE: уравнение Фоккера-Планка. Единственность решения уравнения Фоккера-Планка с начальным условием (формулировка). Интерпретация уравнения непрерывности и уравнения Фоккера-Планка: законы сохранения (адаптировано из первой лекции курса УРЧП).
Лекция 4. Построение обратного SDE в 3 этапа: построение эквивалентного ODE, обращение ODE, построение SDE, эквивалентного обратному ODE (эквивалентность понимается в терминах равенства маргинальных распределений). Диффузионные модели на основе обратного SDE, соответствующая схема Эйлера, сравнение с динамикой Ланжевена. Подсчет правдоподобия семпла диффузионной модели, работающей в режиме ODE.
Статья (SDE диффузионные модели): https://arxiv.org/abs/2011.13456
Лекция 5. Оценка следа Хатчинсона для приближения дивергенции, применение в подсчете правдоподобия. Classifier Guidance и Classifier-Free Guidance для условной генерации из диффузионных моделей. Модель Flow Matching: постановка задачи - выучить поле скорости так, чтобы соответствующее ODE породило заданную динамику. Мотивирующий пример: интерполяция между шумом и данными.
Статьи: https://arxiv.org/abs/2105.05233 (описание Classifier Guidance), https://arxiv.org/abs/2207.12598 (Classifier-Free Guidance), https://arxiv.org/abs/2210.02747 (Flow Matching)
Лекция 6. Модель Flow Matching/Conditional Flow Matching. Выражение безусловного векторного поля через условное матожидание условного векторного поля. Обучение безусловного векторного поля регрессией на условное векторное поле. Применение к интерполяции между шумом и данными, применение к парным задачам (без обоснования).
Статьи: https://arxiv.org/abs/2210.02747 (Flow Matching, применение к генерации), https://arxiv.org/abs/2302.00482 (Conditional Flow Matching, применение к парам), https://arxiv.org/abs/2209.15571v3 (Stochastic Interpolants, то же самое на немного другом языке).
Лекция 7. Rectified Flow: транспортная цена между входной и сгенерированной картинкой не больше, чем транспортная цена между семплами, на которых учится Flow Matching. Обоснование применения Flow Matching к парным задачам. Задача оптимального транспорта. Оптимальный план как неподвижная точка процедуры ReFlow. 4 эквивалентных свойства, задающих неподвижную точку ReFlow.
Статья: https://arxiv.org/abs/2209.03003 (Rectified Flow).
Лекция 8. Доказательство эквивалентных свойств неподвижной точки ReFlow. Следствие: решение задачи ОТ в виде ODE обладает прямыми траекториями. Задача динамического оптимального транспорта, формула Бенаму-Бренье, ее эквивалентность задаче ОТ. Характеризация решения динамической задачи ОТ: единственный процесс, задаваемый ODE с прямыми траекториями и имеющий нужные распределения в начальный и конечный моменты времени. Интерпретация процедуры ReFLow как поочередной проекции на процессы с прямыми траекториями и процессы, задаваемые ODE. InstaFlow: применение ReFlow для спрямления траекторий диффузионной модели, применение для дистилляции Stable Diffusion.
Статьи: https://arxiv.org/abs/2112.10752 (Stable Diffusion), https://arxiv.org/abs/2309.06380 (InstaFlow).
Презентация: ссылка
Лекция 9. Neural Optimal Transport: решение задачи оптимального транспорта за счет введения дискриминатора и сведения условной задачи оптимизации к безусловной минимаксной. Утверждение: векторное поле, решающее задачу (динамического) ОТ, является градиентом скалярного поля. Поправка к предыдущим лекциям: неподвижная точка процедуры ReFlow является решением задачи ОТ, если обучаемое векторное поле является градиентом скалярного. Решение задачи динамического оптимального транспорта с помощью интерполянтов (без вывода).
Статьи: https://arxiv.org/abs/2201.12220 (Neural Optimal Transport), https://arxiv.org/abs/2209.15571v3 (Stochastic Interpolants).
Лекция 10. Напоминания из теории вероятностей: вероятностное пространство, вероятностная мера, зачем нужны сигма-алгебры. Минимальная сигма-алгебра, содержащая заданный набор множеств. Борелевская сигма-алгебра на R^n. Случайные величины и векторы. Случайные величины и векторы, измеримые относительно под-сигма-алгебры. Независимость случайной величины и сигма-алгебры. Случайный процесс, сигма-алгебра, порожденная случайным процессом. Фильтрация, естественная фильтрация случайного процесса, смысл, примеры. Согласованность случайного процесса с фильтрацией. Условное матожидание относительно сигма-алгебры: определение, свойства, пример применения (E[W_t | F_s] = W_s).
Лекция 11. Дискретный процесс ставок, похожий на дискретную версию интеграла Ито, его свойства: согласованность, нулевое среднее, дисперсия числа денег равна средней сумме квадратов ставок. Интеграл Ито: определение для простых процессов, свойства: согласованность, нулевое среднее, изометрия Ито. Пространства L_2(Omega) и L_2(Omega x [0, T]), интерпретация интеграла Ито как отображения между этими пространствами, сохраняющего скалярное произведение. Определение интеграла Ито в общем случае: утверждение о приближении интегрируемого процесса в L2 простыми процессами, схема. Утверждение о существовании L2 предела этих простых процессов, который и называется интегралом Ито соответствующего процесса.
Лекция 12. Построение интеграла Ито в общем случае через критерий Коши и изометрию. Свойства интеграла Ито в общем случае: согласованность, нулевое среднее, изометрия, линейность. Интеграл от неслучайной непрерывной функции имеет нормальное распределение. Квадратичная вариация неслучайной гладкой функции равна нулю.
Лекция 13. Квадратичная вариация Винеровского процесса, обобщение утверждения на сумму квадратов винеровских скачков, домноженных на согласованный интегрируемый процесс. Интерпретация: (d W_t)^2 = dt. Применение: вычисление интеграла W_t d W_t по определению. Определение процесса, имеющего стохастический дифференциал. Формула Ито: формулировка, интуиция через дифференциал неслучайной функции и квадратичную вариацию. Примеры применения: вычисление интеграла W_t d W_t, W_t^2 d W_t и формула интегрирования по частям для неслучайных функций.
Лекция 14. (Не очень формальное) доказательство формулы Ито, интерпретация конвенции (dt)^2 = 0, dW_t * dt = 0, (dW_t)^2 = dt. Стохастические дифференциальные уравнения, определение решения. Пример: геометрическое броуновское движение, решение через формулу Ито и представление процесса в виде функции от винеровского. VP-SDE (процесс, сохраняющий дисперсию / уравнение Ланжевена), решение с помощью формулы Ито и подбора функции с не зависящим от X_t стохастическим дифференциалом. Распределение VP-SDE в момент времени t: обоснование, почему нормальное, подсчет матожидания и дисперсии. Небольшой повтор и схема пройденного на курсе материала.