Рекомендательные системы и поиск закономерностей в данных — различия между версиями
Machine (обсуждение | вклад) |
Machine (обсуждение | вклад) |
||
Строка 12: | Строка 12: | ||
* Гибридные рекомендательные системы. Case-study 5. Рекомендация радиостанций. | * Гибридные рекомендательные системы. Case-study 5. Рекомендация радиостанций. | ||
* Бикластеризация. Фолксономии. Трикластеризация и мультимодальная кластеризация n-арных отношений и тензоров. | * Бикластеризация. Фолксономии. Трикластеризация и мультимодальная кластеризация n-арных отношений и тензоров. | ||
− | * Стандартные (Precision, Recall, | + | * Стандартные (Precision, Recall, F_1-мера, MAE, RMSE) и дополнительные меры оценки качества рекомендательных систем (HitRate, Mean Reciprocal Rank, nDCG, diversity, serendipity). А/B тестирование. |
* Контекстные рекомендательные системы. Встраивание дополнительной информации в модели. | * Контекстные рекомендательные системы. Встраивание дополнительной информации в модели. | ||
* Ансамбли рекомендальных алгоритмов. | * Ансамбли рекомендальных алгоритмов. |
Версия 14:59, 23 ноября 2018
Содержание
Темы
- Введение в рекомендательные системы (РС). Обзор курса.
- Коллаборативная фильтрация на основе сходства по пользователям и предметам (user-based и item-based подходы).
- Case-study 1. Оценка качества РС на основе бимодальной кроссвалидации.
- Частые множества и ассоциативные правила. Элементы Анализа формальных понятий. Импликации. Основные алгоритмы (Apriori, FP-growth). Меры интересности (support, confidence, lift, stability). Компактное представление частых множеств и ассоциатвных правил (замкнутые множества, понятие базиса).
- Case-study 2. Анализ посещаемости сайтов. Рекомендация контекстной рекламы.
- Case-study 3. Булева матричная факторизация, неотрицательная матричная факторизация (NMF) и разложение по сингулярным числам (SVD).
- Методы на основе матричной факторизации для рекомендательных систем. PureSVD, SVD++, timeSVD. Схемы решения: стохастический градиентный спуск (SGD) и чередующиеся наименьшие квадраты (ALS). Случай неявного отклика. Факторизационные машины.
- Спектральная кластеризация. Поиск минимального разреза. Контекстная реклама. Рекомендация музыкальных композиций.
- Поиск частых последовательностей. Case-study 4. Анализ демографических последовательностей.
- Гибридные рекомендательные системы. Case-study 5. Рекомендация радиостанций.
- Бикластеризация. Фолксономии. Трикластеризация и мультимодальная кластеризация n-арных отношений и тензоров.
- Стандартные (Precision, Recall, F_1-мера, MAE, RMSE) и дополнительные меры оценки качества рекомендательных систем (HitRate, Mean Reciprocal Rank, nDCG, diversity, serendipity). А/B тестирование.
- Контекстные рекомендательные системы. Встраивание дополнительной информации в модели.
- Ансамбли рекомендальных алгоритмов.
- Глубинное обучение для рекомендательных систем.
Формула итоговой оценки
формула: 0.4 h/w + 0.4 project + 0.2 defense
Домашняя работа
Домашнее задание 1
Коллаборативная фильтрация на основе сходства по пользователям (user-based) и продуктам (item-based)
Домашнее задание 2
- Частые множества и ассоциативные правила
- Спектральная кластеризация
- Матричная факторизация
- Анализ последовательностей
Проект
В этом файле содержатся требования к отчету, они на английском, но писать текст можно и на русском. Даны источники данных, указаны типы задач для решения, приведен релевантный софт. Указаны сроки выбора задачи и сдачи отчета. Предполагается экзамен в виде защиты проекта.
Журнал занятий
Занятие от 21.11.2018
19:30 Доклад Евгения Фролова (PhD, Skoltech & Sbebank AI) по мотивам диссертационного исследования (https://www.skoltech.ru/obrazovanie/zashhity-phd/2018-2/evgenij-frolov/)
Название: Малоранговые модели для рекомендательных систем с ограниченными данными о предпочтениях (Low-rank models for recommender systems with limited preference information)
Аннотация доклада. В силу ряда вычислительных преимуществ, одним из наиболее популярных методов, часто использующихся на практике, является PureSVD. Метод основан на сингулярном разложении и в определенных сценариях позволяет добиться наиболее релевантных рекомендаций. Однако, качество моделей на основе данного метода заметно снижается при сильном уменьшении количества известной информации о пользовательских предпочтениях. Главной целью данной работы является устранение этого недостатка, позволяющее сохранить основные преимущества PureSVD. Для этого предложены несколько новых подходов на основе матричных и тензорных методов аппроксимации. Подходы строятся на принципах многомерного представления пользовательского отклика, а также с использованием специальной схемы «гибридизации», позволяющей учесть дополнительную признаковую информацию о пользователях и предметах.