Машинное обучение 1/Группа 145 РС — различия между версиями
Материал из Wiki - Факультет компьютерных наук
Aumnov (обсуждение | вклад) (→Общая информация) |
Aumnov (обсуждение | вклад) (→Семинары) |
||
Строка 26: | Строка 26: | ||
=== Семинар 3 (23.09). Предобработка: категории, пропуски, нормализация. Минимизация функции потерь. === | === Семинар 3 (23.09). Предобработка: категории, пропуски, нормализация. Минимизация функции потерь. === | ||
+ | |||
+ | === Семинары 4 и 5 (07.10 и 08.10). Линейная классификация. Метрики качества, ROC, PR, AUC. Валидация. SVM === | ||
+ | |||
+ | Упражнения на дом (в случае затруднений см. тетрадки семинаров 4 и 5 на главной курса). | ||
+ | * Скачайте датасет для классификации спама: https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/ | ||
+ | * Разделите выборку на обучение и тест (sklearn.cross_validation.train_test_split) | ||
+ | * Обучите на нем логистическую регрессию (sklearn.linear_model.LogisticRegression), посчитайте различные метрики для вашего классификатора: правильность, точность, полноту (sklearn.metrics). | ||
+ | * Постройте ROC-кривую и PR-кривую для этого классификатора, посчитайте для них AUC-значения. | ||
+ | * Проделайте кросс-валидацию метода (sklearn.cross_validation.KFold) |
Версия 12:21, 8 октября 2016
Содержание
- 1 Общая информация
- 2 Семинары
- 2.1 Семинар 1 (09.09). Вводные понятия. Инструменты numpy, pandas, matplotlib.
- 2.2 Семинар 2 (16.09). Векторное дифференцирование. Знакомство с sklearn.
- 2.3 Семинар 3 (23.09). Предобработка: категории, пропуски, нормализация. Минимизация функции потерь.
- 2.4 Семинары 4 и 5 (07.10 и 08.10). Линейная классификация. Метрики качества, ROC, PR, AUC. Валидация. SVM
Общая информация
Время для консультаций (по предварительной договоренности):
- Понедельник 11:00 - 12:00, 15:00 - 16:00
- Вторник 11:00 - 12:00, 15:00 - 16:00
- Пятница 9:30 - 12:00, 16:30 - 17:30.
аудитория 623
Почта: alexeyum@gmail.com
Семинары
Материалы для повторения см. на главной странице курса
Семинар 1 (09.09). Вводные понятия. Инструменты numpy, pandas, matplotlib.
Упражнения на дом:
- Сгенерируйте матрицу 5x5 со случайными числами от 0 до 1. Найдите индексы ячеек со значениями меньше 0.2.
- Создайте матрицу 5x5 с числами, такими, что в ячейке (i, j) стоит число i+j. В задаче нельзя использовать циклы.
- Постройте график функции exp(|2*x + 3|).
- Пусть x, y - два вектора. Найдите проекцию вектора x на вектор y.
Семинар 2 (16.09). Векторное дифференцирование. Знакомство с sklearn.
Дополнительные упражнения на темы прошлого семинара: упражнения, titanic.csv
Семинар 3 (23.09). Предобработка: категории, пропуски, нормализация. Минимизация функции потерь.
Семинары 4 и 5 (07.10 и 08.10). Линейная классификация. Метрики качества, ROC, PR, AUC. Валидация. SVM
Упражнения на дом (в случае затруднений см. тетрадки семинаров 4 и 5 на главной курса).
- Скачайте датасет для классификации спама: https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/
- Разделите выборку на обучение и тест (sklearn.cross_validation.train_test_split)
- Обучите на нем логистическую регрессию (sklearn.linear_model.LogisticRegression), посчитайте различные метрики для вашего классификатора: правильность, точность, полноту (sklearn.metrics).
- Постройте ROC-кривую и PR-кривую для этого классификатора, посчитайте для них AUC-значения.
- Проделайте кросс-валидацию метода (sklearn.cross_validation.KFold)