Машинное обучение 1/Группа 145 РС — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Семинары)
(Семинары 4 и 5 (07.10 и 08.10). Линейная классификация. Метрики качества, ROC, PR, AUC. Валидация. SVM)
Строка 27: Строка 27:
 
=== Семинар 3 (23.09). Предобработка: категории, пропуски, нормализация. Минимизация функции потерь. ===
 
=== Семинар 3 (23.09). Предобработка: категории, пропуски, нормализация. Минимизация функции потерь. ===
  
=== Семинары 4 и 5 (07.10 и 08.10). Линейная классификация. Метрики качества, ROC, PR, AUC. Валидация. SVM ===
+
=== Семинары 4 и 5 (07.10 и 08.10). Линейная классификация. Метрики качества, ROC, PR, AUC. Валидация. SVM. ===
  
 
Упражнения на дом (в случае затруднений см. тетрадки семинаров 4 и 5 на главной курса).
 
Упражнения на дом (в случае затруднений см. тетрадки семинаров 4 и 5 на главной курса).

Версия 12:23, 8 октября 2016

Общая информация

Время для консультаций (по предварительной договоренности):

  • Понедельник 11:00 - 12:00, 15:00 - 16:00
  • Вторник 11:00 - 12:00, 15:00 - 16:00
  • Пятница 9:30 - 12:00, 16:30 - 17:30.

аудитория 623

Почта: alexeyum@gmail.com

Семинары

Материалы для повторения см. на главной странице курса

Семинар 1 (09.09). Вводные понятия. Инструменты numpy, pandas, matplotlib.

Упражнения на дом:

  • Сгенерируйте матрицу 5x5 со случайными числами от 0 до 1. Найдите индексы ячеек со значениями меньше 0.2.
  • Создайте матрицу 5x5 с числами, такими, что в ячейке (i, j) стоит число i+j. В задаче нельзя использовать циклы.
  • Постройте график функции exp(|2*x + 3|).
  • Пусть x, y - два вектора. Найдите проекцию вектора x на вектор y.

Семинар 2 (16.09). Векторное дифференцирование. Знакомство с sklearn.

Дополнительные упражнения на темы прошлого семинара: упражнения, titanic.csv

Семинар 3 (23.09). Предобработка: категории, пропуски, нормализация. Минимизация функции потерь.

Семинары 4 и 5 (07.10 и 08.10). Линейная классификация. Метрики качества, ROC, PR, AUC. Валидация. SVM.

Упражнения на дом (в случае затруднений см. тетрадки семинаров 4 и 5 на главной курса).

  • Скачайте датасет для классификации спама: https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/
  • Разделите выборку на обучение и тест (sklearn.cross_validation.train_test_split)
  • Обучите на нем логистическую регрессию (sklearn.linear_model.LogisticRegression), посчитайте различные метрики для вашего классификатора: правильность, точность, полноту (sklearn.metrics).
  • Постройте ROC-кривую и PR-кривую для этого классификатора, посчитайте для них AUC-значения.
  • Проделайте кросс-валидацию метода (sklearn.cross_validation.KFold)