Машинное обучение 1/Группа 145 РС

Содержание

Время для консультаций (по предварительной договоренности):

аудитория 623

Почта: alexeyum@gmail.com

Материалы для повторения см. на главной странице курса

Упражнения на дом:

Сгенерируйте матрицу 5x5 со случайными числами от 0 до 1. Найдите индексы ячеек со значениями меньше 0.2.
Создайте матрицу 5x5 с числами, такими, что в ячейке (i, j) стоит число i+j. В задаче нельзя использовать циклы.
Постройте график функции exp(|2*x + 3|).
Пусть x, y - два вектора. Найдите проекцию вектора x на вектор y.

Дополнительные упражнения на темы прошлого семинара: упражнения, titanic.csv

Упражнения на дом (в случае затруднений см. тетрадку семинара 4 на главной курса).

Скачайте датасет для классификации спама: https://archive.ics.uci.edu/ml/machine-learning-databases/spambase/
Разделите выборку на обучение и тест (sklearn.cross_validation.train_test_split)
Обучите на нем логистическую регрессию (sklearn.linear_model.LogisticRegression), посчитайте различные метрики для вашего классификатора: правильность, точность, полноту (sklearn.metrics).
Постройте ROC-кривую и PR-кривую для этого классификатора, посчитайте для них AUC-значения.
Проделайте кросс-валидацию метода (sklearn.cross_validation.KFold)

Упражнения на дом (в случае затруднений см. тетрадку семинара 6 на главной курса):

Даны разреженные матрицы A и B в одном из трех форматов: COO, CSR, CSC. Какое время потребуется для их перемножения в зависимости от форматов? Какая пара форматов самая оптимальная?
Дана разреженная матрица A и вектор z. Покажите, что если A представлена в формате CSR или CSC, то выражение Az можно вычислить эффективно.
Загрузите датасет отзывов о работе банков. Обозначьте отзывы с оценками 4-5 как положительные и 1-3 как отрицательные. Приведите тексты к нижнему регистру, уберите все символы, кроме кириллицы, превратите тексты в признаки с помощью TF-IDF. Обучите линейную регрессию на этих данных.
В предыдущем задании изучите, какие слова в наибольшей степени влияют на ответ.
* Проведите стемминг текстов с помощью nltk.stem.snowball.RussianStemmer() и еще раз проведите классификацию. Сравните результаты.

Упражнения на дом (в случае затруднений см. тетрадку семинара 7 на главной курса):

Покажите, что оценка качества разбиения с помощью максимального правдоподобия порождает энтропийный критерий для решающих деревьев.

(Вывод частично был на лекции, нужно провести все преобразования).

Сгенерируйте набор точек на плоскости. Создайте из них датасет, где координаты точки являются ее признаками, а

модуль суммы координат - ответом.

Обучите на них решающее дерево и изобразите его значения на точках плоскости.
Исследуйте, как меняется дерево в зависимости от глубины.
Исследуйте, как меняется дерево при изменении 10% выборки (5%, 1%).
Загрузите стандартный датасет с ценами в Бостоне (sklearn.datasets.load_boston).
Подберите с помощью кросс-валидации наилучшие параметры решающего дерева для него.