Введение в анализ данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Полезные ссылки)
м (Добавил семинар 6)
(не показано 14 промежуточных версии 6 участников)
Строка 35: Строка 35:
 
| ИАД-1 || Илья Косарев || Саночкин Юрий, Пащенко Анатолий || [https://zoom.us/j/95260607985?pwd=NTAxSVhGV1UzdHF2M0N6Q2dKWElOQT09 Zoom] ||  [https://t.me/joinchat/SrL1GYfpaLeFxs4J Чат]  || [https://github.com/PersDep/data-mining-intro-2021 Материалы] || GrodXoV
 
| ИАД-1 || Илья Косарев || Саночкин Юрий, Пащенко Анатолий || [https://zoom.us/j/95260607985?pwd=NTAxSVhGV1UzdHF2M0N6Q2dKWElOQT09 Zoom] ||  [https://t.me/joinchat/SrL1GYfpaLeFxs4J Чат]  || [https://github.com/PersDep/data-mining-intro-2021 Материалы] || GrodXoV
 
|-
 
|-
| ИАД-2 || Надежда Чиркова || Екатерина Кострыкина, Александра Штарёва  || [https://zoom.us/j/97891126155?pwd=bXk0c2oxRm9jWUJuRUJtRDl1elB2QT09 Zoom] || [https://t.me/joinchat/GnnT0omle1UE7HQ1 Чат]  || ||
+
| ИАД-2 || Надежда Чиркова || Екатерина Кострыкина, Александра Штарёва  || [https://zoom.us/j/97891126155?pwd=bXk0c2oxRm9jWUJuRUJtRDl1elB2QT09 Zoom] || [https://t.me/joinchat/GnnT0omle1UE7HQ1 Чат]  || [https://github.com/nadiinchi/iad2021 Материалы] || hHA6uvN
 
|-
 
|-
 
| ИАД-3 || Елена Кантонистова ||  [https://t.me/mikezz_1 Михаил Олейник], [https://t.me/NikPatov Никита Патов ] || [https://zoom.us/j/93207072522?pwd=djlCL3pJc0JuNkJKZ3RvL21UQmFVQT09 Zoom]  || [https://t.me/joinchat/GWgn8k5yOx1s4qD3 Чат]  || || ewfZ2I8
 
| ИАД-3 || Елена Кантонистова ||  [https://t.me/mikezz_1 Михаил Олейник], [https://t.me/NikPatov Никита Патов ] || [https://zoom.us/j/93207072522?pwd=djlCL3pJc0JuNkJKZ3RvL21UQmFVQT09 Zoom]  || [https://t.me/joinchat/GWgn8k5yOx1s4qD3 Чат]  || || ewfZ2I8
Строка 47: Строка 47:
 
| ИАД-7 || [https://t.me/OnixinO Тамерлан Таболов] || [https://t.me/Debasering Николай Аверьянов], [https://t.me/greyworgen Сергей Тихонов], [https://t.me/userwaskicked Никита Крайко] || [https://zoom.us/j/93740294916?pwd=S20vN3loUytFVk1EamQ4MDhhY0V4UT09 Zoom] || [https://t.me/joinchat/RHVp06vSXeAmedPu Чат] || || HO7xViO
 
| ИАД-7 || [https://t.me/OnixinO Тамерлан Таболов] || [https://t.me/Debasering Николай Аверьянов], [https://t.me/greyworgen Сергей Тихонов], [https://t.me/userwaskicked Никита Крайко] || [https://zoom.us/j/93740294916?pwd=S20vN3loUytFVk1EamQ4MDhhY0V4UT09 Zoom] || [https://t.me/joinchat/RHVp06vSXeAmedPu Чат] || || HO7xViO
 
|-
 
|-
| БИ-1 || Антон Семёнкин || [https://t.me/nichtdeinetraumfrau Дарья Морозова], [https://t.me/caesiummm Михаил Никифоров] || TBA || [https://t.me/joinchat/TMyUB5mUxXsY8TLZ Чат] || || aQWW7It
+
| БИ-1 || Антон Семёнкин || [https://t.me/nichtdeinetraumfrau Дарья Морозова], [https://t.me/caesiummm Михаил Никифоров] || [https://zoom.us/j/92491827270?pwd=RGczZ0szUnVxVUJOb0U5c1AvbWdhdz09 Zoom] || [https://t.me/joinchat/TMyUB5mUxXsY8TLZ Чат] || || aQWW7It
 
|-
 
|-
 
| БИ-2 || Илья Косарев || Гусева Полина, Такташева Екатерина || [https://zoom.us/j/94624466609?pwd=ZnRhYy8zZmF0OFRhaHNDTjlCVFZxQT09 Zoom] || [https://t.me/joinchat/HKbLF0ki_iPqUjnY Чат] || [https://github.com/PersDep/data-mining-intro-2021 Материалы] || QFII7j8
 
| БИ-2 || Илья Косарев || Гусева Полина, Такташева Екатерина || [https://zoom.us/j/94624466609?pwd=ZnRhYy8zZmF0OFRhaHNDTjlCVFZxQT09 Zoom] || [https://t.me/joinchat/HKbLF0ki_iPqUjnY Чат] || [https://github.com/PersDep/data-mining-intro-2021 Материалы] || QFII7j8
Строка 85: Строка 85:
 
== Лекции ==
 
== Лекции ==
  
Лекция 1 (20.01.2020). Введение в машинное обучение и анализ данных. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/lectures/lecture01-intro.pdf Слайды]] [[https://www.youtube.com/watch?v=77fwOymbP2Y Запись лекции]]
+
Лекция 1 (20.01.2021). Введение в машинное обучение и анализ данных. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/lectures/lecture01-intro.pdf Слайды]] [[https://www.youtube.com/watch?v=77fwOymbP2Y Запись лекции]]
  
Лекция 2 (27.01.2020). Основные постановки задач. Метод k ближайших соседей. Измерение ошибки в задачах классификации. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/lectures/lecture02-knn.pdf Слайды]] [[https://www.youtube.com/watch?v=_6sxGoimhZM Запись лекции]]
+
Лекция 2 (27.01.2021). Основные постановки задач. Метод k ближайших соседей. Измерение ошибки в задачах классификации. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/lectures/lecture02-knn.pdf Слайды]] [[https://www.youtube.com/watch?v=_6sxGoimhZM Запись лекции]]
 +
 
 +
Лекция 3 (03.02.2021). Переобучение и обобщающая способность. Проверка обобщающей способности: отложенная выборка и кросс-валидация. Метод k ближайших соседей с весами. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/lectures/lecture03-knn.pdf Слайды]] [[https://www.youtube.com/watch?v=FswSp9w21PQ Запись лекции]]
 +
 
 +
Лекция 4 (10.02.2021). kNN для регрессии. Модель линейной регрессии. Подготовка данных для линейной регрессии. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/lectures/lecture04-linregr.pdf Слайды]] [[https://www.youtube.com/watch?v=EfD8ujQmnHw Запись лекции]]
 +
 
 +
Лекция 5 (17.02.2021). MSE для линейной регрессии в матричной форме. Аналитическая формула для оптимального вектора весов, её недостатки. Регуляризация линейных моделей. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/lectures/lecture05-linregr.pdf Слайды]] [[https://www.youtube.com/watch?v=BQh1BUco5FY Запись лекции]]
 +
 
 +
Лекция 6 (24.02.2021). Интерпретация весов из линейной модели. Градиентый спуск. Мультистарт. Выбор длины шага. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/lectures/lecture06-linregr.pdf Слайды]] [[https://www.youtube.com/watch?v=wg51b2Wt96I Запись лекции]]
  
 
== Семинары ==
 
== Семинары ==
 +
 +
Семинар 1: pandas; основы работы с таблицами, вычисление статистик, устранение пропусков. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/seminars/sem01_pandas.ipynb Ноутбук]]
 +
 +
Семинар 2: numpy и основы линейной алгебры. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/seminars/sem02_numpy.ipynb Ноутбук]]
 +
 +
Семинар 3: визуализация данных. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/seminars/sem03_EDA.ipynb Ноутбук]]
 +
 +
Семинар 6: Линейная регрессия, функции потерь регресии, регуляризация. [[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/seminars/sem06_linreg/sem06_linreg_unsolved.ipynb Ноутбук]]
  
 
== Практические задания ==
 
== Практические задания ==
Строка 96: Строка 112:
  
 
В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста.
 
В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста.
 +
 +
==== ДЗ 1. pandas ====
 +
 +
[[https://github.com/hse-ds/iad-intro-ds/tree/master/2021/homeworks/hw01-pandas Ноутбук для заполнения и данные]]
 +
 +
'''Дедлайн''': мягкий дедлайн 26 января 23:59, жесткий дедлайн 30 января 23:59.
 +
 +
==== ДЗ 2. numpy ====
 +
 +
[[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/homeworks/hw02-numpy.ipynb Ноутбук для заполнения]]
 +
 +
'''Дедлайн''': мягкий дедлайн 2 февраля 23:59, жёсткий дедлайн 6 февраля 23:59.
 +
 +
==== ДЗ 3. EDA и подготовка данных ====
 +
 +
[[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/homeworks/hw03-EDA/hw03-EDA.ipynb Ноутбук для заполнения]]
 +
 +
'''Дедлайн''': мягкий дедлайн 17 февраля 23:59, жёсткий дедлайн 21 февраля 23:59.
 +
 +
==== ДЗ 4. kNN и линейная регрессия ====
 +
 +
[[https://github.com/hse-ds/iad-intro-ds/blob/master/2021/homeworks/hw04-knn_linreg/hw04.ipynb Ноутбук для заполнения]]
 +
 +
'''Дедлайн''': мягкий дедлайн 10 марта 23:59, жёсткий дедлайн 14 марта 23:59.
  
 
== Соревнования ==
 
== Соревнования ==

Версия 17:01, 25 февраля 2021

О курсе

Курс читается для студентов 2-го курса майнора ИАД в 3-4 модулях.

Проводится с 2015 года.

Лектор: Соколов Евгений Андреевич

Лекции проходят онлайн по средам в 11:10.

Полезные ссылки

Карточка курса и программа

Репозиторий с материалами на GitHub

Записи занятий

Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.minor.dm+<номер группы>@gmail.com (например, hse.minor.dm+3@gmail.com)

Канал в telegram для объявлений: https://t.me/hs_iad_2021

Чат в telegram для флуда: https://t.me/joinchat/Vuq4Lgi98RG22fQP

Ссылка на курс в Anytask: https://anytask.org/course/779

Таблица с оценками: https://docs.google.com/spreadsheets/d/13aZ9aQAqa0QUTniqAkPMlirWqPq6DfLwpIra2HJLwhk/edit?usp=sharing

Семинары

Группа Преподаватель Учебные ассистенты Zoom-конференция Ссылка на чат Материалы семинаров Инвайт в anytask
ИАД-1 Илья Косарев Саночкин Юрий, Пащенко Анатолий Zoom Чат Материалы GrodXoV
ИАД-2 Надежда Чиркова Екатерина Кострыкина, Александра Штарёва Zoom Чат Материалы hHA6uvN
ИАД-3 Елена Кантонистова Михаил Олейник, Никита Патов Zoom Чат ewfZ2I8
ИАД-4 Артём Филатов Валерий Айхенвальд, Анастасия Бир Zoom Чат 4TUKO0v
ИАД-5 Владимир Омелюсик Аня Аксенова, Александр Габиташвили Zoom Чат Материалы Kre5emJ
ИАД-6 Ася Карпова Елена Гринкевич, Егор Масликов Zoom Чат nSuRKac
ИАД-7 Тамерлан Таболов Николай Аверьянов, Сергей Тихонов, Никита Крайко Zoom Чат HO7xViO
БИ-1 Антон Семёнкин Дарья Морозова, Михаил Никифоров Zoom Чат aQWW7It
БИ-2 Илья Косарев Гусева Полина, Такташева Екатерина Zoom Чат Материалы QFII7j8

Правила выставления оценок

В курсе предусмотрено несколько форм контроля знания:

  • Самостоятельные работы на семинарах, проверяющие знание основных фактов с лекций и семинаров
  • Практические домашние работы на Python
  • Контрольная где-то в середине курса
  • Письменный экзамен

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

Oитоговая = Округление(0.4 * ДЗ + 0.1 * ПР + 0.2 * КР + 0.3 * Э)

ДЗ — средняя оценка за практические домашние задания

ПР — средняя оценка за письменные проверочные работы на семинарах

КР — оценка за контрольную работу

Э — оценка за экзамен

Округление арифметическое.

Правила сдачи заданий

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Лекции

Лекция 1 (20.01.2021). Введение в машинное обучение и анализ данных. [Слайды] [Запись лекции]

Лекция 2 (27.01.2021). Основные постановки задач. Метод k ближайших соседей. Измерение ошибки в задачах классификации. [Слайды] [Запись лекции]

Лекция 3 (03.02.2021). Переобучение и обобщающая способность. Проверка обобщающей способности: отложенная выборка и кросс-валидация. Метод k ближайших соседей с весами. [Слайды] [Запись лекции]

Лекция 4 (10.02.2021). kNN для регрессии. Модель линейной регрессии. Подготовка данных для линейной регрессии. [Слайды] [Запись лекции]

Лекция 5 (17.02.2021). MSE для линейной регрессии в матричной форме. Аналитическая формула для оптимального вектора весов, её недостатки. Регуляризация линейных моделей. [Слайды] [Запись лекции]

Лекция 6 (24.02.2021). Интерпретация весов из линейной модели. Градиентый спуск. Мультистарт. Выбор длины шага. [Слайды] [Запись лекции]

Семинары

Семинар 1: pandas; основы работы с таблицами, вычисление статистик, устранение пропусков. [Ноутбук]

Семинар 2: numpy и основы линейной алгебры. [Ноутбук]

Семинар 3: визуализация данных. [Ноутбук]

Семинар 6: Линейная регрессия, функции потерь регресии, регуляризация. [Ноутбук]

Практические задания

За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).

В некоторых группах домашние задания могут отличаться. Уточняйте у семинариста.

ДЗ 1. pandas

[Ноутбук для заполнения и данные]

Дедлайн: мягкий дедлайн 26 января 23:59, жесткий дедлайн 30 января 23:59.

ДЗ 2. numpy

[Ноутбук для заполнения]

Дедлайн: мягкий дедлайн 2 февраля 23:59, жёсткий дедлайн 6 февраля 23:59.

ДЗ 3. EDA и подготовка данных

[Ноутбук для заполнения]

Дедлайн: мягкий дедлайн 17 февраля 23:59, жёсткий дедлайн 21 февраля 23:59.

ДЗ 4. kNN и линейная регрессия

[Ноутбук для заполнения]

Дедлайн: мягкий дедлайн 10 марта 23:59, жёсткий дедлайн 14 марта 23:59.

Соревнования

Правила участия и оценивания

В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.

Студент, занявший в соревновании место i, получает оценку

10 - 10 * (i - 1) / M,

где M — количество студентов, принявших участие в соревновании;

i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.

Чтобы вас не пропустили при проверке решений соревнования, необходимо использовать следующий формат для имени команды (вкладка Team):

«Имя Фамилия номер_группы»

В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Если не оговорено иное, использовать любые внешние данные в соревнованиях запрещено. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными.

Контрольная работа

Вопросы для подготовки с прошлого года: https://docs.google.com/document/d/1yuB17EoXyVSxqRslpFTKX97Kriuxn4lgFL5z4kQF9lU/edit?usp=sharing

На контрольной будет 4 вопроса. Два из них — по теории, где нужно будет объяснить одну из тем, разобранных на лекциях, или ответить на вопросы на понимание. Два вопроса — это задачи, примеры приведены ниже.

Примеры задач:

Экзамен

Вопросы: https://docs.google.com/document/d/18kMS1f7NsdGEZy62MgfTGdgSq4P-6DVcnwr1ZJPLAqE/edit?usp=sharing

Примеры задач прошлого года (также могут войти задачи из коллоквиума)

Полезные материалы

Курсы по машинному обучению и анализу данных

Максимально близко к материалам курса: Специализация "Машинное обучение: от статистики до нейросетей" (речь про два курса: "Основы машинного обучения" и "Продвинутые методы машинного обучения")

Для тех, кто хочет подтянуть математику: Специализация "Математика для анализа данных"

Более сложная версия этого курса с ПМИ: Машинное обучение 1

Ещё материалы:

Статьи

Книги

  • Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis. Fundamental Concepts and Algorithms. Cambridge University Press, 2014.
  • Boris Mirkin. Core Concepts in Data Analysis: Summarization, Correlation, Visualization. 2010.
  • James, Witten, Hastie, Tibshirani. An Introduction to Statistical Learning. 2013.

Страницы прошлых лет

2019/20 учебный год

2018/19 учебный год

2017/18 учебный год

2016/17 учебный год

2015/16 учебный год