Основные методы анализа данных
Содержание
О курсе
Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ специализации "Анализ Данных и Интеллектуальные Системы" в 1-2 модулях 2018-2019 учебного года.
Лектор: Миркин Борис Григорьевич
Занятия проходят по пятницам, 15:10-16:30 и 16:40-18:00, ауд. 501.
Консультации по выполнению домашней работы проводятся по пятницам с 16:30.
Порядок формирования итоговой оценки
Контроль знаний проводится в виде двухступенчатой процедуры. Отдельно оцениваются Домашний проект и Экзаменационная контрольная работа: Oитоговая = 0.4 * Oд/п + 0.6 * Оэкз
Лекции
Mirkin Rules for Cluster Interpretation
Все лекции (до 3.11) в pdf-формате
Домашний проект
Требуется прислать законченный отчет до 3.12.18 (+ ночь) на bmirkin@hse.ru (необходимо предварительное согласование файла данных). Работы, сданные 4.12-13.12, тоже будут проверены, но со штрафом 30% от величины оценки. Работы, сданные 14.12 или позже, проверяться не будут (оценка 0).
Домашнее задание 1
1) Each to form/join a team of one, two or three; the team finds a meaningful dataset of their liking on the internet: say, by Googling “data analysis dataset”:
- Number of entities ≥ 80, of features ≥ 5
- No missing
- No Irivine ML repository
- The dataset is to be approved by me.
2) Start writing a team’s report file:
- Project title page
- Section 1:
- Explanation of the choice of the dataset
- Information of the dataset: features, number of entities, source address, examples of problems
Домашнее задание 2
1) Выберите не менее трех количественных признаков, объясните выбор и примените метод К-средних (для K=5, для K=9). В обоих случаях сделайте порядка 10 случайных инициализаций и выберите то, которое доставляет минимум критерию метода.
2) Проинтерпретируйте оба разбиения с помощью признаков таблицы данных. Объясните, какое из разбиений лучше с точки зрения интерпретации.
3) Для одного из полученных разбиений:
- Сравните средние по какому-либо признаку в двух кластерах, используя бутстрэп.
- Найдите 95% доверительный интервал для среднего значения какого-либо признака на всем множестве объектов, используя бутстрэп.
- Для одного из кластеров сравните среднее на всем множестве для какого-либо признака с его средним внутри кластера, используя бутстрэп
Примечание: каждое применение бутстрэпа должно быть обоими методами, с опорой и без.
Домашнее задание 3: Contingency Table
1) Consider three nominal features (one of them, not more, may be taken from nominal features in your data).
2) Build two contingency tables over them: present a conditional frequency table and Quetelet relative index tables. Make comments on relations between categories of the common (to both tables) feature and two others.
3) Compute and visualize the chi-square-summary_Quetelet_index over both tables.
4) Comment on the meaning of the values in the data analysis context.
Домашнее задание 4: PCA/SVD
1) In your data set, select a subset with 3 to 6 features related, more or less, to the same aspect and explain your choice.
2) Visualize the data subset using standardization with two versions of normalization: (a) over ranges and (b) over standard deviations. At these visualizations, use a distinct shape/colour for points representing a pre-specified by you group of objects.
3) Apply the conventional PCA for visualization and see if there is any difference with respect to (a)/(b) above. Comment on which of the normalizations is better, in your opinion, and why.
Домашнее задание 5
1) Find two features in your dataset with more or less “linear-like” scatterplot.
2) Display the scatter-plot.
3) Build a linear regression of one of the features over the other. Make a comment on the meaning of the slope.
4) Find the correlation and determinacy coefficients, and comment on the meaning of the latter.
5) Make a prediction of the target values for given two or three predictor’ values; make a comment.
6) Compare the mean relative absolute error of the regression on all points of your set and the determinacy coefficient and make comments.
Домашнее задание 6
1) Возьмите три количественных признака в Ваших данных и сформируйте бинарный признак по каждому из них. (Один из этих трех бинарных признаков может быть взят из данных непосредственно, тогда надо будет бинаризовать только два количественных признака.)
2) Один из трех признаков сделайте «выходным» и рассмотрите две таблицы сопряженности для предсказания значения выходного признака по каждому из входных. Рассчитайте характеристики аккуратности, точности и полноты для каждой из таблиц. Прокомментируйте и сравните результаты.
Экзамен
Дата: 14.12.18 Время работы: 80 мин. Количество вопросов: 6-7 (2 – теоретических, 4 – практических).
Каждому вопросу приписана максимально возможная оценка по нему; сумма этих оценок равна 100%. При проверке каждый ответ оценивается в соответствии с уровнем покрытия материала в пределах приписанного к вопросу максимума. Сумма составляет оценку в процентах, и затем округляется до традиционной 10-балльной шкалы. Считается справедливым, если 52 и 53 округляются до 5, а 67 и 68 – до 7. Округление оценок, таких как 55 или 66 может основываться на дополнительной информации о прилежании студента.
Примеры вопросов см. в программе курса.
Обратная связь
Миркин Борис Григорьевич: bmirkin@hse.ru
Литература
Основная
1. B. Mirkin (2011/18) Core Concepts in Data Analysis: Summarization, Correlation, Visualization, Springer-London. Авторская версия
2. Б. Миркин (2017) Введение в анализ данных, М., Юрайт. Авторская версия
3. R.O. Duda, P.E. Hart, D.G. Stork (2001) Pattern Classification, Wiley-Interscience, ISBN 0-471-05669-3
4. H. Lohninger (1999) Teach Me Data Analysis, Springer-Verlag, Berlin-New York-Tokyo, 1999. ISBN 3-540-14743-8.
Дополнительная
1. M. Berthold, D. Hand (2003), Intelligent Data Analysis, Springer-Verlag.
3. B. Efron and R. Tibshirani (1993) An Introduction to Bootstrap, Chapman & Hall.
5. J. Han, M. Kamber, J. Pei (2010) Data Mining: Concepts and Techniques, 3d Edition, Morgan Kaufmann Publishers.
6. М. Дж. Кендалл, А. Стьюарт (1973) Статистические выводы и связи, Наука, Москва.
7. М.Б. Лагутин (2009) Наглядная математическая статистика, БИНОМ, Москва.
8. L. Lebart, A. Morineau, M. Piron (1995) Statistique Exploratoire Multidimensionelle, Dunod, Paris, ISBN 2-10-002886-3.
10. R. Mazza (2009) Introduction to Information Visualization, Springer, ISBN: 978-1-84800-218-0.
11. W. McKinney (2013) Python for Data Analysis, O’Reilly Media, Sebastopol USA.
13. T.M. Mitchell (2005) Machine Learning, McGraw Hill. (В библиотеке ВШЭ есть издание 1997 года)
14. B. Schölkopf, A.J. Smola (2005) Learning with Kernels, The MIT Press.
15. Дж, Тьюки (1981) Анализ результатов наблюдений. Разведочный анализ. Мир, Москва.
16. V. Vapnik (2006) Estimation of Dependences Based on Empirical Data, Springer Science + Business Media Inc., 2d edition.
17. A. Webb (2002) Statistical Pattern Recognition, Wiley and Son.