Майнор Интеллектуальный анализ данных/Введение в анализ данных/ИАД-11,12 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
 
(не показаны 33 промежуточные версии этого же участника)
Строка 8: Строка 8:
  
 
Почта курса: hse.minor.dm@gmail.com (обратите внимание на оформление темы письма)
 
Почта курса: hse.minor.dm@gmail.com (обратите внимание на оформление темы письма)
 +
 +
Для быстрой связи с семинаристом и ассистентом: слак (чтобы добавиться, пришлите свою почту и мы вышлем приглашения. Большая просьба регистрироваться на канале с понятными никами (должен содержать фамилию).
 +
 +
== Домашние задания ==
 +
{| class="wikitable"
 +
|-
 +
!  !! Дата выдачи !! Дата сдачи !! Задание
 +
|-
 +
|  Лабораторная работа 1  || 26.01.2016 || 09.02.2016 09:00MSK || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/gkstluiv9zghmub/lab.01.ipynb Условие]
 +
|-
 +
|  Лабораторная работа 2  || 09.02.2016 || 01.03.2016 09:00MSK || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/i5lbnqoaxls4h7h/lab.02.ipynb Условие]
 +
[https://www.dropbox.com/s/mimfav9l1prumtr/wines_quality.csv?dl=0 wines_quality.csv]
 +
|-
 +
|  Лабораторная работа 3  || 08.03.2016 || 29.03.2016 09:00MSK || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/7rfcnz86dfm5dzq/lab.03.ipynb Условие]
 +
[https://www.dropbox.com/s/r4jy3mm0whp89zi/data.train.csv?dl=0 data.train.csv]
 +
 +
[https://www.dropbox.com/s/ded86bzwip09b0y/data.test.csv?dl=0 data.test.csv]
 +
|-
 +
|  Проект  || 08.03.2016 || 05.04.2016 09:00MSK || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/movmlwtbqi691u2/project.ipynb Условие]
 +
[https://www.dropbox.com/s/uyd8f9dpmffrcvx/student-mat.csv?dl=0 student-mat.csv]
 +
 +
[https://www.dropbox.com/s/xqo7hkef3hdagm0/student-por.csv?dl=0 student-por.csv]
 +
 +
|-
 +
|  Вопросы для подготовки к проверочной  || 20.03.2016 ||  || [https://www.dropbox.com/s/bia5etika1fq22k/preparing.pdf?dl=0 Вопросы]
 +
 +
|-
 +
|  Лабораторная работа 4  || 20.04.2016 || 10.05.2016 09:00MSK || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/1bgqx0zsy8eex5p/lab.04.ipynb Условие]
 +
[https://www.dropbox.com/s/vrz920m3mcaq2lm/bikes_rent.csv?dl=0 bikes_rent.csv]
 +
|-
 +
|  Лабораторная работа 5  || 31.05.2016 || 15.06.2016 09:00MSK || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/yfxh8y2i9lyvxfb/lab.5.ipynb Условие]
 +
[https://www.dropbox.com/s/4c8d4xk5n7ofwza/heart.dat.txt?dl=0 heart.dat.txt]
 +
|-
 +
|  Проект (продолжение)  || 31.05.2016 || 19.06.2016 09:00MSK || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/m5ez93mn5n526mt/project2.ipynb Условие]
 +
[https://www.dropbox.com/s/uyd8f9dpmffrcvx/student-mat.csv?dl=0 student-mat.csv]
 +
 +
[https://www.dropbox.com/s/xqo7hkef3hdagm0/student-por.csv?dl=0 student-por.csv]
 +
|}
  
 
== Семинары ==
 
== Семинары ==
Строка 18: Строка 56:
 
| 19.01.2016 || Библиотеки для анализа данных || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/vqavusi6a00frae/sem.02.ipynb IPython-notebook с семинара]  
 
| 19.01.2016 || Библиотеки для анализа данных || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/vqavusi6a00frae/sem.02.ipynb IPython-notebook с семинара]  
 
[https://www.dropbox.com/s/vqavusi6a00frae/sem.02.ipynb?dl=0 Данные]
 
[https://www.dropbox.com/s/vqavusi6a00frae/sem.02.ipynb?dl=0 Данные]
 +
|-
 +
| 26.01.2016 || Продолжение библиотек для анализа данных. Немного о визуализации || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/4m0kpron4ggkocl/sem.03.ipynb IPython-notebook с семинара]
 +
[https://www.dropbox.com/s/t3ailhestd237wl/titanic.csv?dl=0 Данные]
 +
|-
 +
| 02.02.2016 || Линейная алгебра || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/sqmuo4v1fflpd7w/sem.04.ipynb IPython-notebook с семинара]
 +
[https://www.dropbox.com/s/yaejuczaxwgg1yh/german.data.txt?dl=0 Данные]
 +
|-
 +
| 09.02.2016 || Градиентный спуск || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/h7n1ikgy43yc1nv/sem.05.ipynb IPython-notebook с семинара]
 +
|-
 +
| 24.02.2016 || Консультация || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/ddb9jj94xo8nzzz/Tutorial_grad_desc.ipynb IPython-notebook] 
 +
|-
 +
| 01.03.2016 || Теория вероятности. Наивный байесовский классификатор || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/kco8rjexjvhss7o/sem.06.good.ipynb IPython-notebook с семинара]
 +
[https://www.dropbox.com/s/2y3ai06fbd26huc/sms_data.txt?dl=0 Данные]
 +
|-
 +
| 15.03.2016 || Визуализация. Библиотека sklearn || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/xnbzsw2hfhp7t8t/sem.07.ipynb IPython-notebook с семинара]
 +
|-
 +
| 22.03.2016 || Линейная классификация || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/y98yu75nmxegvya/sem.08.ipynb IPython-notebook с семинара]
 +
[https://www.dropbox.com/s/7ivm4729aqsolfb/spambase.data.txt?dl=0 Данные]
 +
|-
 +
| 05.04.2016 || Метрики классификации. Многоклассовая классификация. Полиномиальная регрессия || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/p2gilk0cbqdic4m/sem.09.ipynb IPython-notebook с семинара]
 +
[https://www.dropbox.com/s/8t7uf1vkyddamoe/data.csv?dl=0 Данные]
 +
|-
 +
| 19.04.2016 || Восстановление нелинейных зависимостей с помощью линейных моделей. Решающие деревья. || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/v1cwv2twntcw6tg/sem.10.ipynb IPython-notebook с семинара]
 +
[https://www.dropbox.com/s/esvikqtio2nch92/transfusion.data.txt?dl=0 Данные]
 +
|-
 +
| 26.04.2016 || Решающие деревья и случайные леса || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/913nr32hnwewu9u/sem.11.ipynb IPython-notebook с семинара]
 +
|-
 +
| 10.05.2016 || Решение задач || [https://www.dropbox.com/s/en6ju1i43eu94bp/sem.12.problems.pdf?dl=0 Задачи с семинара]
 +
|-
 +
| 17.05.2016 || Проверочная работа. Отбор признаков || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/dcwa3i58t3z8gw3/sem.13.ipynb IPython-notebook с семинара]
 +
[https://www.dropbox.com/s/zxyf7u7c0q9m8hq/titanic.csv?dl=0 Данные]
 +
|-
 +
| 24.05.2016 || Понижение размерности данных. Кластеризация || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/tacqyjza69d7rbq/sem.14.ipynb IPython-notebook с семинара]
 +
|-
 +
| 31.05.2016 || Метод ближайших соседей || [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/3axqieoy4j1d2h9/sem.15.ipynb IPython-notebook с семинара]
 +
|-
 +
| 07.06.2016 || Повторение материала ||
 
|}
 
|}
  
Строка 29: Строка 104:
 
Каждое ДЗ выдается на две (полных) недели. Дедлайн строгий, после него задание сдать нельзя.
 
Каждое ДЗ выдается на две (полных) недели. Дедлайн строгий, после него задание сдать нельзя.
  
Плагиат будет строго наказываться: вся компонента - и те, кто списал, и те, у кого списали - получает не более 0 баллов за задание. Цените свое время.
+
Плагиат будет строго наказываться: вся компонента и те, кто списал, и те, у кого списали получает не более 0 баллов за задание. Цените свое время.
  
 
== Оформление темы письма ==
 
== Оформление темы письма ==
Строка 42: Строка 117:
  
 
=== Установка на домашнем компьютере ===
 
=== Установка на домашнем компьютере ===
Самый простой способ — установить дистрибутив [https://www.continuum.io/downloads Anaconda], который содержит все необходимые библиотеки и доступен для всех платформ.
+
1. Самый простой способ — установить дистрибутив [https://www.continuum.io/downloads Anaconda], который содержит все необходимые библиотеки и доступен для всех платформ.
 +
2. Откройте командную строку:
 +
* комбинация клавиш Win+R в операционной системе Windows, в открывшемся окне набрать "cmd" (без кавычек) и нажать Enter)
 +
* Ctrl+Space в MacOs, набрать "terminal" и нажать Enter
 +
3. В окне командной строки наберите "conda install jupyter" (без кавычек)
 +
 
 +
Для запуска ipython notebook повторите шаг 2 инструкции выше, а затем в окне командной строки наберите "ipython notebook" (без кавычек)
 +
 
 +
Откройте браузер (если он у вас не открылся в течении пары секунд сам) и в адресную строку введите localhost:8888
 +
Вы увидите папки директории, из которой был запущен ipython. Чтобы создать ноутбук или открыть существующий перейдите в директорию где будете работать (просто нажимая на папки). Далее либо вам нужно открыть файл с расширением ipynb, либо создать новый: справа нажать на New и выбрать вариант Python (2 или 3 в зависимости от версии).
 +
 
 +
Чтобы исполнить ячейку необходимо выделить ее мышью и либо сверху нажать на стрелочку (Run), либо Ctrl+Enter.
 +
 
 +
Чтобы выключить питон, откройте консоль в которой запущен ipython notebook и нажмите Ctrl+C пару раз.
  
 
Если у вас что-то не получилось установить — пишите на почту курса (с правильной темой письма и подробным описанием ошибки и на какой платформе все происходит). Тем временем можно воспользоваться виртуальной машиной.
 
Если у вас что-то не получилось установить — пишите на почту курса (с правильной темой письма и подробным описанием ошибки и на какой платформе все происходит). Тем временем можно воспользоваться виртуальной машиной.

Текущая версия на 21:09, 5 июня 2016

Общая информация

Семинарист — Козлова Анна.

Таблица с оценками

Здесь можно оставить анонимный отзыв по курсу

Почта курса: hse.minor.dm@gmail.com (обратите внимание на оформление темы письма)

Для быстрой связи с семинаристом и ассистентом: слак (чтобы добавиться, пришлите свою почту и мы вышлем приглашения. Большая просьба регистрироваться на канале с понятными никами (должен содержать фамилию).

Домашние задания

Дата выдачи Дата сдачи Задание
Лабораторная работа 1 26.01.2016 09.02.2016 09:00MSK Условие
Лабораторная работа 2 09.02.2016 01.03.2016 09:00MSK Условие

wines_quality.csv

Лабораторная работа 3 08.03.2016 29.03.2016 09:00MSK Условие

data.train.csv

data.test.csv

Проект 08.03.2016 05.04.2016 09:00MSK Условие

student-mat.csv

student-por.csv

Вопросы для подготовки к проверочной 20.03.2016 Вопросы
Лабораторная работа 4 20.04.2016 10.05.2016 09:00MSK Условие

bikes_rent.csv

Лабораторная работа 5 31.05.2016 15.06.2016 09:00MSK Условие

heart.dat.txt

Проект (продолжение) 31.05.2016 19.06.2016 09:00MSK Условие

student-mat.csv

student-por.csv

Семинары

Дата Тема Материалы семинара
12.01.2016 Вводный семинар
19.01.2016 Библиотеки для анализа данных IPython-notebook с семинара

Данные

26.01.2016 Продолжение библиотек для анализа данных. Немного о визуализации IPython-notebook с семинара

Данные

02.02.2016 Линейная алгебра IPython-notebook с семинара

Данные

09.02.2016 Градиентный спуск IPython-notebook с семинара
24.02.2016 Консультация IPython-notebook
01.03.2016 Теория вероятности. Наивный байесовский классификатор IPython-notebook с семинара

Данные

15.03.2016 Визуализация. Библиотека sklearn IPython-notebook с семинара
22.03.2016 Линейная классификация IPython-notebook с семинара

Данные

05.04.2016 Метрики классификации. Многоклассовая классификация. Полиномиальная регрессия IPython-notebook с семинара

Данные

19.04.2016 Восстановление нелинейных зависимостей с помощью линейных моделей. Решающие деревья. IPython-notebook с семинара

Данные

26.04.2016 Решающие деревья и случайные леса IPython-notebook с семинара
10.05.2016 Решение задач Задачи с семинара
17.05.2016 Проверочная работа. Отбор признаков IPython-notebook с семинара

Данные

24.05.2016 Понижение размерности данных. Кластеризация IPython-notebook с семинара
31.05.2016 Метод ближайших соседей IPython-notebook с семинара
07.06.2016 Повторение материала

Правила игры

Информация о домашних заданиях появится позже.

Иногда на семинарах будут проводиться проверочные работы. Об этом будет объявляться заранее. Также каждый студент делает проект в течение двух модулей (решение какой-то задачи анализа данных, информация будет объявлена позже).

Про домашние задания

Каждое ДЗ выдается на две (полных) недели. Дедлайн строгий, после него задание сдать нельзя.

Плагиат будет строго наказываться: вся компонента — и те, кто списал, и те, у кого списали — получает не более 0 баллов за задание. Цените свое время.

Оформление темы письма

При написании письма необходимо указывать тему, как описано ниже (почта, на которую вы отправляете вопросы и работы, является почтой всего майнора, поэтому указывая тему письма правильно вы повышаете шансы дождаться ответа). Далее NN - номер вашей группы. X - номер лабораторной работы.

  • Для вопросов: [ИАД-NN] - Вопрос - Фамилия Имя Отчество
  • Для домашних лабораторных работ: [ИАД-NN] - Лабораторная работа X - Фамилия Имя Отчество

Установка python и необходимых библиотек

Виртуальная машина

Для работы на семинарах а также для небольших лабораторных работ можно воспользоваться онлайн-сервисом, на котором установлены уже все необходимые библиотеки. Для получения адреса и пароля необходимо написать на почту курса (тема письма: [ИАД-NN] - Виртуальная машина - Фамилия Имя Отчество). Обратите внимание, что этот сервис поднят только для нужд семинаров и заданий, поэтому запрещается использовать его для личного пользования.

Установка на домашнем компьютере

1. Самый простой способ — установить дистрибутив Anaconda, который содержит все необходимые библиотеки и доступен для всех платформ. 2. Откройте командную строку:

  • комбинация клавиш Win+R в операционной системе Windows, в открывшемся окне набрать "cmd" (без кавычек) и нажать Enter)
  • Ctrl+Space в MacOs, набрать "terminal" и нажать Enter

3. В окне командной строки наберите "conda install jupyter" (без кавычек)

Для запуска ipython notebook повторите шаг 2 инструкции выше, а затем в окне командной строки наберите "ipython notebook" (без кавычек)

Откройте браузер (если он у вас не открылся в течении пары секунд сам) и в адресную строку введите localhost:8888 Вы увидите папки директории, из которой был запущен ipython. Чтобы создать ноутбук или открыть существующий перейдите в директорию где будете работать (просто нажимая на папки). Далее либо вам нужно открыть файл с расширением ipynb, либо создать новый: справа нажать на New и выбрать вариант Python (2 или 3 в зависимости от версии).

Чтобы исполнить ячейку необходимо выделить ее мышью и либо сверху нажать на стрелочку (Run), либо Ctrl+Enter.

Чтобы выключить питон, откройте консоль в которой запущен ipython notebook и нажмите Ctrl+C пару раз.

Если у вас что-то не получилось установить — пишите на почту курса (с правильной темой письма и подробным описанием ошибки и на какой платформе все происходит). Тем временем можно воспользоваться виртуальной машиной.

Дополнительные материалы

  • Видеозаписи курса лекций К. В. Воронцова в ШАДе
  • Лекции Andrew Ng на coursera.org: начинается 25 января, но практические задания на языке MATLAB/Octave
  • Вводный курс К. В. Воронцова на coursera.org: на русском языке, начинается 26 января, практические задания на языке Python
  • dataquest.io: сайт с интерактивными заданиями по Python для анализа данных