Майнор Интеллектуальный анализ данных/Введение в анализ данных/ИАД-19 — различия между версиями
(Added contact info) |
A.kvasov (обсуждение | вклад) |
||
(не показано 13 промежуточных версии 2 участников) | |||
Строка 1: | Строка 1: | ||
− | {| | + | {{notice | 0=Выложено домашнее задание №3. Срок сдачи - 9 июня в 23:59 |
− | + | Выложена [https://drive.google.com/open?id=0B1IOQiIIAb5nVC1hQWpWcUVWYTQ информация] о проекте. Срок сдачи - 15 июня в 23:59 | |
− | + | }} | |
− | + | ||
− | + | ||
==Организационная информация== | ==Организационная информация== | ||
Строка 10: | Строка 8: | ||
Чтобы задать вопрос по курсу/отправить домашнее задание следует написать письмо на hse.minor.dm@gmail.com | Чтобы задать вопрос по курсу/отправить домашнее задание следует написать письмо на hse.minor.dm@gmail.com | ||
− | Тема письма | + | Тема письма обязательно должна соответствовать формату: [ИАД-19], Фамилия Имя, Ваш текст |
==Домашние задания== | ==Домашние задания== | ||
Строка 19: | Строка 17: | ||
Материалы по установке Jupyter на свой компьютер можно найти на [https://github.com/cheerupdude/ml-course-hse cтраницe курса на github.com] | Материалы по установке Jupyter на свой компьютер можно найти на [https://github.com/cheerupdude/ml-course-hse cтраницe курса на github.com] | ||
+ | |||
+ | ===Задание 2.=== | ||
+ | [https://www.dropbox.com/s/dcbbsq1e3kwu2l4/hw2.ipynb?dl=1 Скачать файл] Задание на исследование возможностей линейной регрессии с помощи библиотеки scikit-learn | ||
+ | |||
+ | Сроки: 02.03.16 - 11.03.16 23:59 | ||
+ | |||
+ | ===Задание 3.=== | ||
+ | [https://shad.people.yandex.net/notebooks/19/0_Seminar%20Notebook(00MeineWassermelone)/Sem13_clustering%26text_feature/K-means%20for%20text%20clustering.ipynb# Скачать файл] Задание на исследование кластеризации текстовых данных с помощью k-means. Задание, выложено на виртуальной машине, **обязательно** скачайте файл к себе в папку или на собственный компьютер. | ||
+ | |||
+ | Сроки: 30.05.16 - 09.06.16 | ||
+ | |||
+ | ==Проект== | ||
+ | ===Часть 1. (модуль 3)=== | ||
+ | |||
+ | [https://www.dropbox.com/s/w21779wxjjxspf0/project.ipynb?dl=1 Скачать файл] | ||
+ | |||
+ | Для выполнения проекта требуется скачать данные согласно [https://drive.google.com/open?id=1UUlgsu5TD-_YUNVtGkhrFr1zaQSHiQ8JfZ7VfbzYKAg варианту]. | ||
+ | *[https://www.dropbox.com/s/k6ns1tb94e3bayn/student-mat.csv?dl=1 student-mat.csv] | ||
+ | *[https://www.dropbox.com/s/np709twg10rng4n/student-por.csv?dl=1 student-por.csv] | ||
+ | Для тех, кто хочет поработать с другими данными: | ||
+ | |||
+ | Описание данных: TODO, [https://www.kaggle.com/c/whats-cooking kaggle competition] | ||
+ | *[https://www.dropbox.com/s/ne4l1l984bk6dwm/train.json?dl=1 what's cooking] | ||
+ | |||
+ | Сроки: до 10.04.16 23:59 | ||
+ | |||
+ | ===Часть 2. (модуль 4)=== | ||
+ | |||
+ | Продолжается работа с данными от первой части проекта. [https://drive.google.com/open?id=0B1IOQiIIAb5nVC1hQWpWcUVWYTQ Задание]. | ||
+ | |||
+ | Сроки: до 15.06.16 23:59 | ||
==Расписание семинаров== | ==Расписание семинаров== | ||
Строка 33: | Строка 62: | ||
|26 января 2016 || align="center"|3 || Python для анализа данных. Numpy. Проверочная работа.|| | |26 января 2016 || align="center"|3 || Python для анализа данных. Numpy. Проверочная работа.|| | ||
[http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/0zy77b188bl2oy1/Numpy_1%28sem3%29.ipynb IPython Notebook "Numpy_1(sem3)"] | [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/0zy77b188bl2oy1/Numpy_1%28sem3%29.ipynb IPython Notebook "Numpy_1(sem3)"] | ||
− | |} | + | |- |
+ | |2 февраля 2016 || align="center"|4 || Python для анализа данных. Numpy часть 2. Matplotlib. Линейная алгебра. Выдача ДЗ №1 (до 16.02.16 до 23:59) || | ||
+ | [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/rpqgd7kof6i7fkg/NumpyScipyMatplotlib_%28sem4%29.ipynb IPython Notebook "NumpyScipyMatplotlib_(sem4)"] | ||
+ | |- | ||
+ | |9 февраля 2016 || align="center"|5 || Метод градиентного спуска в линейных моделях (линейной регрессии).|| | ||
+ | [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/8dhvk2063n49xm8/GD_visualization.ipynb?flush_cache=True Пример работы градиентного спуска] | ||
+ | |- | ||
+ | |1 марта 2016 || align="center"|7 || Линейная регрессия. Scikit-learn.|| | ||
+ | [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/xp9tk3qb171dmos/Regression.ipynb?flush_cache=true IPython Notebook Семинара №7] | ||
+ | |-} | ||
==Ссылки== | ==Ссылки== |
Текущая версия на 21:23, 15 июня 2016
Выложено домашнее задание №3. Срок сдачи - 9 июня в 23:59
Выложена информация о проекте. Срок сдачи - 15 июня в 23:59 |
Содержание
Организационная информация
Семинаристы: Нина Полякова, Андрей Квасов
Чтобы задать вопрос по курсу/отправить домашнее задание следует написать письмо на hse.minor.dm@gmail.com
Тема письма обязательно должна соответствовать формату: [ИАД-19], Фамилия Имя, Ваш текст
Домашние задания
Задание 1.
Скачать файл с домашним заданием без GitHub и танцев с бубном.
Примечание: при выполнении задания запрещается использовать все библиотеки кроме NumPy, Pandas, Matplotlib
Материалы по установке Jupyter на свой компьютер можно найти на cтраницe курса на github.com
Задание 2.
Скачать файл Задание на исследование возможностей линейной регрессии с помощи библиотеки scikit-learn
Сроки: 02.03.16 - 11.03.16 23:59
Задание 3.
Скачать файл Задание на исследование кластеризации текстовых данных с помощью k-means. Задание, выложено на виртуальной машине, **обязательно** скачайте файл к себе в папку или на собственный компьютер.
Сроки: 30.05.16 - 09.06.16
Проект
Часть 1. (модуль 3)
Для выполнения проекта требуется скачать данные согласно варианту.
Для тех, кто хочет поработать с другими данными:
Описание данных: TODO, kaggle competition
Сроки: до 10.04.16 23:59
Часть 2. (модуль 4)
Продолжается работа с данными от первой части проекта. Задание.
Сроки: до 15.06.16 23:59
Расписание семинаров
Дата | № занятия | Занятие | Материалы |
---|---|---|---|
12 января 2016 | 1 | Вводный семинар. Обсуждение основных понятий анализа данных. | |
19 января 2016 | 2 | Python для анализа данных. Pandas. |
IPython Notebook "Pandas_(sem2)" |
26 января 2016 | 3 | Python для анализа данных. Numpy. Проверочная работа. |
IPython Notebook "Numpy_1(sem3)" |
2 февраля 2016 | 4 | Python для анализа данных. Numpy часть 2. Matplotlib. Линейная алгебра. Выдача ДЗ №1 (до 16.02.16 до 23:59) |
IPython Notebook "NumpyScipyMatplotlib_(sem4)" |
9 февраля 2016 | 5 | Метод градиентного спуска в линейных моделях (линейной регрессии). |
Пример работы градиентного спуска |
1 марта 2016 | 7 | Линейная регрессия. Scikit-learn. |
IPython Notebook Семинара №7 |