Майнор Интеллектуальный анализ данных/Введение в анализ данных/ИАД-19 — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
 
(не показано 19 промежуточных версии 2 участников)
Строка 1: Строка 1:
 +
{{notice | 0=Выложено домашнее задание №3. Срок сдачи - 9 июня в 23:59
 +
Выложена [https://drive.google.com/open?id=0B1IOQiIIAb5nVC1hQWpWcUVWYTQ информация] о проекте. Срок сдачи - 15 июня в 23:59
 +
}}
 +
 +
==Организационная информация==
 
Семинаристы: Нина Полякова, Андрей Квасов
 
Семинаристы: Нина Полякова, Андрей Квасов
  
===Расписание семинаров===
+
Чтобы задать вопрос по курсу/отправить домашнее задание следует написать письмо на hse.minor.dm@gmail.com
 +
 
 +
Тема письма обязательно должна соответствовать формату: [ИАД-19], Фамилия Имя, Ваш текст
 +
 
 +
==Домашние задания==
 +
===Задание 1.===
 +
[https://www.dropbox.com/s/sgth59w7vjcr3j7/Homework_01.ipynb?dl=1 Скачать файл] с домашним заданием без GitHub и танцев с бубном.
 +
 
 +
Примечание: при выполнении задания запрещается использовать все библиотеки кроме NumPy, Pandas, Matplotlib
 +
 
 +
Материалы по установке Jupyter на свой компьютер можно найти на [https://github.com/cheerupdude/ml-course-hse cтраницe курса на github.com]
 +
 
 +
===Задание 2.===
 +
[https://www.dropbox.com/s/dcbbsq1e3kwu2l4/hw2.ipynb?dl=1 Скачать файл] Задание на исследование возможностей линейной регрессии с помощи библиотеки scikit-learn
 +
 
 +
Сроки: 02.03.16 - 11.03.16 23:59
 +
 
 +
===Задание 3.===
 +
[https://shad.people.yandex.net/notebooks/19/0_Seminar%20Notebook(00MeineWassermelone)/Sem13_clustering%26text_feature/K-means%20for%20text%20clustering.ipynb# Скачать файл] Задание на исследование кластеризации текстовых данных с помощью k-means. Задание, выложено на виртуальной машине, **обязательно** скачайте файл к себе в папку или на собственный компьютер.
 +
 
 +
Сроки: 30.05.16 - 09.06.16
 +
 
 +
==Проект==
 +
===Часть 1. (модуль 3)===
 +
 
 +
[https://www.dropbox.com/s/w21779wxjjxspf0/project.ipynb?dl=1 Скачать файл]
 +
 
 +
Для выполнения проекта требуется скачать данные согласно [https://drive.google.com/open?id=1UUlgsu5TD-_YUNVtGkhrFr1zaQSHiQ8JfZ7VfbzYKAg варианту].
 +
*[https://www.dropbox.com/s/k6ns1tb94e3bayn/student-mat.csv?dl=1 student-mat.csv]
 +
*[https://www.dropbox.com/s/np709twg10rng4n/student-por.csv?dl=1 student-por.csv]
 +
Для тех, кто хочет поработать с другими данными:
 +
 
 +
Описание данных: TODO, [https://www.kaggle.com/c/whats-cooking kaggle competition]
 +
*[https://www.dropbox.com/s/ne4l1l984bk6dwm/train.json?dl=1 what's cooking]
 +
 
 +
Сроки: до 10.04.16 23:59
 +
 
 +
===Часть 2. (модуль 4)===
 +
 
 +
Продолжается работа с данными от первой части проекта. [https://drive.google.com/open?id=0B1IOQiIIAb5nVC1hQWpWcUVWYTQ Задание].
 +
 
 +
Сроки: до 15.06.16 23:59
 +
 
 +
==Расписание семинаров==
  
  
Строка 14: Строка 62:
 
  |26 января 2016 || align="center"|3 || Python для анализа данных. Numpy. Проверочная работа.||
 
  |26 января 2016 || align="center"|3 || Python для анализа данных. Numpy. Проверочная работа.||
 
  [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/0zy77b188bl2oy1/Numpy_1%28sem3%29.ipynb IPython Notebook "Numpy_1(sem3)"]
 
  [http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/0zy77b188bl2oy1/Numpy_1%28sem3%29.ipynb IPython Notebook "Numpy_1(sem3)"]
  |}
+
  |-
 +
|2 февраля 2016 || align="center"|4 || Python для анализа данных. Numpy часть 2. Matplotlib. Линейная алгебра.  Выдача ДЗ №1 (до 16.02.16 до 23:59) ||
 +
[http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/rpqgd7kof6i7fkg/NumpyScipyMatplotlib_%28sem4%29.ipynb IPython Notebook "NumpyScipyMatplotlib_(sem4)"]
 +
|-
 +
|9 февраля 2016 || align="center"|5 || Метод градиентного спуска в линейных моделях (линейной регрессии).||
 +
[http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/8dhvk2063n49xm8/GD_visualization.ipynb?flush_cache=True Пример работы градиентного спуска]
 +
|-
 +
|1 марта 2016 || align="center"|7 || Линейная регрессия. Scikit-learn.||
 +
[http://nbviewer.jupyter.org/urls/dl.dropbox.com/s/xp9tk3qb171dmos/Regression.ipynb?flush_cache=true IPython Notebook Семинара №7]
 +
|-}
 +
 
 +
==Ссылки==
 +
[https://docs.google.com/spreadsheets/d/1jZL_-ELf0Ogj2XHa6VVbkg8vrInycv2-Z9UR5keLDfM/edit?ts=569b89ad#gid=2136070140 Оценки за курс]<br />
  
===Ссылки===
 
[https://docs.google.com/spreadsheets/d/1jZL_-ELf0Ogj2XHa6VVbkg8vrInycv2-Z9UR5keLDfM/edit?ts=569b89ad#gid=2136070140 Оценки за курс]
 
 
[https://github.com/cheerupdude/ml-course-hse Страница курса на github.com]
 
[https://github.com/cheerupdude/ml-course-hse Страница курса на github.com]

Текущая версия на 21:23, 15 июня 2016

Announce.png Выложено домашнее задание №3. Срок сдачи - 9 июня в 23:59

Выложена информация о проекте. Срок сдачи - 15 июня в 23:59

Организационная информация

Семинаристы: Нина Полякова, Андрей Квасов

Чтобы задать вопрос по курсу/отправить домашнее задание следует написать письмо на hse.minor.dm@gmail.com

Тема письма обязательно должна соответствовать формату: [ИАД-19], Фамилия Имя, Ваш текст

Домашние задания

Задание 1.

Скачать файл с домашним заданием без GitHub и танцев с бубном.

Примечание: при выполнении задания запрещается использовать все библиотеки кроме NumPy, Pandas, Matplotlib

Материалы по установке Jupyter на свой компьютер можно найти на cтраницe курса на github.com

Задание 2.

Скачать файл Задание на исследование возможностей линейной регрессии с помощи библиотеки scikit-learn

Сроки: 02.03.16 - 11.03.16 23:59

Задание 3.

Скачать файл Задание на исследование кластеризации текстовых данных с помощью k-means. Задание, выложено на виртуальной машине, **обязательно** скачайте файл к себе в папку или на собственный компьютер.

Сроки: 30.05.16 - 09.06.16

Проект

Часть 1. (модуль 3)

Скачать файл

Для выполнения проекта требуется скачать данные согласно варианту.

Для тех, кто хочет поработать с другими данными:

Описание данных: TODO, kaggle competition

Сроки: до 10.04.16 23:59

Часть 2. (модуль 4)

Продолжается работа с данными от первой части проекта. Задание.

Сроки: до 15.06.16 23:59

Расписание семинаров

Ссылки

Оценки за курс

Страница курса на github.com

Дата № занятия Занятие Материалы
12 января 2016 1 Вводный семинар. Обсуждение основных понятий анализа данных.
19 января 2016 2 Python для анализа данных. Pandas.
IPython Notebook "Pandas_(sem2)"
26 января 2016 3 Python для анализа данных. Numpy. Проверочная работа.
IPython Notebook "Numpy_1(sem3)"
2 февраля 2016 4 Python для анализа данных. Numpy часть 2. Matplotlib. Линейная алгебра. Выдача ДЗ №1 (до 16.02.16 до 23:59)
IPython Notebook "NumpyScipyMatplotlib_(sem4)"
9 февраля 2016 5 Метод градиентного спуска в линейных моделях (линейной регрессии).
Пример работы градиентного спуска
1 марта 2016 7 Линейная регрессия. Scikit-learn.
IPython Notebook Семинара №7