Извлечение и анализ интернет-данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(Семинары)
 
(не показано 10 промежуточных версии 2 участников)
Строка 1: Строка 1:
 
== О курсе ==
 
== О курсе ==
 +
Курс читается для студентов факультета экономических наук, ОП "Экономика и статистика"
  
[[Файл:ML_surfaces.png|280px|borderless|left]]
 
 
Курс читается для студентов Экономического факультета.
 
 
Проводится с 2017 года.
 
Проводится с 2017 года.
 +
  
 
Семинаристы:
 
Семинаристы:
 +
 
Денике Екатерина Игоревна
 
Денике Екатерина Игоревна
 +
 
Слинько Игорь Юрьевич
 
Слинько Игорь Юрьевич
 +
 
Семинары проходят по субботам, с 10:30 до 15:00 (16:30) с двумя перерывами.
 
Семинары проходят по субботам, с 10:30 до 15:00 (16:30) с двумя перерывами.
  
  
 
=== Полезные ссылки ===
 
=== Полезные ссылки ===
 +
 +
Тест для моральной подготовки: https://goo.gl/forms/QuRhepssXRjl71yG3
  
 
Почта для сдачи домашних заданий: hsewebmining@gmail.com
 
Почта для сдачи домашних заданий: hsewebmining@gmail.com
  
 
Чат в telegram для обсуждений: https://t.me/joinchat/BgyOMg6PNBYFpmHUtbZDTg
 
Чат в telegram для обсуждений: https://t.me/joinchat/BgyOMg6PNBYFpmHUtbZDTg
 
Оставить отзыв на курс: [https://goo.gl/forms/5CddG0gc75VZvqi52 форма]
 
 
'''Вопросы''' по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу.
 
Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде [https://github.com/esokolov/ml-course-hse/issues Issue] в [https://github.com/esokolov/ml-course-hse github-репозитории курса].
 
  
 
=== Правила выставления оценок ===
 
=== Правила выставления оценок ===
Строка 27: Строка 26:
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
 
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
  
O<sub>итоговая</sub> = 0.7 * O<sub>накопленная</sub> + 0.3 * О<sub>экз</sub>
+
О_итог = 0,6 * О_накопл.+ 0,4 * О_экзамен
  
Оценка за работу в семестре вычисляется по формуле
+
Накопленная оценка (О_накопл) рассчитывается как среднее значение оценок за все выданные домашние задания. Бонусные баллы могут быть выданы в ходе семинара.
 
+
O<sub>накопленная</sub> = 0.1 * O<sub>самостоятельные</sub> + 0.4 * О<sub>практические дз</sub> + 0.3 * О<sub>теоретические дз</sub> + 0.2 * О<sub>контрольные</sub>
+
 
+
Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям и соревнованиям.
+
  
 
=== Правила сдачи заданий ===
 
=== Правила сдачи заданий ===
Строка 41: Строка 36:
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
 
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
  
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
+
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
  
 
== Семинары ==
 
== Семинары ==
Тема 1. Основы анализа данных в языке Python:
+
'''Тема 1'''. Основы анализа данных в языке Python:
 +
 
 
Повторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com.  
 
Повторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com.  
  
Тема 2. Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данных.  
+
'''Тема 2'''. Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данных.  
 
Введение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных.  
 
Введение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных.  
  
Тема 3. Парсинг открытых данных в различных форматах (xml/json/html)
+
'''Тема 3'''. Парсинг открытых данных в различных форматах (xml/json/html)
 +
 
 
Изучение языков и библиотек для работы с xml/json/html: lxml, XPath, XSLT, Beautiful Soup.  
 
Изучение языков и библиотек для работы с xml/json/html: lxml, XPath, XSLT, Beautiful Soup.  
Тема 4. Основы машинного обучения и практика применения
+
 
 +
'''Тема 4'''. Основы машинного обучения и практика применения
 +
 
 
Приведение текстовых данных к числовым с помощью OneHot- и TF-IDF кодирования, а также на основе представлений слов и текстов. Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети.
 
Приведение текстовых данных к числовым с помощью OneHot- и TF-IDF кодирования, а также на основе представлений слов и текстов. Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети.
Тема 5. Извлечение данных сайта Вконтакте и изучение влияния социальных сетей на поведение в реальной жизни.
+
 
 +
'''Тема 5'''. Извлечение данных сайта Вконтакте и изучение влияния социальных сетей на поведение в реальной жизни.
 +
 
 
Изучаем возможности API сайта Вконтакте. Извлекаем информацию об интересах и демографии пользователей, на основании списка групп и поля “интересы”. Изучаем взаимосвязь интересов школьников с оценками.
 
Изучаем возможности API сайта Вконтакте. Извлекаем информацию об интересах и демографии пользователей, на основании списка групп и поля “интересы”. Изучаем взаимосвязь интересов школьников с оценками.
  
Тема 6. Извлечение и анализ данных Московской биржи
+
'''Тема 6'''. Извлечение и анализ данных Московской биржи
 +
 
 
Анализируем рынок ценных бумаг на данных Московской биржи.
 
Анализируем рынок ценных бумаг на данных Московской биржи.
  
Строка 67: Строка 69:
 
  - [http://www.swaroopch.com/notes/python/ A Byte of Python]
 
  - [http://www.swaroopch.com/notes/python/ A Byte of Python]
 
  - [http://greenteapress.com/thinkpython/html/index.html Think Python: How to Think Like a Computer Scientist]
 
  - [http://greenteapress.com/thinkpython/html/index.html Think Python: How to Think Like a Computer Scientist]
- [Если материал даётся с трудом : ((http://learnpythonthehardway.org/book/ Learn Python the Hard Way]
 
 
  - [https://docs.python.org/3/ Документация языка]
 
  - [https://docs.python.org/3/ Документация языка]
 
  - [https://speakerdeck.com/pyconslides/transforming-code-into-beautiful-idiomatic-python-by-raymond-hettinger-1 Writing Idiomatic Python]
 
  - [https://speakerdeck.com/pyconslides/transforming-code-into-beautiful-idiomatic-python-by-raymond-hettinger-1 Writing Idiomatic Python]
 
  - [https://pyformat.info/ о строковом методе format доступным языком]
 
  - [https://pyformat.info/ о строковом методе format доступным языком]
 
  - [https://developers.google.com/edu/python/regular-expressions про регулярки от Гугла]
 
  - [https://developers.google.com/edu/python/regular-expressions про регулярки от Гугла]

Текущая версия на 20:40, 19 сентября 2017

О курсе

Курс читается для студентов факультета экономических наук, ОП "Экономика и статистика"

Проводится с 2017 года.


Семинаристы:

Денике Екатерина Игоревна

Слинько Игорь Юрьевич

Семинары проходят по субботам, с 10:30 до 15:00 (16:30) с двумя перерывами.


Полезные ссылки

Тест для моральной подготовки: https://goo.gl/forms/QuRhepssXRjl71yG3

Почта для сдачи домашних заданий: hsewebmining@gmail.com

Чат в telegram для обсуждений: https://t.me/joinchat/BgyOMg6PNBYFpmHUtbZDTg

Правила выставления оценок

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

О_итог = 0,6 * О_накопл.+ 0,4 * О_экзамен

Накопленная оценка (О_накопл) рассчитывается как среднее значение оценок за все выданные домашние задания. Бонусные баллы могут быть выданы в ходе семинара.

Правила сдачи заданий

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работа не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Семинары

Тема 1. Основы анализа данных в языке Python:

Повторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com.

Тема 2. Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данных. Введение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных.

Тема 3. Парсинг открытых данных в различных форматах (xml/json/html)

Изучение языков и библиотек для работы с xml/json/html: lxml, XPath, XSLT, Beautiful Soup.

Тема 4. Основы машинного обучения и практика применения

Приведение текстовых данных к числовым с помощью OneHot- и TF-IDF кодирования, а также на основе представлений слов и текстов. Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети.

Тема 5. Извлечение данных сайта Вконтакте и изучение влияния социальных сетей на поведение в реальной жизни.

Изучаем возможности API сайта Вконтакте. Извлекаем информацию об интересах и демографии пользователей, на основании списка групп и поля “интересы”. Изучаем взаимосвязь интересов школьников с оценками.

Тема 6. Извлечение и анализ данных Московской биржи

Анализируем рынок ценных бумаг на данных Московской биржи.

Практические задания

Полезные материалы

- A Byte of Python
- Think Python: How to Think Like a Computer Scientist
- Документация языка
- Writing Idiomatic Python
- о строковом методе format доступным языком
- про регулярки от Гугла