Извлечение и анализ интернет-данных — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
(О курсе)
(О курсе)
Строка 1: Строка 1:
 
== О курсе ==
 
== О курсе ==
Курс читается для студентов экономического факультета.
+
Курс читается для студентов факультета экономических наук, ОП "Экономика и статистика"
 
Проводится с 2017 года.
 
Проводится с 2017 года.
  

Версия 20:33, 19 сентября 2017

О курсе

Курс читается для студентов факультета экономических наук, ОП "Экономика и статистика" Проводится с 2017 года.

Семинаристы:

Денике Екатерина Игоревна

Слинько Игорь Юрьевич

Семинары проходят по субботам, с 10:30 до 15:00 (16:30) с двумя перерывами.


Полезные ссылки

Почта для сдачи домашних заданий: hsewebmining@gmail.com

Чат в telegram для обсуждений: https://t.me/joinchat/BgyOMg6PNBYFpmHUtbZDTg

Оставить отзыв на курс: форма

Вопросы по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде Issue в github-репозитории курса.

Правила выставления оценок

Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:

О_итог = 0,6 * О_накопл.+ 0,4 * О_экзамен

Накопленная оценка (О_накопл) рассчитывается как среднее значение оценок за все выданные домашние задания. Бонусные баллы могут быть выданы в ходе семинара.

Правила сдачи заданий

Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работа не принимаются.

При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.

При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.

Семинары

Тема 1. Основы анализа данных в языке Python: Повторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com.

Тема 2. Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данных. Введение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных.

Тема 3. Парсинг открытых данных в различных форматах (xml/json/html) Изучение языков и библиотек для работы с xml/json/html: lxml, XPath, XSLT, Beautiful Soup. Тема 4. Основы машинного обучения и практика применения Приведение текстовых данных к числовым с помощью OneHot- и TF-IDF кодирования, а также на основе представлений слов и текстов. Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети. Тема 5. Извлечение данных сайта Вконтакте и изучение влияния социальных сетей на поведение в реальной жизни. Изучаем возможности API сайта Вконтакте. Извлекаем информацию об интересах и демографии пользователей, на основании списка групп и поля “интересы”. Изучаем взаимосвязь интересов школьников с оценками.

Тема 6. Извлечение и анализ данных Московской биржи Анализируем рынок ценных бумаг на данных Московской биржи.

Практические задания

Полезные материалы

- A Byte of Python
- Think Python: How to Think Like a Computer Scientist
- Документация языка
- Writing Idiomatic Python
- о строковом методе format доступным языком
- про регулярки от Гугла