Извлечение и анализ интернет-данных — различия между версиями
(→О курсе) |
(→Семинары) |
||
(не показано 5 промежуточных версии 2 участников) | |||
Строка 1: | Строка 1: | ||
== О курсе == | == О курсе == | ||
− | Курс читается для студентов | + | Курс читается для студентов факультета экономических наук, ОП "Экономика и статистика" |
+ | |||
Проводится с 2017 года. | Проводится с 2017 года. | ||
+ | |||
Семинаристы: | Семинаристы: | ||
+ | |||
Денике Екатерина Игоревна | Денике Екатерина Игоревна | ||
+ | |||
Слинько Игорь Юрьевич | Слинько Игорь Юрьевич | ||
+ | |||
Семинары проходят по субботам, с 10:30 до 15:00 (16:30) с двумя перерывами. | Семинары проходят по субботам, с 10:30 до 15:00 (16:30) с двумя перерывами. | ||
=== Полезные ссылки === | === Полезные ссылки === | ||
+ | |||
+ | Тест для моральной подготовки: https://goo.gl/forms/QuRhepssXRjl71yG3 | ||
Почта для сдачи домашних заданий: hsewebmining@gmail.com | Почта для сдачи домашних заданий: hsewebmining@gmail.com | ||
Чат в telegram для обсуждений: https://t.me/joinchat/BgyOMg6PNBYFpmHUtbZDTg | Чат в telegram для обсуждений: https://t.me/joinchat/BgyOMg6PNBYFpmHUtbZDTg | ||
− | |||
− | |||
− | |||
− | |||
− | |||
=== Правила выставления оценок === | === Правила выставления оценок === | ||
Строка 37: | Строка 39: | ||
== Семинары == | == Семинары == | ||
− | Тема 1. Основы анализа данных в языке Python: | + | '''Тема 1'''. Основы анализа данных в языке Python: |
+ | |||
Повторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com. | Повторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com. | ||
− | Тема 2. Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данных. | + | '''Тема 2'''. Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данных. |
Введение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных. | Введение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных. | ||
− | Тема 3. Парсинг открытых данных в различных форматах (xml/json/html) | + | '''Тема 3'''. Парсинг открытых данных в различных форматах (xml/json/html) |
+ | |||
Изучение языков и библиотек для работы с xml/json/html: lxml, XPath, XSLT, Beautiful Soup. | Изучение языков и библиотек для работы с xml/json/html: lxml, XPath, XSLT, Beautiful Soup. | ||
− | Тема 4. Основы машинного обучения и практика применения | + | |
+ | '''Тема 4'''. Основы машинного обучения и практика применения | ||
+ | |||
Приведение текстовых данных к числовым с помощью OneHot- и TF-IDF кодирования, а также на основе представлений слов и текстов. Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети. | Приведение текстовых данных к числовым с помощью OneHot- и TF-IDF кодирования, а также на основе представлений слов и текстов. Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети. | ||
− | Тема 5. Извлечение данных сайта Вконтакте и изучение влияния социальных сетей на поведение в реальной жизни. | + | |
+ | '''Тема 5'''. Извлечение данных сайта Вконтакте и изучение влияния социальных сетей на поведение в реальной жизни. | ||
+ | |||
Изучаем возможности API сайта Вконтакте. Извлекаем информацию об интересах и демографии пользователей, на основании списка групп и поля “интересы”. Изучаем взаимосвязь интересов школьников с оценками. | Изучаем возможности API сайта Вконтакте. Извлекаем информацию об интересах и демографии пользователей, на основании списка групп и поля “интересы”. Изучаем взаимосвязь интересов школьников с оценками. | ||
− | Тема 6. Извлечение и анализ данных Московской биржи | + | '''Тема 6'''. Извлечение и анализ данных Московской биржи |
+ | |||
Анализируем рынок ценных бумаг на данных Московской биржи. | Анализируем рынок ценных бумаг на данных Московской биржи. | ||
Текущая версия на 20:40, 19 сентября 2017
Содержание
О курсе
Курс читается для студентов факультета экономических наук, ОП "Экономика и статистика"
Проводится с 2017 года.
Семинаристы:
Денике Екатерина Игоревна
Слинько Игорь Юрьевич
Семинары проходят по субботам, с 10:30 до 15:00 (16:30) с двумя перерывами.
Полезные ссылки
Тест для моральной подготовки: https://goo.gl/forms/QuRhepssXRjl71yG3
Почта для сдачи домашних заданий: hsewebmining@gmail.com
Чат в telegram для обсуждений: https://t.me/joinchat/BgyOMg6PNBYFpmHUtbZDTg
Правила выставления оценок
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
О_итог = 0,6 * О_накопл.+ 0,4 * О_экзамен
Накопленная оценка (О_накопл) рассчитывается как среднее значение оценок за все выданные домашние задания. Бонусные баллы могут быть выданы в ходе семинара.
Правила сдачи заданий
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работа не принимаются.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Семинары
Тема 1. Основы анализа данных в языке Python:
Повторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com.
Тема 2. Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данных. Введение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных.
Тема 3. Парсинг открытых данных в различных форматах (xml/json/html)
Изучение языков и библиотек для работы с xml/json/html: lxml, XPath, XSLT, Beautiful Soup.
Тема 4. Основы машинного обучения и практика применения
Приведение текстовых данных к числовым с помощью OneHot- и TF-IDF кодирования, а также на основе представлений слов и текстов. Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети.
Тема 5. Извлечение данных сайта Вконтакте и изучение влияния социальных сетей на поведение в реальной жизни.
Изучаем возможности API сайта Вконтакте. Извлекаем информацию об интересах и демографии пользователей, на основании списка групп и поля “интересы”. Изучаем взаимосвязь интересов школьников с оценками.
Тема 6. Извлечение и анализ данных Московской биржи
Анализируем рынок ценных бумаг на данных Московской биржи.
Практические задания
Полезные материалы
- A Byte of Python - Think Python: How to Think Like a Computer Scientist - Документация языка - Writing Idiomatic Python - о строковом методе format доступным языком - про регулярки от Гугла