Извлечение и анализ интернет-данных — различия между версиями
м |
|||
Строка 22: | Строка 22: | ||
'''Вопросы''' по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. | '''Вопросы''' по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. | ||
Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде [https://github.com/esokolov/ml-course-hse/issues Issue] в [https://github.com/esokolov/ml-course-hse github-репозитории курса]. | Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде [https://github.com/esokolov/ml-course-hse/issues Issue] в [https://github.com/esokolov/ml-course-hse github-репозитории курса]. | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
=== Правила выставления оценок === | === Правила выставления оценок === | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен: | Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен: | ||
Строка 73: | Строка 42: | ||
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис. | При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис. | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
== Семинары == | == Семинары == | ||
+ | Тема 1. Основы анализа данных в языке Python: | ||
+ | Повторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com. | ||
− | + | Тема 2. Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данных. | |
+ | Введение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных. | ||
− | + | Тема 3. Парсинг открытых данных в различных форматах (xml/json/html) | |
− | + | Изучение языков и библиотек для работы с xml/json/html: lxml, XPath, XSLT, Beautiful Soup. | |
− | + | Тема 4. Основы машинного обучения и практика применения | |
+ | Приведение текстовых данных к числовым с помощью OneHot- и TF-IDF кодирования, а также на основе представлений слов и текстов. Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети. | ||
+ | Тема 5. Извлечение данных сайта Вконтакте и изучение влияния социальных сетей на поведение в реальной жизни. | ||
+ | Изучаем возможности API сайта Вконтакте. Извлекаем информацию об интересах и демографии пользователей, на основании списка групп и поля “интересы”. Изучаем взаимосвязь интересов школьников с оценками. | ||
+ | Тема 6. Извлечение и анализ данных Московской биржи | ||
+ | Анализируем рынок ценных бумаг на данных Московской биржи. | ||
== Практические задания == | == Практические задания == | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
== Полезные материалы == | == Полезные материалы == | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | [[ | + | - [http://www.swaroopch.com/notes/python/ A Byte of Python] |
+ | - [http://greenteapress.com/thinkpython/html/index.html Think Python: How to Think Like a Computer Scientist] | ||
+ | - [Если материал даётся с трудом : ((http://learnpythonthehardway.org/book/ Learn Python the Hard Way] | ||
+ | - [https://docs.python.org/3/ Документация языка] | ||
+ | - [https://speakerdeck.com/pyconslides/transforming-code-into-beautiful-idiomatic-python-by-raymond-hettinger-1 Writing Idiomatic Python] | ||
+ | - [https://pyformat.info/ о строковом методе format доступным языком] | ||
+ | - [https://developers.google.com/edu/python/regular-expressions про регулярки от Гугла] |
Версия 20:22, 19 сентября 2017
Содержание
О курсе
Курс читается для студентов Экономического факультета. Проводится с 2017 года.
Семинаристы: Денике Екатерина Игоревна Слинько Игорь Юрьевич Семинары проходят по субботам, с 10:30 до 15:00 (16:30) с двумя перерывами.
Полезные ссылки
Почта для сдачи домашних заданий: hsewebmining@gmail.com
Чат в telegram для обсуждений: https://t.me/joinchat/BgyOMg6PNBYFpmHUtbZDTg
Оставить отзыв на курс: форма
Вопросы по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде Issue в github-репозитории курса.
Правила выставления оценок
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Oитоговая = 0.7 * Oнакопленная + 0.3 * Оэкз
Оценка за работу в семестре вычисляется по формуле
Oнакопленная = 0.1 * Oсамостоятельные + 0.4 * Опрактические дз + 0.3 * Отеоретические дз + 0.2 * Оконтрольные
Оценка за самостоятельную работу вычисляется как среднее по всем самостоятельным, оценка за домашнюю работу — как среднее по всем практическим заданиям и соревнованиям.
Правила сдачи заданий
Дедлайны по всем домашним заданиям являются жёсткими, то есть после срока работа не принимаются.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён (при этом получить дополнительные баллы за призовые места на конкурсе можно только при участии в общий срок). Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Семинары
Тема 1. Основы анализа данных в языке Python: Повторение основных функций и объектов языка Python. Обзор библиотек numpy, pandas на основе данных из соревнований платформы kaggle.com.
Тема 2. Визуализация данных в python: библиотеки matplotlib, seaborn, plotly. Продвинутые инструменты для анализа данных. Введение в визуальный анализ данных. Построение графиков, гистограмм, тепловых карт. Знакомство с порталом Открытых данных.
Тема 3. Парсинг открытых данных в различных форматах (xml/json/html) Изучение языков и библиотек для работы с xml/json/html: lxml, XPath, XSLT, Beautiful Soup. Тема 4. Основы машинного обучения и практика применения Приведение текстовых данных к числовым с помощью OneHot- и TF-IDF кодирования, а также на основе представлений слов и текстов. Алгоритмы машинного обучения: линейная и логистическая регрессии, градиентный бустинг и нейронные сети. Тема 5. Извлечение данных сайта Вконтакте и изучение влияния социальных сетей на поведение в реальной жизни. Изучаем возможности API сайта Вконтакте. Извлекаем информацию об интересах и демографии пользователей, на основании списка групп и поля “интересы”. Изучаем взаимосвязь интересов школьников с оценками.
Тема 6. Извлечение и анализ данных Московской биржи Анализируем рынок ценных бумаг на данных Московской биржи.
Практические задания
Полезные материалы
- A Byte of Python - Think Python: How to Think Like a Computer Scientist - [Если материал даётся с трудом : ((http://learnpythonthehardway.org/book/ Learn Python the Hard Way] - Документация языка - Writing Idiomatic Python - о строковом методе format доступным языком - про регулярки от Гугла