Многомерное прогнозирование цен криптовалют с помощью анализа открытых транзакций и Twitter (проект) — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
 
(не показано 5 промежуточных версии 2 участников)
Строка 6: Строка 6:
 
|course=2
 
|course=2
 
|summer=
 
|summer=
|number_of_students=TBA
+
|number_of_students=8
 
|categorize=yes
 
|categorize=yes
 
}}
 
}}
Строка 27: Строка 27:
 
=== Какие начальные требования? ===
 
=== Какие начальные требования? ===
  
Проект подойдёт и новичкам в машинном обучении. Необходимо иметь желание разобраться с Python или R (NB! С помощью R тяжело применять state of the art решения в NLP, но зато намного проще освоить этот язык с нуля, с помощью него интереснее и легче делать интерактивные визуализации, работать с временными рядами и т.д.) Выбор
+
Проект подойдёт и новичкам в машинном обучении. Необходимо иметь желание разобраться с Python или R (NB! С помощью R тяжело применять state of the art решения в NLP, но зато намного проще освоить этот язык с нуля, с помощью него интереснее и легче делать интерактивные визуализации, работать с временными рядами и т.д.) Выбор за Вами.
  
 
=== Какие будут использоваться технологии? ===
 
=== Какие будут использоваться технологии? ===
Строка 45: Строка 45:
 
(NB! Обратите внимание, что из твиттера возможно загрузить только последние две недели твиттов, поэтому необходимо заняться этим пунктом в первую очередь).
 
(NB! Обратите внимание, что из твиттера возможно загрузить только последние две недели твиттов, поэтому необходимо заняться этим пунктом в первую очередь).
  
Модели временных рядов(VARs, (G)ARCH, ARIMA, LSTM, etc Декомпозиция и Фурье/Вейвлет анализ.). Как прикрутить Xgboost :)
+
Модели временных рядов(VARs, (G)ARCH, ARIMA, LSTM, etc. Декомпозиция и Фурье/Вейвлет анализ.). Как прикрутить Xgboost :)
  
 
Краткий экскурс в NLP.
 
Краткий экскурс в NLP.
Строка 62: Строка 62:
 
Ориентировочные критерии для КТ3:
 
Ориентировочные критерии для КТ3:
  
5-7: получены все данные, произведен первичный анализ и визуализации, сделан baseline(скажем, многомерная линейная регрессия без учета взаимных корреляций и one hot encoding по словам из твиттов)
+
4-7: получены все данные, произведен первичный анализ и визуализации, сделан baseline(скажем, многомерная линейная регрессия без учета взаимных корреляций и one hot encoding по словам из твиттов)
  
 
8-10: попробованы интересные методы, интерактивные визуализации, выдвинуты и протестированы свои гипотезы.
 
8-10: попробованы интересные методы, интерактивные визуализации, выдвинуты и протестированы свои гипотезы.
Строка 73: Строка 73:
  
 
По поводу данного проекта с любыми вопросами Вы можете написать мне в telegram: avpronkin или на почту из wiki профиля.
 
По поводу данного проекта с любыми вопросами Вы можете написать мне в telegram: avpronkin или на почту из wiki профиля.
 +
 +
=== UPD ===
 +
 +
Увеличил количество мест на проект.

Текущая версия на 12:50, 1 ноября 2017

Ментор Пронькин Алексей
Учебный семестр Осень 2017
Учебный курс 2-й курс
Максимальное количество студентов, выбравших проект: 8



Что это за проект?

Определение среднесрочных (time frame 5-10 минут) цен на криптовалюты с помощью анализа многомерных временных рядов предыдущих цен и транзакций и новостям из twitter.

Есть множество исследований на тему того, что данный подход не получается применить к ценам акций, но пока непроверенная гипотеза состоит в том, что:

1) Рынок криптовалют в среднем движется в одном направлении при некотором хайпе, который можно оценить по Твиттеру.

2) Есть взаимосвязь цен один криптовалют от других с временным лагом (когда становятся популярнее одни валюты, курсы других падают или растут.

3) Для каждой криптовалюты можно выделить twitter аккаунты, которые оказывают максимальное влияние на цену этой валюты.

И еще великое можество гипотез, которые сможете сформулировать Вы и проверить с помощью этого проекта.

Чему вы научитесь?

Работать с многомерными временными рядами с помощью Python или R, познакомитесь с базовыми идеями в NLP, получите опыт работы с Twitter.API

Какие начальные требования?

Проект подойдёт и новичкам в машинном обучении. Необходимо иметь желание разобраться с Python или R (NB! С помощью R тяжело применять state of the art решения в NLP, но зато намного проще освоить этот язык с нуля, с помощью него интереснее и легче делать интерактивные визуализации, работать с временными рядами и т.д.) Выбор за Вами.

Какие будут использоваться технологии?

Twitter API

Анализ транзакций блокчейна

R: shiny, ggplot2, data.table, forecast, vars, text2vec, etc.

Python: pandas, scikit-learn, statsmodels, xgboost, NLTK, CoreNLP word2vec, etc.

Темы вводных занятий

Twitter API.

(NB! Обратите внимание, что из твиттера возможно загрузить только последние две недели твиттов, поэтому необходимо заняться этим пунктом в первую очередь).

Модели временных рядов(VARs, (G)ARCH, ARIMA, LSTM, etc. Декомпозиция и Фурье/Вейвлет анализ.). Как прикрутить Xgboost :)

Краткий экскурс в NLP.

Направления развития

Два направления:

-Дальнейшее исследование алгоритмов машинного обучения для прогнозирования многомерных временных рядов (теоретическое направление)

-Создание прототипов торговых ботов (прикладное направление)

Критерии оценки

Сложно заранее выставить четкие критерии по проекту основанному на гипотезах, поэтому оценка будет скорее основана на количестве проделанной работы.

Ориентировочные критерии для КТ3:

4-7: получены все данные, произведен первичный анализ и визуализации, сделан baseline(скажем, многомерная линейная регрессия без учета взаимных корреляций и one hot encoding по словам из твиттов)

8-10: попробованы интересные методы, интерактивные визуализации, выдвинуты и протестированы свои гипотезы.

Ориентировочное расписание занятий

СР 14.00-..., СБ 14.00-..., ВТ ...-..., остальные дни занят, но расписание меняется в каждом новом модуле.

Контакты

По поводу данного проекта с любыми вопросами Вы можете написать мне в telegram: avpronkin или на почту из wiki профиля.

UPD

Увеличил количество мест на проект.