Участник:Katya — различия между версиями
Материал из Wiki - Факультет компьютерных наук
Katya (обсуждение | вклад) |
Katya (обсуждение | вклад) |
||
Строка 8: | Строка 8: | ||
# Анализ изменений отношения к какому-то товару со временем (например, почему оценки на Кинопоиске со временем становтся ниже, можно ли найти какие-то причины этому в текстах отзывов) | # Анализ изменений отношения к какому-то товару со временем (например, почему оценки на Кинопоиске со временем становтся ниже, можно ли найти какие-то причины этому в текстах отзывов) | ||
# Визуализация (например, построить облако тегов и мультфильм про его изменение в динамике) | # Визуализация (например, построить облако тегов и мультфильм про его изменение в динамике) | ||
− | # Извлечение трендов из научных публикаций (о чем пишут современные исследователи, | + | # Извлечение трендов из научных публикаций (о чем пишут современные исследователи, о чем писали 5 лет назад и сейчас уже забыли, Можно ли предсказать, что будет популярно в ближайшие пять лет?). |
* использование строковых структур для анализа текстов. В основном для анализа тексты разбивают на слова, пары слов или последовательности символов фиксированной длины (например, пятерки символов). Мне кажется, что можно было бы ослабить ограничение на длину последовательности и использовать сууфиксные или префиксные деревья для того, чтобы выбирать длину символьной последовательности автоматически. Подобный метод был бы полезен для тех задач, где конечный результат не имеет текстового представления, например в задачах | * использование строковых структур для анализа текстов. В основном для анализа тексты разбивают на слова, пары слов или последовательности символов фиксированной длины (например, пятерки символов). Мне кажется, что можно было бы ослабить ограничение на длину последовательности и использовать сууфиксные или префиксные деревья для того, чтобы выбирать длину символьной последовательности автоматически. Подобный метод был бы полезен для тех задач, где конечный результат не имеет текстового представления, например в задачах | ||
# кластеризации текстов (конечный результат - кластеры и неважно, какое представление текста было использовано) | # кластеризации текстов (конечный результат - кластеры и неважно, какое представление текста было использовано) |
Версия 16:40, 13 сентября 2016
Моя страничка на сайте ВШЭ: Екатерина Черняк.
Меня интересуют исследования в области автоматической обработки текстов (natural language processing). В 2016/17 уч. году мне хотелось бы предложить темы, связанные со следующими направлениями:
- анализ темпоральных текстовых данных. Речь идет о текстовых данных общего происхождения (новостных лентах, отзывов на какие-то продукты, твиттах, блогах), публикуемых достаточно долгое время. В этом направлении существуют следующие задачи:
- Извлечение сюжетов (как развивается новостной сюжет, например, какие события связаны с Сирийским конфликтом)
- Извлечение темпоральных ассоциативных правил (например, как упоминание нового назначения омбудсмена вчера связано с упоминанием телегонии сегодня)
- Анализ изменений отношения к какому-то товару со временем (например, почему оценки на Кинопоиске со временем становтся ниже, можно ли найти какие-то причины этому в текстах отзывов)
- Визуализация (например, построить облако тегов и мультфильм про его изменение в динамике)
- Извлечение трендов из научных публикаций (о чем пишут современные исследователи, о чем писали 5 лет назад и сейчас уже забыли, Можно ли предсказать, что будет популярно в ближайшие пять лет?).
- использование строковых структур для анализа текстов. В основном для анализа тексты разбивают на слова, пары слов или последовательности символов фиксированной длины (например, пятерки символов). Мне кажется, что можно было бы ослабить ограничение на длину последовательности и использовать сууфиксные или префиксные деревья для того, чтобы выбирать длину символьной последовательности автоматически. Подобный метод был бы полезен для тех задач, где конечный результат не имеет текстового представления, например в задачах
- кластеризации текстов (конечный результат - кластеры и неважно, какое представление текста было использовано)
- тематической классификации
- классификации по жанрам
- некоторые стандартные задачи и не совсем стандратные способы их решения или источники данных (список пополняется):
- Использование сверточных сетей для извлечения фактов (см. соревнование Диалога 2016 года)
- Иерархическая классификация на данных Яндекс.Категоризатора