Участник:Katya — различия между версиями

Материал из Wiki - Факультет компьютерных наук
Перейти к: навигация, поиск
 
(не показано 7 промежуточных версии этого же участника)
Строка 1: Строка 1:
 
Моя страничка на сайте ВШЭ: [http://www.hse.ru/org/persons/14305157 Екатерина Черняк].
 
Моя страничка на сайте ВШЭ: [http://www.hse.ru/org/persons/14305157 Екатерина Черняк].
 +
 +
Меня интересуют исследования в области автоматической обработки текстов (natural language processing). В 2016/17 уч. году мне хотелось бы предложить темы, связанные со следующими направлениями:
 +
 +
* анализ темпоральных текстовых данных. Речь идет о текстовых данных общего происхождения (новостных лентах, отзывов на какие-то продукты, твиттах, блогах), публикуемых достаточно долгое время. В  этом направлении существуют следующие задачи:
 +
# Извлечение сюжетов (как развивается новостной сюжет, например, какие события связаны с Сирийским конфликтом)
 +
# Извлечение темпоральных ассоциативных правил (например, как упоминание нового назначения омбудсмена вчера связано с упоминанием телегонии сегодня)
 +
# Анализ изменений отношения к какому-то товару со временем (например, почему оценки на Кинопоиске со временем становятся ниже, можно ли найти какие-то причины этому в текстах отзывов)
 +
# Визуализация (например, построить облако тегов и мультфильм про его изменение в динамике)
 +
# Извлечение трендов из научных публикаций (о чем пишут современные исследователи, о чем писали 5 лет назад и сейчас уже забыли, можно ли предсказать, что будет популярно в ближайшие пять лет?).
 +
* использование строковых структур для анализа текстов. В основном для анализа тексты разбивают на слова, пары слов или последовательности символов фиксированной длины (например, пятерки символов). Мне кажется, что можно было бы ослабить ограничение на длину последовательности и использовать сууфиксные или префиксные деревья для того, чтобы выбирать длину символьной последовательности автоматически. Подобный метод был бы полезен для тех задач, где конечный результат не имеет текстового представления, например в задачах
 +
# кластеризации текстов (конечный результат - кластеры и неважно, какое представление текста было использовано)
 +
# тематической классификации
 +
# классификации по жанрам
 +
* некоторые стандартные задачи и не совсем стандратные способы их решения или источники данных (список пополняется):
 +
# Использование сверточных сетей для извлечения фактов (см. соревнование Диалога 2016 года)
 +
# Иерархическая классификация на данных Яндекс.Категоризатора
 +
# Извлечение социальных сетей из новостей / художественной литературы и их визуализация
 +
# ПриВедЕНие теКСТа К прАвиЛЬноМу реГистРУ

Текущая версия на 12:45, 8 ноября 2016

Моя страничка на сайте ВШЭ: Екатерина Черняк.

Меня интересуют исследования в области автоматической обработки текстов (natural language processing). В 2016/17 уч. году мне хотелось бы предложить темы, связанные со следующими направлениями:

  • анализ темпоральных текстовых данных. Речь идет о текстовых данных общего происхождения (новостных лентах, отзывов на какие-то продукты, твиттах, блогах), публикуемых достаточно долгое время. В этом направлении существуют следующие задачи:
  1. Извлечение сюжетов (как развивается новостной сюжет, например, какие события связаны с Сирийским конфликтом)
  2. Извлечение темпоральных ассоциативных правил (например, как упоминание нового назначения омбудсмена вчера связано с упоминанием телегонии сегодня)
  3. Анализ изменений отношения к какому-то товару со временем (например, почему оценки на Кинопоиске со временем становятся ниже, можно ли найти какие-то причины этому в текстах отзывов)
  4. Визуализация (например, построить облако тегов и мультфильм про его изменение в динамике)
  5. Извлечение трендов из научных публикаций (о чем пишут современные исследователи, о чем писали 5 лет назад и сейчас уже забыли, можно ли предсказать, что будет популярно в ближайшие пять лет?).
  • использование строковых структур для анализа текстов. В основном для анализа тексты разбивают на слова, пары слов или последовательности символов фиксированной длины (например, пятерки символов). Мне кажется, что можно было бы ослабить ограничение на длину последовательности и использовать сууфиксные или префиксные деревья для того, чтобы выбирать длину символьной последовательности автоматически. Подобный метод был бы полезен для тех задач, где конечный результат не имеет текстового представления, например в задачах
  1. кластеризации текстов (конечный результат - кластеры и неважно, какое представление текста было использовано)
  2. тематической классификации
  3. классификации по жанрам
  • некоторые стандартные задачи и не совсем стандратные способы их решения или источники данных (список пополняется):
  1. Использование сверточных сетей для извлечения фактов (см. соревнование Диалога 2016 года)
  2. Иерархическая классификация на данных Яндекс.Категоризатора
  3. Извлечение социальных сетей из новостей / художественной литературы и их визуализация
  4. ПриВедЕНие теКСТа К прАвиЛЬноМу реГистРУ