Читайте также: |
|
Целью экспериментов была попытка выполнить поиск документов на основе не отдельных слов, а значений WordNet. Для каждого документа сначала выполняется процедура разрешения многозначности существительных, которая выбирает единственное значение и в результате которой каждому тексту ставится в соответствие вектор синсетов WordNet. После того как вектор создан, с ним могут выполняться такие же операции, как и с пословными векторами.
Эффективность использования векторов синсетов сравнивалась с эффективностью информационного поиска на основе стандартной модели, использующей вектора слов. В стандартном прогоне и документы, и запросы представляются как вектора лемм всех значимых слов. В концептуальных прогонах и документы, и запросы представляются как вектора, состоящие из трех подвекторов:
Второй и третий подвектора представляют собой альтернативные представления документа, поскольку одни и те же слова этого документа порождают отдельные элементы каждого вектора.
Для каждого запроса стандартный прогон векторной модели сравнивался со следующими комбинациями перечисленных выше подвекторов (цифры соответствуют весу, который дается 1-му, 2-му и 3-му подвектору, соответственно):
Для экспериментов было использовано 5 разных коллекций документов (компьютерная область, медицинская область, газетные статьи и др.), и для каждой коллекции было выполнено более 30 различных запросов.
Оценки эффективности информационного поиска на основе показателя средней точности показали серьезное ухудшение эффективности для векторов, включающих синсеты (от 6,2% до 42,3%).
Основная причина такого ухудшения эффективности заключается в том, что процедура разрешения многозначности для слова в запросе может выбрать одно значение, а для того же слова в документе — другое значение. Например, при поиске по запросу "separation anxiety in infants and preschool children" из первых 15 документов стандартный прогон выдает 7 релевантных документов, в то время как прогон 110 — только один релевантный документ. Проблема вызвана выбором значения слова separation, для которого в WordNet описано 8 значений. Процедура разрешения многозначности выбирает такое значение этого слова в запросе, которое не было выбрано ни в одном из релевантных текстов.
21. Проблемы использования онтологии в информационном поиске.
22. Этапы работы вопросно-ответной системы.
23. Использование онтологий в вопросно-ответной системе.
32. Обработка булевского запроса в вопросно-ответной системе
24. Проблемы WordNet при автоматической обработки текста.
25. Проблема лексической многозначности.
26. Разрешение многозначности в WordNet.
27. Виды отношений в Тезаурусах.
28. Методы Тезаурусов в технологиях обработки текстов (запросов).
29. Тезаурус для автоматического концептуального индексирования.
30. Способы установления отношений в тезаурусах.
31. Отношения онтологической зависимости.
32. Этапы автоматической обработки текстов на основе Тезауруса.
33. Принцип построения связной аннотации текста.
34. Методы автоматической рубрикации.
35. Причины сложности в задачах автоматической рубрикации текстов.
36. Характеристики рубрикаторов.
Дата добавления: 2015-11-30; просмотров: 34 | Нарушение авторских прав