Векторная модель информационного поиска с вектором по синсетам WordNet

Читайте также:

Целью экспериментов была попытка выполнить поиск документов на основе не отдельных слов, а значений WordNet. Для каждого документа сначала выполняется процедура разрешения многозначности существительных, которая выбирает единственное значение и в результате которой каждому тексту ставится в соответствие вектор синсетов WordNet. После того как вектор создан, с ним могут выполняться такие же операции, как и с пословными векторами.

Эффективность использования векторов синсетов сравнивалась с эффективностью информационного поиска на основе стандартной модели, использующей вектора слов. В стандартном прогоне и документы, и запросы представляются как вектора лемм всех значимых слов. В концептуальных прогонах и документы, и запросы представляются как вектора, состоящие из трех подвекторов:

вектор лемм слов, не найденных в WordNet, либо найденных, но многозначность которых не удалось разрешить (например, не являющихся существительными);
вектор синсетов существительных для слов с разрешенной многозначностью;
вектор лемм существительных для слов с разрешенной многозначностью.

Второй и третий подвектора представляют собой альтернативные представления документа, поскольку одни и те же слова этого документа порождают отдельные элементы каждого вектора.

Для каждого запроса стандартный прогон векторной модели сравнивался со следующими комбинациями перечисленных выше подвекторов (цифры соответствуют весу, который дается 1-му, 2-му и 3-му подвектору, соответственно):

110 — данная комбинация дает одинаковые веса словам, отличным от существительных, и синсетам существительных;
211 — данная комбинация учитывает как синсеты существительных, так и леммы существительных, поэтому оставшиеся слова учитываются в двойном размере;
101 — в данной комбинации подвектор синсетов существительных игнорируется, а леммы существительных и другие леммы документа получают одинаковые веса. Обратите внимание, что этот вектор отличается от стандартного прогона, поскольку результат сравнения для системы подвекторов вычисляется как сумма результатов сравнения каждого вектора.

Для экспериментов было использовано 5 разных коллекций документов (компьютерная область, медицинская область, газетные статьи и др.), и для каждой коллекции было выполнено более 30 различных запросов.

Оценки эффективности информационного поиска на основе показателя средней точности показали серьезное ухудшение эффективности для векторов, включающих синсеты (от 6,2% до 42,3%).

Основная причина такого ухудшения эффективности заключается в том, что процедура разрешения многозначности для слова в запросе может выбрать одно значение, а для того же слова в документе — другое значение. Например, при поиске по запросу "separation anxiety in infants and preschool children" из первых 15 документов стандартный прогон выдает 7 релевантных документов, в то время как прогон 110 — только один релевантный документ. Проблема вызвана выбором значения слова separation, для которого в WordNet описано 8 значений. Процедура разрешения многозначности выбирает такое значение этого слова в запросе, которое не было выбрано ни в одном из релевантных текстов.

21. Проблемы использования онтологии в информационном поиске.

22. Этапы работы вопросно-ответной системы.

23. Использование онтологий в вопросно-ответной системе.

32. Обработка булевского запроса в вопросно-ответной системе

24. Проблемы WordNet при автоматической обработки текста.

25. Проблема лексической многозначности.

26. Разрешение многозначности в WordNet.

27. Виды отношений в Тезаурусах.

28. Методы Тезаурусов в технологиях обработки текстов (запросов).

29. Тезаурус для автоматического концептуального индексирования.

30. Способы установления отношений в тезаурусах.

31. Отношения онтологической зависимости.

32. Этапы автоматической обработки текстов на основе Тезауруса.

33. Принцип построения связной аннотации текста.

34. Методы автоматической рубрикации.

35. Причины сложности в задачах автоматической рубрикации текстов.

36. Характеристики рубрикаторов.

Дата добавления: 2015-11-30; просмотров: 34 | Нарушение авторских прав

mybiblioteka.su - 2015-2025 год. (0.008 сек.)