Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Векторная модель информационного поиска с вектором по синсетам WordNet

Читайте также:
  1. Samasource: модель стрекозы в действии
  2. Алгоритм диагностического поиска.
  3. Американская модель
  4. Американская модель
  5. Английская модель
  6. Аристотелева модель разума
  7. Базовая искусственная модель

Целью экспериментов была попытка выполнить поиск документов на основе не отдельных слов, а значений WordNet. Для каждого документа сначала выполняется процедура разрешения многозначности существительных, которая выбирает единственное значение и в результате которой каждому тексту ставится в соответствие вектор синсетов WordNet. После того как вектор создан, с ним могут выполняться такие же операции, как и с пословными векторами.

Эффективность использования векторов синсетов сравнивалась с эффективностью информационного поиска на основе стандартной модели, использующей вектора слов. В стандартном прогоне и документы, и запросы представляются как вектора лемм всех значимых слов. В концептуальных прогонах и документы, и запросы представляются как вектора, состоящие из трех подвекторов:

  1. вектор лемм слов, не найденных в WordNet, либо найденных, но многозначность которых не удалось разрешить (например, не являющихся существительными);
  2. вектор синсетов существительных для слов с разрешенной многозначностью;
  3. вектор лемм существительных для слов с разрешенной многозначностью.

Второй и третий подвектора представляют собой альтернативные представления документа, поскольку одни и те же слова этого документа порождают отдельные элементы каждого вектора.

Для каждого запроса стандартный прогон векторной модели сравнивался со следующими комбинациями перечисленных выше подвекторов (цифры соответствуют весу, который дается 1-му, 2-му и 3-му подвектору, соответственно):

Для экспериментов было использовано 5 разных коллекций документов (компьютерная область, медицинская область, газетные статьи и др.), и для каждой коллекции было выполнено более 30 различных запросов.

Оценки эффективности информационного поиска на основе показателя средней точности показали серьезное ухудшение эффективности для векторов, включающих синсеты (от 6,2% до 42,3%).

Основная причина такого ухудшения эффективности заключается в том, что процедура разрешения многозначности для слова в запросе может выбрать одно значение, а для того же слова в документе — другое значение. Например, при поиске по запросу "separation anxiety in infants and preschool children" из первых 15 документов стандартный прогон выдает 7 релевантных документов, в то время как прогон 110 — только один релевантный документ. Проблема вызвана выбором значения слова separation, для которого в WordNet описано 8 значений. Процедура разрешения многозначности выбирает такое значение этого слова в запросе, которое не было выбрано ни в одном из релевантных текстов.

 

21. Проблемы использования онтологии в информационном поиске.

22. Этапы работы вопросно-ответной системы.

23. Использование онтологий в вопросно-ответной системе.

32. Обработка булевского запроса в вопросно-ответной системе

24. Проблемы WordNet при автоматической обработки текста.

25. Проблема лексической многозначности.

26. Разрешение многозначности в WordNet.

27. Виды отношений в Тезаурусах.

28. Методы Тезаурусов в технологиях обработки текстов (запросов).

29. Тезаурус для автоматического концептуального индексирования.

30. Способы установления отношений в тезаурусах.

31. Отношения онтологической зависимости.

32. Этапы автоматической обработки текстов на основе Тезауруса.

33. Принцип построения связной аннотации текста.

34. Методы автоматической рубрикации.

35. Причины сложности в задачах автоматической рубрикации текстов.

36. Характеристики рубрикаторов.

 


Дата добавления: 2015-11-30; просмотров: 34 | Нарушение авторских прав



mybiblioteka.su - 2015-2024 год. (0.006 сек.)