Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Что такое рубрикатор, их использование в интернет системах по товарам и услугам.

Читайте также:
  1. XIII. ЧТО ТАКОЕ "ЦЕННОСТЬ ДЕНЕГ"?
  2. Амфибии в экосистемах
  3. Анализ наличия земли и ее использование
  4. Архитектура интернет-магазинов
  5. В каких случаях использование антибиотиков необходимо?
  6. В сетях Интернета
  7. Взаимосвязь «внешнего» и «внутреннего» при формировании в людях этих десяти «преград». Что такое «ЗЛО».

Под рубрикатором понимается классификационная таблица иерархической классификации, содержащая полный перечень включенных в систему классов и предназначенная для систематизации информационных фондов, массивов и изданий, а также для поиска в них.

Имеется главное теоретическое отличие терминов тезауруса от рубрик рубрикатора. Термины тезауруса являются фундаментально языковыми, в то время как рубрики соответствуют концептуальным категориям. Цель разработки информационно-поискового тезауруса - найти хорошие, компактные слова и фразы для описания основных тем документов, сведя синонимы и квазисинонимы к дескрипторам тезауруса.

Цель создания рубрикаторов, которая не всегда достигается, но всегда ставится, - это разработать совершенно отдельные концептуальные категории, которые взаимно не пересекаются. В идеале не должно быть пересечений между рубриками и не должно быть промежутков, то есть ни одна подобласть не должна остаться вне рубрик рубрикатора. Для достижения таких строгих целей рубрикатор структурируется, что может быть выполнено двумя основными способами - иерархической организацией рубрикатора и фасетной организацией рубрикатора.

Чтобы определить рубрики достаточно строго и исключить пересечение значений, часто необходимо называть рубрики длинными и "неуклюжими" именами, например, "Тропические и субтропические фрукты и орехи"; "Полевые культуры (Plantation crop)". Назначение такого словосочетания - четко определить отдельную концептуальную категорию; подобное словосочетание не встретить в тезаурусе. Поскольку работать с такими сложно сформулированными сущностями достаточно тяжело, им обычно присваивается некоторая система классификационных кодов.

Еще одним следствием такого рода формулировок рубрик является то, что в таком виде их практически не встретить в реальных текстах и на интернет-сайтах, поэтому если нужно автоматизировать обработку перечней товаров, то необходимо каждой рубрике сопоставить наборы слов и словосочетаний, на основе которых можно будет выводить принадлежность документа данной рубрике.

13. Система Ontoseek: проблемы пословного поиска и средства решения.

В качестве проекта, в рамках которой исследовался поиск по товарам на базе онтологий, рассмотрим систему OntoSeek.

OntoSeek - система, предназначенная для содержательного поиска в изданиях типа "Желтые страницы" и каталогах товаров.

К числу особенностей системы относятся:

· использование произвольных естественно-языковых терминов для описания товаров и услуг;

· отсутствие ограничений на задание запросов на естественном языке, базирующееся на семантической обработке запроса на основе онтологии;

· интерактивная помощь в формулировании запросов, в их обобщении и специализации.

В качестве представления информации о товарах были выбраны концептуальные графы. По сравнению с представлением вида "атрибут-значение" такие графы обеспечивают значительно более гибкий и более выразительный механизм представления запросов и описаний товаров. На базе концептуальных графов проблема сопоставления запроса и описания товара сводится к сопоставлению графов.

В качестве онтологии был взят WordNet, на основе описаний которого можно выявить синонимичность и родо-видовые отношения слов.

Представление запросов основывается на графах, содержащих переменные. Так, если пользователь ищет автомобили, внутри которых установлен радиоприемник, то запрос будет выглядеть следующим образом:

[<X> car]-> (part) -> [Radio].

Если пользователь ищет радиоприемник для автомобиля, то запрос представляется следующим выражением:

[car]-> (part) -> [<X> Radio].

Проблема использования такой онтологии, как WordNet, связана с тем, что в ней в явном виде не содержится информация о взаимной исключительности понятий.

Чтобы решить эту проблему, было предложено различать понятия-типы и понятия-роли и ввести следующие предположения:

· типы, которые не находятся в родо-видовой иерархии, взаимно исключают друг друга;

· роли всегда подчиняются типам;

· роли, подчиняющиеся одному и тому же типу, рассматриваются как не взаимно исключительные, если это не указывается специально, например отношением антонимии.

Примерами типов являются такие понятия, как человек или растение, а примерами ролей - такие понятия, как студент или ребенок. Типы и роли различаются тем, что для типов принадлежность их примеров к своему типу является внутренне необходимым свойством, в то время как студент может перестать быть студентом, оставаясь все тем же человеком.

Вторым типом проблем является то, что верхние уровни WordNet слишком содержательно бедны для приложений, базирующихся на знаниях. Отношения между понятиями, установленные на основе лингвистических критериев, не соответствуют отношениям между соответствующими классами объектов внешнего мира.


Дата добавления: 2015-11-30; просмотров: 167 | Нарушение авторских прав



mybiblioteka.su - 2015-2024 год. (0.007 сек.)