Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Информационно-поисковые языки

Читайте также:
  1. Информационно-поисковые системы (ИПС)
  2. Профессиональный и специальный языки (Fach-und Sondersprache).

Центральное место в информационно-поисковой системе занимает информационно-поисковый язык (ИПЯ). Информационно-поисковый язык — это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запро­са. Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его фор­мальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационно­го поиска основаны на сравнении поискового предписания с поисковым образом запроса. Критерий выдачи документа на запрос может состоять в полном или частичном совпадении ПОЗа документа и ПП. В ряде случаев пользователь имеет возможность сам сформулировать критерии выдачи. Это определяется его информационной потребностью.

Информационно-поисковые языки должны удовлетворять некото­рым важным условиям. К ИПЯ предъявляется требование достаточной разрешительной силы — способности дифференцировать важные для дан­ной проблемной области семантические различия между документами. На информационно поисковые языки налагается требование однознач­ности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ.

Информационно-поисковые языки можно классифицировать по раз­ным основаниям. Чаще всего ИПЯ разделяются на языки-классификации и язык и дескрипторного типа. Языки-классификации, или языки клас­сификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа уни­версальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. По требованиям Книж­ной палаты на обороте титула каждой книги должен стоять индекс УДК. Наряду с УДК в библиотечном деле применяется также Библиотечно-библиографическая классификация (ББК). Если основы УДК были раз­работаны еще в 1895-1905 гг. в Международном библиографическом институте под руководством П. Отле и А. Лафонтена, то ББК была со­здана в СССР с учетом имевшихся тогда представлений о соотношении общественных и естественных наук. Основные проблемы использования языков-классификаций связаны с тем, что они, как правило, ограничены крупными классами (таксонами) понятий и не позволяют выйти на доста­точную глубину описания документов и тем самым обеспечить точность индексирования. Кроме того, они не позволяют характеризовать доку­мент с различных точек зрения, что делает невозможным многоаспектное индексирование (см. ниже). И, наконец, иерархические классификации Понятий не успевают за научно-техническим прогрессом.

Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индекси­рование документа по нескольким основаниям — фасетам (ср. английскоее слово facet — «аспект»). Например, газетные и журнальные статьи в информационном компоненте Корпуса текстов по современной россий­ской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста (внутри публицистиче­ского стиля) [Баранов, Михайлов, Сидоров 1998]. Как и в классических вариантах языков классификационного типа, в качестве элементов фасетных ИПЯ могут выступать символьные выражения (коды), но часто используются и лексические элементы естественного языка с унифици­рованной морфологической формой. Каждый параметр (аспект) клас­сификации называется фасетом. Совокупность фасетов, используемая для индексирования документа, называется схемой классификации. В по­исковом образе документа последовательность и состав фасетов строго фиксированы. Они образуют фасетную формулу (см. рис. 1).

Рис. 1. Структура документа в информационном компоненте Корпуса текстов по современной российской публицистике

       
   
 
1. Итоги 2. 2.02.98 3. Невский проспект российских политиков 4. Велехов Л. 5. внешняя политика 6. аналитическая статья
 

 


Страсбург кружит им голову. Они ходят по нему, расправив плечи, освободившись от комплексов и раскрепостившись. Иногда даже кажутся симпатичными. Плакаты, расклеенные по всему Страсбургу, утверждают, что этот маленький французский город — столица Европы. Впрочем, основания для таких утверждений хорошо известны любому здешнему обитателю. Именно здесь, в провинциальном городке с большой судьбой, который в течение нескольких веков служил причиной распрей между Францией и Германией, неоднократно переходил из рук в руки, а в конце второй мировой войны едва не был стерт с лица земли в результате ошибочного налета французской авиации, обитают на протяжении послевоенного времени самые крупные и авторитетные общеевропейские институты {...).

Большинство российских парламентариев, делегированных фракциями Думы в Парламентскую ассамблею Совета Европы, еще недавно казались принципиально необучаемыми и неприспособленными к такого рода деятельности, требовавшей специальных знаний, усидчивости, умения аргументированно и внятно выразить и защитить свою точку зрения, терпимости к мнению оппонента. Они были неисправимо косноязычны, ставя в тупик даже вышколенных здешних переводчиков, они вечно попадали впросак: то выступали невпопад, то их не оказывалось на месте, когда приходил черед выступать, потому что они, конечно не успевали вовремя вернуться с «шопинга» (...).

 

В приведенном примере представлен довольно простой вариант фасетной классификации. В общем случае фасетные ИПЯ предполагают достаточно разветвленное, подробное описание каждого фасета — иерар­хического дерева понятий. Фасетные классификации довольно сложны и в аспекте индексирования, и в аспекте организации информационного поиска, выборе критериев соответствия.

Иерархические классификации и языки фасетного типа получи­ли наибольшее распространение в ручном информационном поиске. В автоматизированных И ПС чаще используются дескрипторные инфор­мационно-поисковые языки. Тематика документа описывается совокупно­стью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Коли­чество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. Совокупность дескрипторов задает координаты документа в матрице — отсюда термин координатное индек­сирование. Часто в дескрипторном ИПЯ налагаются ограничения на со­четаемость дескрипторов в ПОДе и ПП; в этом случае можно говорить о том, что ИПЯ обладает синтаксисом.

Одна из первых систем, работавших с дескрипторным языком, была американская система УНИТЕРМ, созданная М. Таубе. В качестве де­скрипторов в этой системе функционировали ключевые слова докумен­та — унитермы. Особенность этой ИПС заключается в том, что изначаль­но словарь информационного языка не задавался, а возникал в процессе индексирования документа и запроса. Такой способ организации ИПС оказался чрезвычайно гибким, поскольку с помощью унитермов — про­стых понятий проблемной области — можно было достаточно полно опи­сать любой документ. Например, сочетание унитермов «кадры» и «новый» давало возможность получить всю информацию о новых кадровых реше­ниях, а сочетание «мебель», «офис» позволяло получить документацию об офисной мебели. К сожалению, гибкость структуры первых дескрип-торных ИПЯ порождала проблему полноты и точности информационного поиска. Полисемия и синонимия естественного языка в полной мере да­вала себя знать в процессе индексирования документов и запросов: если из нескольких синонимов пользователь выбирал не тот синоним, который был представлен в ПОДе документа, то документ не выдавался ИПС.

На следующем этапе развития ИПЯ дескрипторного типа возни­кла технология лингвистического (другие варианты — лексического или словарного) контроля, заключавшегося в унификации языка индекси­рования запросов и документов. Наиболее удачной формой унифи­кации оказался дескрипторный словарь, в котором в эксплицитной Форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем па­радигматическими отношениями получил название информационно-по­искового тезауруса (ИПТ). Объединение дескрипторов в рамках одного таксона в тезаурусе позволяло установить отношения квазисинонимии, обеспечивало переход от более частных понятий к более общим и на­оборот, что давало возможность преобразовать запрос в более част­ный или более общий по сфере охвата документов. Фактически хо­роший информационно-поисковый тезаурус является понятийной мо­делью проблемной области. Разработка ИПТ стоит в центре созда­ния любой информационно-поисковой системы. Среди парадигматиче­ских отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «свойство—проявление свойства», «процесс—результат», «действие—результат», «причина—следствие», «предмет/объект—типич­ная функция». Как правило, в зону парадигматических связей попадают и ассоциативные отношения, позволяющие расширить информационный поиск по параметру полноты.

Принципы создания ИПТ и их форма определяются специальными государственными стандартами. В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Кроме алфа­витного указателя дескрипторов, ИПТ может включать частотные указа­тели, указатели допустимых сочетаний дескрипторов и пр. Как правило, словарная статья ИПТ включает сам дескриптор и четыре зоны:

• синонимы к данному дескриптору;

• «вышестоящие» дескрипторы (более общие термины по сравнению
с данным; отношение «гипероним—гипоним»);

• «нижестоящие дескрипторы» (более частные термины по сравнению
с данным; отношение «гипоним—гипероним»);

• ассоциативные дескрипторы.

Синонимия является неиерархическим симметричным отношением, которое нежелательно для ИПТ, поскольку синонимия осложняет процесс информационного поиска. Часто отраслевые тезаурусы содержат синони­мы, однако статус дескрипторов (элементов информационно-поискового языка) получает только один из лексических элементов синонимического ряда. Иногда в ИПТ вводятся и другие типы симметричных отношений — отношения сходства, общего подчинения по различным признакам.

Правила использования тезауруса — приписывания дескрипторов документам — регламентируются специальными инструкциями, различа­ющимися от одной ИПС к другой. Тем не менее, инструкции не спасают: практика показывает, что процесс ручного индексирования представля­ет собой сложную задачу, в которой соединяются абсолютно рутинные процедуры и искусство. Качество индексирования документов в огром- 1 ной степени определяет эффективность информационного поиска. Для улучшения характеристик полноты поиска часто используют метод избыточного индексирования: поисковый образ документа и поисковое пред­писание пополняются за счет ассоциативных дескрипторов. Разумеется, это ухудшает параметры поиска на точность.

Решение о релевантности документа данному запросу определяется специальными критериями выдачи (KB). Здесь различаются два основных типа критериев — вычисляемые и логические. Вычисляемые KB опираются на количественные характеристики. Обычно это соотношение количества одинаковых дескрипторов в ПОДе и поисковом предписании. Полное совпадение дескрипторов ПОДа и поискового предписания как основной KB используется крайне редко. Как правило, речь идет о пересечении, количественная оценка которого производится в процентах. Чаще всего в качестве порога релевантности используется величина в 50 %. Значение критерия выдачи вычисляется по следующей формуле:

,

где Ni — количество совпавших дескрипторов в ПОДе и поисковом предписании; Nj общее количество дескрипторов в поисковом пред­писании.

В некоторых случаях для повышения точности поиска различным де­скрипторам приписываются веса, отражающие их значимость для описа­ния содержания документа или для выражения информационной потреб­ности пользователя. В этом случае в KB веса дескрипторов, естественно, так или иначе учитываются.

Логические критерии выдачи основываются на тех логических отно­шениях, которые устанавливаются пользователем между дескрипторами поискового предписания. Последнее имеет вид конъюнктивной нор­мальной формы — конъюнкции дизъюнкций. Конъюнкцией связыва­ются дескрипторы, отражающие различные аспекты запроса, а оператор дизъюнкции используется для связывания дескрипторов, находящихся в отношении квазисинонимии.

Увеличение объема документов в современных ИПС приводит к то­му, что ручное индексирование документов становится практически не­возможным. Стратегически эта проблема решается в настоящее время по двум основным направлениям. Первое направление — создание си­стем автоматического индексирования. Функционально они заменяют ручное индексирование и позволяют создавать ПОДы документов в авто­матическом режиме. Хорошие системы автоматического индексирования не уступают по качеству работы ручному индексированию. Алгоритмы работы систем такого рода включают два основных этапа. На первом эта­пе происходит отбор лексических единиц из текста на основании списка ключевых слов, существенных для данной проблемной области, а на вто­ром — отобранные слова с помощью процедур морфологического анализа приводятся к каноническому/исходному виду. В качестве такового может Фигурировать не только исходная словарная форма, но и псевдооснова. Вторая стратегия решения проблемы ручного индексирования свя­зана с разработкой ИПС бестезаурусного типа. Такие ИПС работают с пользователем на ограниченном естественном языке, а поиск осуще­ствляется по текстам рефератов документов, по их библиографическим описаниям, а часто и по самим документам. Для индексирования в ИПС бестезаурусного типа используются слова и словосочетания естественного языка. Работа с естественным языком предполагает, что в ИПС должны быть встроены грамматические парсеры. Проводившиеся эксперимен­ты показали, что ИПС последнего типа, несколько снижая параметры поиска по полноте, существенно повышают точность выдачи [Панков, Захаров 1996]. Именно в этом направлении идет развитие современных информационно-поисковых систем.

 

Задание 1. Иерархические отношения в информационно-поисковом теза­урусе, в частности отношения «род-вид», часто скрывают за собой комплекс более сложных отношений. Если эти более «дробные» отношения встречаются в проблемной области регулярно, то иерархическая структура может дополняться фасетной классификацией — альтернативной по отношению к семантическому дереву тезауруса. В [Варга 1970, с. 93, 94] разбирается показательный пример такого типа. Рассмотрим его подробнее.

Таксон РАКЕТА ИПТ по ракетной технике включает следующее множество единиц:

РАКЕТА

баллистическая ракета; одноступенчатая ракета; электрическая ракета, ра­кета без человека; ракета с человеком на борту; ракета с орбитой вокруг луны; лунная ракета; межпланетная ракета; управляемая ракета; исследовательская ракета; квантовая ракета; ракета, запускаемая с аэростата; высотная ракета; ра­кета, несущая приборы; ракета без пилота; ракета-спутник; солнечная ракета; термическая ракета; многоступенчатая ракета; космическая ракета.

Семантический анализ показывает, что таксон не однороден и может быть разбит по нескольким различным основаниям: 1) вид горючего; 2) число ступеней; 3) способ управления; 4) способ старта; 5) характер груза; 6) пилотируемость; 7) назначение; 8) характер орбиты.

1. Сделайте фасетное разбиение таксона по указанным параметрам.

2. Предложите свои параметры фасетной классификации и проведите разбие­
ние таксона по ним.

Задание 2. Среди иерархических отношений в ИПТ может отражаться и от­ношение «часть-целое», которое также не всегда оказывается однородным. Однако в рассматриваемом ниже примере это не тот тип неоднородости, который был ра­зобран выше в Задании 1. Семантика «части-целого» в данном случае сохраняется и распространяется дальше по дереву, формируя более дробные непересекающие­ся таксоны. Предложите свой вариант иерархического членения таксона РАКЕТА, сформированного на основании отношения «часть-целое»:

 

РАКЕТА

бак горючего, бак топлива, бак средства окисления, защитный конус, ка­бина, камера сгорания, механизм управления, несущая ракета, носовой конус, плоскость управления, подача горючего, полезная нагрузка, приборы, привод, тело ракеты, управление, форсунка.

 

Основная литература

1. Панков И. П., Захаров В. П. Информационно-поисковые системы // При­кладное языкознание. СПб., 1996.

2. Московии В.А. Информационные языки. М., 1971.

 

Дополнительная литература

1. Дейт К. Введение в системы баз данных. М., 1980.

2. Информатика / Под ред. К.В.Тараканова. М., 1986.

3. Мартин Дж. Организация баз данных в вычислительных системах. М., 1980.

4. Сзлтон Г. Автоматическая обработка, хранение и поиск информации. М, 1973/.


Дата добавления: 2015-10-16; просмотров: 195 | Нарушение авторских прав


Читайте в этой же книге: Виды перевода | Естественный» перевод: лингвистические проблемы | Машинный перевод | Источники | Грамматико-переводной метод в обучении иностранным языкам | Прямой метод обучения иностранному языку | Аудиолингвальный и аудиовизуальный методы обучения иностранным языкам | Коммуникативно-ориентированный подход в обучении иностранным языкам | Оптимизация общения с ЭВМ:системы обработки естественного языка | Теория и практика информационно-поисковых систем |
<== предыдущая страница | следующая страница ==>
Типы информационно-поисковых систем| Лингвистика и функционирование государства

mybiblioteka.su - 2015-2024 год. (0.014 сек.)