Читайте также:
|
|
К данной компоненте лингвистического обеспечения в первую очередь относятся кодификаторы, классификаторы, тезаурусы.
Кодификаторы АИС представляют собой словари, не обязательно несущие семантическое соответствие между обозначаемым (класс, понятие, сущность) и обозначающим (код, символ). Например, в персональной БД атрибут SEX (Пол) может обозначаться либо М/Ж, либо 1/0 или 0/1, либо еще как-то в рамках двухсимвольного алфавита (домена). Это соответствие необязательно и может произвольно выбираться разработчиками различных систем. Основанием для использования кодификаторов (впрочем, как и других типов нормативных словарей) являются: экономия времени для заполнения форм и ввода документов; минимизация ошибок; экономия памяти.
Классификаторы АИС являются словарями, обязательно несущими определенную смысловую нагрузку. Они подразумевают иерархическое разбиение предметной области на совокупность сужающихся классов и последующее отнесение обозначаемого объекта реального мира (документ, продукт и пр.) к одному из классов (индексирование).
Иерархические классификаторы могут быть разделены на два типа:
• с фиксированным числом уровней;
• с неопределенным числом уровней.
Ниже приведены примеры некоторых классификаторов фиксированной глубины (числа уровней иерархии), используемых как в фактографических, так и в документальных АИС, а именно:
• гармонизированной системы (рис. 1.13);
• классификатор службы INIS (рис. 1.14);
• ОКП (рис. 1.15).
• международная классификация изобретений (рис. 1.16, а).
Рис 1.13. Фрагмент «Гармонизированной системы для товарной номенклатуры внешнеэкономической деятельности (Harmonized Commodity System)»
Универсальная десятичная классификация (УДК) (рис. 1.16, б), представляет собой пример классификатора с переменной (неопределенной) глубиной.
А00 - PHYSICAL SCIENCES.
А10 - GENERAL PHYSICS.
A11 - Theoretical Physics.
A12 - Atomic and Molecular Physics.
A13 - Solid States and Fluid Physics.
A14 - Plasma Physics and Thermonuclear Reactions.
A15 - Astrophysics and Cosmology, Cosmic Radiation.
A20 - HIGH ENERGY PHYSICS.
A21 - Elementary Particles (Theory).
A22 - Elementary Particles (Experimental).
BOO - CHEMISTRY, MATERIALS AND EARTH SCIENCES. B10-CHEMISTRY
B11 - Chemical & Isotopic Analysis.
B12 - Inorganic, Organic & Physical Chemistry.
B13 - Radiochemistry and Nuclear Chemistry.
B20 - MATERIALS
B21 - Metals and alloys (Production and Fabrication).
B22 - Metals and Alloys (Physical Properties and Structure).
B23 - Ceramics and Cermets.
B25 - Radiation Effects on Physical Properties of Materials.
F00 - OTHER ASPECTS OF NUCLEAR ENERGY. F10- ECONOMICS.
F11 - Nuclear Power Economics. F12 - Reactor Fuel Economics.
F30 - NUCLEAR DOCUMENTATION.
F31 - Data Handling.
F32 - Literature Handling. F40 - SAFEGUARD AND INSPECTION.
F41 - Technical Aspects.
F42 - Non-Technical Aspects.
Рис. 1.14. Фрагменты классификатора INIS (трехуровневая иерархическая классификационная система)
Рис. 1.15. Фрагмент «Общероссийского классификатора продукции (ОКП)»
Н-электричество (раздел) 6-прикладная наука,
Н05-Специальные области медицина, техника
электротехники (класс)
Н05-плазменная техника (подкласс) 681-точная механика
681.1-
Н05Р1-00-получение плазмы (группа)
Н05Н1-02-устройства для удержания 681.5-автоматика, техническая кибернетика
плазмы (подгруппа) 681.51-системы автоматизированного
Н05Н1-04—"— с использованием управления
магнитных полей (подгруппа)
Н05Н1-06 - устройства для сжатия 681.514 стохастические САУ
канала плазмы (подгруппа) 681.518— информационные системы
Н05К-печатные схемы (подкласс)
а) б)
Рис. 1.16. Примеры иерархических классификаторов: а- МКИ; б- УДК
Тезаурусы АИС. Тезаурус (Thesaurus) представляет собой толковый дескрипторный словарь, в котором значение каждой стандартной лексической единицы (дескриптора — слова или словосочетания) интерпретируется через связи с другими дескрипторами.
Тезаурус в печатной форме обычно включает две части:
• систематический указатель дескрипторов;
• алфавитный указатель.
Любая часть тезауруса есть перечень дескрипторных статей, упорядоченных в первом случае по тематическим группам и подгруппам, а во втором — в алфавитном порядке.
На рис. 1.17 приведено по две дескрипторные статьи из тезаурусов INIS и 1NSPEC (информационная служба по физике, электронике и кибернетике — (о)). Началом каждой статьи является заглавный дескриптор или запрещенный термин (начинается с «—»).
Рис. 1.17. Фрагменты тезаурусов: a- INIS; б- INSPEC
Дескрипторная статья начинается списком запрещенных понятий (связка «USE FOR» или «используемый вместо»), заменяемых при индексировании данным дескриптором. Далее, в ней содержатся сведения о связи заглавного с другими дескрипторами. В примерах на рис. 1.17 присутствуют следующие типы связей:
• вышестоящие термины (родовые — Broader Term) обозначены
ВТ1, ВТ2, ВТХ и т. д. Число X означает номер уровня иерархии. Последовательность ВТ1 — ВТ2 — ВТЗ... образует ветвь;
• нижестоящие термины (видовые — Narrower Term) обозначены NT1, NT и т. д., ветви и уровни определяются аналогично
с ВТ;
• ассоциативные термины (Related Term), имеющие иерархическую связь с заглавным дескриптором. Обозначены с RT;
• наивысший родовой термин (Top Term — ТТ) — в тезаурусе
INSPEC.
Правильная структура тезауруса должна удовлетворять следующим очевидным условиям:
• полнота — каждый термин, содержащийся в поле ВТХ, NTX,
RT, UF и т. д., обязательно должен быть или заглавным дескриптором какой-либо статьи, или запрещенным термином;
• корректность — если в дескрипторной статье термина А в качестве ВТ1 присутствует термин Вив этой же ветви в качестве ВТ2 присутствует С, то в дескрипторной статье В термин С
должен содержаться в качестве ВТ1. То же самое справедливо
для отношения NTX и RT.
При составлении тезаурусов иногда используют также отношения «часть—целое», «причина—целое», «объект—применение» и т. д., однако в большинстве случаев достаточно ограничиться указанными ВТ, RT, NT, сводя к ним остальные типы.
Информационные языки
К информационным языкам относят языки описания и манипулирования данными. Сравнительный анализ некоторых ЯМД и ЯОД для конкретных систем приведен в гл. 2, табл. 2.2.
Языки манипулирования данными. ЯМД состоит из двух основных разделов:
• поиск данных;
• отображение данных.
Поиск данных предполагает наличие критерия смыслового соответствия (КСС) или решающего правила, определяющих факт формальной релевантности поискового образа документа (ПОД) поисковому образу запроса (ПОЗ). В общем случае КСС является некоторым предикатом (условным высказыванием), область истинности которого есть множество выдаваемых документов. Эта концепция лежит в основе большинства языков запросов (ЯЗ), некоторые из которых рассмотрены ниже (STAIRS, ADABAS, FoxPro, Irbis).
Отображение данных предполагает наличие языковых или иных (например, табличных) средств описания форматов (видов, подсхем) представления сгенерированных системой данных пользователю.
ЯМД включают в себя: языки запросов (ЯЗ — преимущественно для фактографических АИС) и информационно-поисковые языки (ИПЯ — преимущественно для документальных АИС).
Языки запросов. Следует отметить, что в настоящее время фактическим стандартом ЯЗ является SQL (Structured Query Language), который, например, подробно описан в одной из книг данной серии [6], поэтому мы здесь на нем останавливаться не будем. Ниже, в гл. 2 вкратце рассматриваются форматы альтернативных языков — Natural и FoxPro.
Информационно-поисковые языки. ИПЯ включает в себя лексику — словарь единиц текста, используемых для индексирования, и грамматику — совокупность правил составления поисковых образов и уточнения смысла лексических единиц по контексту, позиции, квалификации.
В настоящее время в большинстве систем фактически используется упрощенная грамматика и ограниченная, но достаточно развитая лексика.
ПОД в типичной ИПС без грамматики есть неупорядоченный набор лексических единиц или же ограниченная совокупность именуемых неупорядоченных наборов (сегментов). Индексирование без грамматики разделяется на два типа:
• прекоординируемое;
• посткоординируемое.
К первому типу относятся уже упомянутые иерархические классификационные системы, такие, как УДК (см. рис. 1.17, 6), МКИ — (см. рис. 1.17, a), INIS и т. д. Предполагается, что такая система заранее содержит все классы, к которым может быть отнесен любой документ, закодированный соответствующим индексом, например 681.5 — автоматика, техническая кибернетика (см. рис. 1.17, б).
Ко второму типу относятся дескрипторные, координатные ИПЯ, позволяющие приписать каждому документу несколько дескрипторов, каждый из которых является именем широкого класса понятий, терминов и, следовательно, помечает множество, в которое данный документ входит. Необходимо заметить, что иерархические классификационные системы также в ограниченных масштабах используют дескрипторные принципы.
В основе дескрипторных ИПЯ находятся тезаурусы (рассмотренные выше). Очевидно, использование словосочетаний или составных дескрипторов в качестве лексических единиц компенсирует отсутствие грамматики в дескрипторном ИПЯ.
Ниже приводится пример распечатки диалогового поиска в файлах службы STN International, на котором хорошо видны форматы поиска и выдачи информации, типичные для различных ЯЗ/ИПЯ (рис. 1.18).
Языки описания данных. Выше уже отмечалось, что одной из первых попыток создания ЯОД был язык DL/1 (Data Language # 1) фирмы IBM. В настоящее время в связи с широким распространением уже упомянутого SQL, в котором предусмотрена компонента описания БД (см. гл. 2, табл. 2.2) стандартом ЯОД является данная компонента. Поскольку этих описательных возможностей, тем не менее, обычно оказывается недостаточно, и SQL не является единственным средством разработки АИС, существуют и другие подходы, которые обычно базируются на понятии словаря данных (файл
******************* *WELCOME TO STN
INTERNATIONAL* * ***************** =>FILE NTIS
FILE 'NTIS1 ENTERED AT 10:45:36 ON 16 SEP 2000
COPYRIGHT (c) 2000 NATIONAL TECHNICAL INFORMATION SERVICE (NTIS) FILE LAST UPDATED:04 SEP 2000 <20000904/UP> (=>S (FIBRE# OR FIBERS) (2A) OPTIC? 1159 FIBRE# 16323 FIBER# 47516 OPTIC?
LI 3947 (FIBRE* OR FIBER*)(2A) OPTIC? =>D 1-3 TI LI ANSWER 1 OF 3497
TI Untersuchungen zura Einsatz fon Uebergangsstrahlung zur
Teilcehidentification bie ZEUS. (Studies on the application of transition radiation for the particle identification at ZEUS). (Diss.(Dr.rer.nat.)) LI ANSWER 2 OF 3947
TI Optishe Sender und Sendemodule. Schlussbericht. (Optical transmitters and transmitter modules. Final report) LI ANSWER 3 OF 3947
TI Wellenlaengenmultiplexkomponenten. Schlussbericht. (Wavenlength multiplexing components. Final report) =>D 2 BIB A3 LI ANSWER 2 OF 3947
AN 92(18):2167 NTIS Order Number: TIB/A2000-91109/XAD
TI Optiche Sender und Sendermodule. Schlussbericht. (Optical transmitters and transmitter modules. Final report) AU Mettler, К.; Gier, J., Spaeth, W.
CS Siemens A.G., Munich (Germany, F.R.). Forscungslaboratorium; Bumdesministerium fuer Forschung und Technologie, Bonn, (Germany, F.R.). NC Contract: TK0191 S/l NR TIB/A92-81109/XAD 108 p. NTIS Prices: PC E07 Notes: With 41 refs., 6 tabs., 52 figs PD 1990
LA German CY Germany, Federal Repubic of OS GRA&I92818
AB The increasing importance of fiber-optic communication creates a growing demand for practical optical transmission equipment, especially for optoelectronic transmitter and receiver components. The main objective of this project was the development of optical transmitter devices for communication systems employing digital signals and transmission wavelength around 1300 nm....
(TIB: FR716. (Copyright (c) 2000 by FIZ Citation no. 2000:1109.) =>FILE INSPEC
FILE 'INSPEC ENTERED AT 10:50:52 ON 16 SEP 2000
COPYRIGHT (c) 2000 INSTITUTION OF ELECTRICAL ENGINEERS
FILE LAST UPDATED: 11 SEP 2000 <200011/UP>
=>S LI 37724 FIBRE*
23466 FIBER* 233687 OPTIC?
L2 26120 (FIBRE* OR FIBER*)(2A)OPTIC? =>D 1-3 TI
L2 ANSWER 1 OF 26120 TI Dynamics of thermal proceese in the drawing of quarzt optical fibers.
L2 ANSWER 2 OF 2 612 0
TI Fiber-optic ICs accelerate communication over data links.
L3 ANSWER 2 OF 2 612 0
TI A fiber optic gyro strapdown reference system for guided weapons.
=>FILE CIMPENDEX
FILE 'COMPENDEX' ENTERED AT 10:52:06 ON 16 SEP 2000
COPYRIGHT (c) 2000 ENGINEERING INFORMATION, INC.
FILE LAST UPDATESD:10 SEP 2000 <20000910/UP>
FOR CONFERENCE PAPERS SEE FILE MEET
= >S LI
7328 F13RE* 40417 FIBER* 90630 OPTIC?
L3 12735 (FIBRE* OR FIBER*)(2A) OPTIC? =>Dl-5 TI
L3 ANSWER 1 OF 12375
TI FIBER OPTIC AND LASER SENSORS IV L3 ANSWER 2 OF 12375
TI FEMTOSECOND PULSE PROPAGATION IN OPTICAL FIBERS:HIGHER ORDER EFFECTS. L3 ANSWER 3 OF 12375
TI FIBER-OPTICTRIGGERED HIGH-POWER LOW-PRESSURE GLOW DISCHARGE SWITCHES.
…
Рис. 1.18. Пример поиска в Базах данных STN International — NTIS и COMPENDEX:
команды пользователя и сообщения системы: S (search) — команда поиска; D (display) — команда выдачи результатов; L1 — множество (количество) найденных документов. Поля документов из баз данных: TL — заголовок; AN — номер документа в БД; AU — автор документа; CS — корпоративный автор (организация — источник документа); NC — регистрационный номер контракта; NR — регистрационный номер отчета; PD — дата публикации; LA — язык публикации; OS — связанные источники информации; АВ — реферат; CY — страна публикации; BIB - групповое поле, состоящее из AN, TI, AU, CS, NC, NR, PD, LA, CY, OS
или таблица БД), который содержит описания данных и типов их обработки.
В настоящем пособии приводится ряд примеров таких словарей:
• БД STAIRS (DBD, см. гл. 2);
• АИС ЮРИУС (IXDDM, см. гл. 4).
Поэтому мы здесь ограничимся примером описания полей БД INSPEC хост-системы Dialog (см. табл. 1.14).
В словаре данных администратором системы задается тип обработки каждого поля при загрузке БД: построчный (Phrase Indexing) или пословный (Word Indexing). В первом случае поле рассматривается как целое и полностью помещается в частотный словарь БД, во втором — осуществляются выделение отдельных слов (с использованием символов-разделителей и словарей запрещенных слов) и их загрузка в словари и индексы.
Дата добавления: 2015-07-20; просмотров: 111 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Типы коммуникативных форматов | | | Логическая структура БД |