Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Лексическое обеспечение

Технологии распознавания изображений | Предметные технологии | Компоненты и структуры АИС | Классификация АИС | Типы баз данных | Международная система по атомной науке и технике INIS | Техническое обеспечение АИС | Программное обеспечение | Типы, структуры, форматы данных и документов в информационных системах | Проблема обмена информацией и коммуникативные (обменные) форматы |


Читайте также:
  1. Hardware – аппаратное обеспечение
  2. III. ОБЕСПЕЧЕНИЕ БЕЗОПАСНОСТИ УЧАСТНИКОВ И ЗРИТЕЛЕЙ
  3. III. РЕСУРСНОЕ ОБЕСПЕЧЕНИЕ ОРГАНИЗАЦИЙ ТОРГОВЛИ
  4. IV. УЧЕБНО-МЕТОДИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ПРИМЕРНОЙ ПРОГРАММЫ
  5. V. Учебно-материальное обеспечение
  6. VI. Учебно-методическое обеспечение дисциплины
  7. VIII. Материально-техническое обеспечение дисциплины

К данной компоненте лингвистического обеспечения в первую очередь относятся кодификаторы, классификаторы, тезаурусы.

Кодификаторы АИС представляют собой словари, не обязатель­но несущие семантическое соответствие между обозначаемым (класс, понятие, сущность) и обозначающим (код, символ). Напри­мер, в персональной БД атрибут SEX (Пол) может обозначаться либо М/Ж, либо 1/0 или 0/1, либо еще как-то в рамках двухсимвольного алфавита (домена). Это соответствие необязательно и мо­жет произвольно выбираться разработчиками различных систем. Основанием для использования кодификаторов (впрочем, как и дру­гих типов нормативных словарей) являются: экономия времени для заполнения форм и ввода документов; минимизация ошибок; эко­номия памяти.

Классификаторы АИС являются словарями, обязательно несу­щими определенную смысловую нагрузку. Они подразумевают ие­рархическое разбиение предметной области на совокупность сужаю­щихся классов и последующее отнесение обозначаемого объекта ре­ального мира (документ, продукт и пр.) к одному из классов (индексирование).

Иерархические классификаторы могут быть разделены на два типа:

• с фиксированным числом уровней;

• с неопределенным числом уровней.

Ниже приведены примеры некоторых классификаторов фикси­рованной глубины (числа уровней иерархии), используемых как в фактографических, так и в документальных АИС, а именно:

• гармонизированной системы (рис. 1.13);

• классификатор службы INIS (рис. 1.14);

• ОКП (рис. 1.15).

• международная классификация изобретений (рис. 1.16, а).

Рис 1.13. Фрагмент «Гармонизированной системы для товарной номенклатуры внешнеэкономической деятельности (Harmonized Commodity System)»

Универсальная десятичная классификация (УДК) (рис. 1.16, б), представляет собой пример классификатора с переменной (неопре­деленной) глубиной.

А00 - PHYSICAL SCIENCES.

А10 - GENERAL PHYSICS.

A11 - Theoretical Physics.

A12 - Atomic and Molecular Physics.

A13 - Solid States and Fluid Physics.

A14 - Plasma Physics and Thermonuclear Reactions.

A15 - Astrophysics and Cosmology, Cosmic Radiation.

A20 - HIGH ENERGY PHYSICS.

A21 - Elementary Particles (Theory).

A22 - Elementary Particles (Experimental).

BOO - CHEMISTRY, MATERIALS AND EARTH SCIENCES. B10-CHEMISTRY

B11 - Chemical & Isotopic Analysis.

B12 - Inorganic, Organic & Physical Chemistry.

B13 - Radiochemistry and Nuclear Chemistry.

B20 - MATERIALS

B21 - Metals and alloys (Production and Fabrication).

B22 - Metals and Alloys (Physical Properties and Structure).

B23 - Ceramics and Cermets.

B25 - Radiation Effects on Physical Properties of Materials.

F00 - OTHER ASPECTS OF NUCLEAR ENERGY. F10- ECONOMICS.

F11 - Nuclear Power Economics. F12 - Reactor Fuel Economics.

F30 - NUCLEAR DOCUMENTATION.

F31 - Data Handling.

F32 - Literature Handling. F40 - SAFEGUARD AND INSPECTION.

F41 - Technical Aspects.

F42 - Non-Technical Aspects.

Рис. 1.14. Фрагменты классификатора INIS (трехуровневая иерархическая классификационная система)


Рис. 1.15. Фрагмент «Общероссийского классификатора продукции (ОКП)»

Н-электричество (раздел) 6-прикладная наука,

Н05-Специальные области медицина, техника

электротехники (класс)

Н05-плазменная техника (подкласс) 681-точная механика

681.1-

Н05Р1-00-получение плазмы (группа)

Н05Н1-02-устройства для удержания 681.5-автоматика, техническая кибернетика

плазмы (подгруппа) 681.51-системы автоматизированного
Н05Н1-04—"— с использованием управления

магнитных полей (подгруппа)

Н05Н1-06 - устройства для сжатия 681.514 стохастические САУ

канала плазмы (подгруппа) 681.518— информационные системы
Н05К-печатные схемы (подкласс)

а) б)

Рис. 1.16. Примеры иерархических классификаторов: а- МКИ; б- УДК

 

Тезаурусы АИС. Тезаурус (Thesaurus) представляет собой толко­вый дескрипторный словарь, в котором значение каждой стандартной лексической единицы (дескриптора — слова или словосочетания) интерпретируется через связи с другими дескрипторами.

Тезаурус в печатной форме обычно включает две части:

• систематический указатель дескрипторов;

• алфавитный указатель.

Любая часть тезауруса есть перечень дескрипторных статей, упорядоченных в первом случае по тематическим группам и под­группам, а во втором — в алфавитном порядке.

На рис. 1.17 приведено по две дескрипторные статьи из тезауру­сов INIS и 1NSPEC (информационная служба по физике, электро­нике и кибернетике — (о)). Началом каждой статьи является заглав­ный дескриптор или запрещенный термин (начинается с «—»).

 

Рис. 1.17. Фрагменты тезаурусов: a- INIS; б- INSPEC

Дескрипторная статья начинается списком запрещенных поня­тий (связка «USE FOR» или «используемый вместо»), заменяемых при индексировании данным дескриптором. Далее, в ней содержат­ся сведения о связи заглавного с другими дескрипторами. В приме­рах на рис. 1.17 присутствуют следующие типы связей:

• вышестоящие термины (родовые — Broader Term) обозначены
ВТ1, ВТ2, ВТХ и т. д. Число X означает номер уровня иерар­хии. Последовательность ВТ1 — ВТ2 — ВТЗ... образует ветвь;

• нижестоящие термины (видовые — Narrower Term) обозначены NT1, NT и т. д., ветви и уровни определяются аналогично
с ВТ;

• ассоциативные термины (Related Term), имеющие иерархическую связь с заглавным дескриптором. Обозначены с RT;

• наивысший родовой термин (Top Term — ТТ) — в тезаурусе

INSPEC.

Правильная структура тезауруса должна удовлетворять следую­щим очевидным условиям:

• полнота — каждый термин, содержащийся в поле ВТХ, NTX,
RT, UF и т. д., обязательно должен быть или заглавным дескриптором какой-либо статьи, или запрещенным термином;


• корректность — если в дескрипторной статье термина А в качестве ВТ1 присутствует термин Вив этой же ветви в качест­ве ВТ2 присутствует С, то в дескрипторной статье В термин С
должен содержаться в качестве ВТ1. То же самое справедливо
для отношения NTX и RT.

При составлении тезаурусов иногда используют также отноше­ния «часть—целое», «причина—целое», «объект—применение» и т. д., однако в большинстве случаев достаточно ограничиться ука­занными ВТ, RT, NT, сводя к ним остальные типы.

Информационные языки

К информационным языкам относят языки описания и манипули­рования данными. Сравнительный анализ некоторых ЯМД и ЯОД для конкретных систем приведен в гл. 2, табл. 2.2.

Языки манипулирования данными. ЯМД состоит из двух основ­ных разделов:

• поиск данных;

• отображение данных.

Поиск данных предполагает наличие критерия смыслового соот­ветствия (КСС) или решающего правила, определяющих факт фор­мальной релевантности поискового образа документа (ПОД) поис­ковому образу запроса (ПОЗ). В общем случае КСС является неко­торым предикатом (условным высказыванием), область истинности которого есть множество выдаваемых документов. Эта концепция лежит в основе большинства языков запросов (ЯЗ), некоторые из которых рассмотрены ниже (STAIRS, ADABAS, FoxPro, Irbis).

Отображение данных предполагает наличие языковых или иных (например, табличных) средств описания форматов (видов, подсхем) представления сгенерированных системой данных поль­зователю.

ЯМД включают в себя: языки запросов (ЯЗ — преимущественно для фактографических АИС) и информационно-поисковые языки (ИПЯ — преимущественно для документальных АИС).

Языки запросов. Следует отметить, что в настоящее время факти­ческим стандартом ЯЗ является SQL (Structured Query Language), который, например, подробно описан в одной из книг данной се­рии [6], поэтому мы здесь на нем останавливаться не будем. Ниже, в гл. 2 вкратце рассматриваются форматы альтернативных языков — Natural и FoxPro.

Информационно-поисковые языки. ИПЯ включает в себя лекси­ку — словарь единиц текста, используемых для индексирования, и грамматику — совокупность правил составления поисковых образов и уточнения смысла лексических единиц по контексту, позиции, квалификации.

В настоящее время в большинстве систем фактически использу­ется упрощенная грамматика и ограниченная, но достаточно разви­тая лексика.

ПОД в типичной ИПС без грамматики есть неупорядоченный набор лексических единиц или же ограниченная совокупность име­нуемых неупорядоченных наборов (сегментов). Индексирование без грамматики разделяется на два типа:

• прекоординируемое;

• посткоординируемое.

К первому типу относятся уже упомянутые иерархические клас­сификационные системы, такие, как УДК (см. рис. 1.17, 6), МКИ — (см. рис. 1.17, a), INIS и т. д. Предполагается, что такая система за­ранее содержит все классы, к которым может быть отнесен любой документ, закодированный соответствующим индексом, например 681.5 — автоматика, техническая кибернетика (см. рис. 1.17, б).

Ко второму типу относятся дескрипторные, координатные ИПЯ, позволяющие приписать каждому документу несколько деск­рипторов, каждый из которых является именем широкого класса понятий, терминов и, следовательно, помечает множество, в кото­рое данный документ входит. Необходимо заметить, что иерархиче­ские классификационные системы также в ограниченных масшта­бах используют дескрипторные принципы.

В основе дескрипторных ИПЯ находятся тезаурусы (рассмот­ренные выше). Очевидно, использование словосочетаний или со­ставных дескрипторов в качестве лексических единиц компенсирует отсутствие грамматики в дескрипторном ИПЯ.

Ниже приводится пример распечатки диалогового поиска в файлах службы STN International, на котором хорошо видны фор­маты поиска и выдачи информации, типичные для различных ЯЗ/ИПЯ (рис. 1.18).

Языки описания данных. Выше уже отмечалось, что одной из первых попыток создания ЯОД был язык DL/1 (Data Language # 1) фирмы IBM. В настоящее время в связи с широким распростране­нием уже упомянутого SQL, в котором предусмотрена компонента описания БД (см. гл. 2, табл. 2.2) стандартом ЯОД является данная компонента. Поскольку этих описательных возможностей, тем не менее, обычно оказывается недостаточно, и SQL не является един­ственным средством разработки АИС, существуют и другие подхо­ды, которые обычно базируются на понятии словаря данных (файл

******************* *WELCOME TO STN

INTERNATIONAL* * ***************** =>FILE NTIS

FILE 'NTIS1 ENTERED AT 10:45:36 ON 16 SEP 2000

COPYRIGHT (c) 2000 NATIONAL TECHNICAL INFORMATION SERVICE (NTIS) FILE LAST UPDATED:04 SEP 2000 <20000904/UP> (=>S (FIBRE# OR FIBERS) (2A) OPTIC? 1159 FIBRE# 16323 FIBER# 47516 OPTIC?

LI 3947 (FIBRE* OR FIBER*)(2A) OPTIC? =>D 1-3 TI LI ANSWER 1 OF 3497

TI Untersuchungen zura Einsatz fon Uebergangsstrahlung zur

Teilcehidentification bie ZEUS. (Studies on the application of transition radiation for the particle identification at ZEUS). (Diss.(Dr.rer.nat.)) LI ANSWER 2 OF 3947

TI Optishe Sender und Sendemodule. Schlussbericht. (Optical transmitters and transmitter modules. Final report) LI ANSWER 3 OF 3947

TI Wellenlaengenmultiplexkomponenten. Schlussbericht. (Wavenlength multiplexing components. Final report) =>D 2 BIB A3 LI ANSWER 2 OF 3947

AN 92(18):2167 NTIS Order Number: TIB/A2000-91109/XAD

TI Optiche Sender und Sendermodule. Schlussbericht. (Optical transmitters and transmitter modules. Final report) AU Mettler, К.; Gier, J., Spaeth, W.

CS Siemens A.G., Munich (Germany, F.R.). Forscungslaboratorium; Bumdesministerium fuer Forschung und Technologie, Bonn, (Germany, F.R.). NC Contract: TK0191 S/l NR TIB/A92-81109/XAD 108 p. NTIS Prices: PC E07 Notes: With 41 refs., 6 tabs., 52 figs PD 1990

LA German CY Germany, Federal Repubic of OS GRA&I92818

AB The increasing importance of fiber-optic communication creates a growing demand for practical optical transmission equipment, especially for optoelectronic transmitter and receiver components. The main objective of this project was the development of optical transmitter devices for communication systems employing digital signals and transmission wavelength around 1300 nm....

(TIB: FR716. (Copyright (c) 2000 by FIZ Citation no. 2000:1109.) =>FILE INSPEC

FILE 'INSPEC ENTERED AT 10:50:52 ON 16 SEP 2000
COPYRIGHT (c) 2000 INSTITUTION OF ELECTRICAL ENGINEERS
FILE LAST UPDATED: 11 SEP 2000 <200011/UP>
=>S LI 37724 FIBRE*

23466 FIBER* 233687 OPTIC?

L2 26120 (FIBRE* OR FIBER*)(2A)OPTIC? =>D 1-3 TI

L2 ANSWER 1 OF 26120 TI Dynamics of thermal proceese in the drawing of quarzt optical fibers.

L2 ANSWER 2 OF 2 612 0

TI Fiber-optic ICs accelerate communication over data links.

L3 ANSWER 2 OF 2 612 0

TI A fiber optic gyro strapdown reference system for guided weapons.

=>FILE CIMPENDEX

FILE 'COMPENDEX' ENTERED AT 10:52:06 ON 16 SEP 2000

COPYRIGHT (c) 2000 ENGINEERING INFORMATION, INC.

FILE LAST UPDATESD:10 SEP 2000 <20000910/UP>

FOR CONFERENCE PAPERS SEE FILE MEET

= >S LI

7328 F13RE* 40417 FIBER* 90630 OPTIC?

L3 12735 (FIBRE* OR FIBER*)(2A) OPTIC? =>Dl-5 TI

L3 ANSWER 1 OF 12375

TI FIBER OPTIC AND LASER SENSORS IV L3 ANSWER 2 OF 12375

TI FEMTOSECOND PULSE PROPAGATION IN OPTICAL FIBERS:HIGHER ORDER EFFECTS. L3 ANSWER 3 OF 12375

TI FIBER-OPTICTRIGGERED HIGH-POWER LOW-PRESSURE GLOW DISCHARGE SWITCHES.

Рис. 1.18. Пример поиска в Базах данных STN International — NTIS и COMPENDEX:

команды пользователя и сообщения системы: S (search) — команда поиска; D (display) — команда выдачи результатов; L1 — множество (количество) найден­ных документов. Поля документов из баз данных: TL — заголовок; AN — номер до­кумента в БД; AU — автор документа; CS — корпоративный автор (организация — источник документа); NC — регистрационный номер контракта; NR — регистра­ционный номер отчета; PD — дата публикации; LA — язык публикации; OS — связанные источники информации; АВ — реферат; CY — страна публикации; BIB - групповое поле, состоящее из AN, TI, AU, CS, NC, NR, PD, LA, CY, OS

или таблица БД), который содержит описания данных и типов их обработки.

В настоящем пособии приводится ряд примеров таких словарей:

• БД STAIRS (DBD, см. гл. 2);

• АИС ЮРИУС (IXDDM, см. гл. 4).

Поэтому мы здесь ограничимся примером описания полей БД INSPEC хост-системы Dialog (см. табл. 1.14).

В словаре данных администратором системы задается тип обра­ботки каждого поля при загрузке БД: построчный (Phrase Indexing) или пословный (Word Indexing). В первом случае поле рассматривает­ся как целое и полностью помещается в частотный словарь БД, во втором — осуществляются выделение отдельных слов (с использова­нием символов-разделителей и словарей запрещенных слов) и их загрузка в словари и индексы.


Дата добавления: 2015-07-20; просмотров: 111 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
Типы коммуникативных форматов| Логическая структура БД

mybiblioteka.su - 2015-2024 год. (0.016 сек.)