Читайте также:
|
|
Коммуникативные форматы разделяются на следующие категории:
• форматы обмена библиографической информацией (МЕКОФ,
карточный формат и пр.);
• форматы обмена библиотечно-справочной информацией (семейство MARC);
• форматы обмена полнотекстовой документальной информацией (языки процедурной и описательной разметки документов,
средства моделирования документов) — RTF, ODA, SGML,
HTML.
Форматы первой группы удовлетворяют спецификациям ISO 2709 — рекомендациям Международной организации по стандартизации (ISO) и различаются наполнением и применением — МЕКОФ предназначен для распространения библиографических БД, а MARC — для онлайновых библиотечных каталогов (ОРАС).
Карточный формат (рис. 1.10) представляет каждый документ (запись) БД как совокупность строк с одинаковым номером (RN), в каждой из которых указана метка (три цифры), идентифицирующая поле или группу полей.
Рис. 1.10. Пример документа БД IN IS, представленного в карточном формате:
VI — вид документа; TI — заглавие; AU — автор; СО — корпоративный автор;
АВ — реферат; CL — рубрика INIS; CY — страна публикации
Формат МЕКОФ. Стандарт для коммуникативного формата МЕКОФ устанавливает структуру записи и ее наполнения для обмена библиографическими или другими данными на машиночитаемых носителях (рис. 1.11).
Содержание позиций | Позиции символов | Наполнение | |
Маркер | - | 0-4 5 6-9 10 11 12-16 17 18,19 | Длина записи Статус записи Коды применения Длина индикатора Длина идентификатора Базовый адрес данных Набор кодов Зарезервировано |
План справочника | 20 21 22 23 | Длина «длины поля данных» Длина «позиции начального символа» Длина «части, определяемой при применении» Зарезервировано | |
Справочник | Статья | - | Метка Длина поля данных Позиция начального символа Часть, определяемая при применении |
- | - | Статья Статья Разделитель поля | |
Поля данных | - | - | Идентификатор записи Разделитель поля записи |
Резервные поля | Резервное поле Разделитель поля Резервное поле Разделитель поля | ||
Библиографические поля | - | Данные Разделитель поля | |
- | - | Разделитель записи | |
- | - | Следующая запись |
Рис 1.11. Структура записи формата МЕКОФ
В отличие от карточного формата, для интерпретации которого необходимо описание данных в программе загрузки или в таблицах словаря данных, МЕКОФ содержит максимально полное описание в собственно записи. Оно находится в маркере записи и справочнике, причем маркер описывает справочник, а справочник — собственно данные, чем достигается высокая степень независимости данных от программ обработки.
Библиографическая запись — совокупность данных, включающая: маркер данных; справочник; поля данных; разделитель записи.
Маркер — структурный компонент, находящийся в начале каждой записи, содержащий параметры для ее обработки и состоящий из следующих компонентов: длина записи, статус записи, коды применения; длина идентификатора, длина индикатора (количество символов индикатора); базовый адрес данных, набор кодов, план справочника.
Справочник — указатель местонахождения полей данных в записи. Состоит из переменного числа статей, каждая из которых идентифицирует соответствующее поле данных и содержит следующие компоненты — метка; длина поля данных, позиция начального символа поля.
Поле данных (поле) — часть библиографической записи, имеющая переменную длину, следующая за справочником и связанная с одной из его статей; может содержать одно или несколько подполей и должно заканчиваться разделителем.
План справочника — набор параметров, определяющих структуру статей справочника.
Идентификатор — элемент, состоящий из одного или нескольких символов, непосредственно предшествующий подполю и идентифицирующий его.
Индикатор — элемент, расположенный в начале поля и несущий дополнительную информацию о содержании поля, взаимосвязи с другими полями или об операциях, требуемых при определенной обработке данных.
Метка — три символа, связанные с полем и идентифицирующие его.
Разделитель — управляющий символ, разделяющий данные.
Форматы серии MARC имеют иерархическую структуру, которая поддерживает отношения между компонентами внутри записи и позволяет комбинировать связанные записи.
Аналогичное назначение и структуру имеет Единый Коммуникативный Формат (CCF) ЮНЕСКО, содержащий три компонента:
• правила структуризации среды хранения (включая физические
размеры элементов среды — длина блоков и т. п.);
• идентификационные коды элементов данных (поля, подполя,
метки, разделители);
• правила представления содержимого элементов данных (словари и алгоритмы индексирования и кодирования информации).
Форматы полнотекстовых документов. Понятие модель документа охватывает аспекты создания, преобразования, хранения, поиска, передачи и отображения документов. Принято рассматривать структуру документа в двух аспектах: логическом (содержание) и физическом (макетном) — представление [30].
Логическая структура определяет составные компоненты и их соотношения в понятиях, отвечающих взгляду на документы как смысловые структуры. Например, к основным смысловым компонентам относятся: авторские данные (имя автора, место работы), аннотация, оглавление, главы, разделы, параграфы, рисунки, сноски.
На рис. 1.12 приведен пример структуры документа «Пояснительная записка к дипломному проекту (работе)». Здесь выделены такие базовые понятия структуры, как обязательность/необязательность элемента, уникальность или повторяемость, вхождение нижестоящих элементов в вышестоящие по принципу «И» (оба типа данных должны или могут входить в элемент) либо «ИЛИ» (только какой-либо один из типов данных может или должен входить в элемент).
Макетная структура содержит описание документа в терминах физических единиц — страниц, полос, колонок, колонтитулов, рамок для рисунков, шрифтов, стилей и пр.
Подходы к моделированию документов опираются на два стандарта:
• ISO 8613 (О DA Office Document Architecture — архитектура
управленческой документации);
• ISO 8879 (SGML — Standard Generalized Markup Language —
стандартный обобщенный язык разметки).
Рис. 1.12. Иерархическая структура документа «Пояснительная записка к дипломной работе»:
# — уникальный элемент; * — повторяющийся элемент;? — необязательный элемент;! — обязательный элемент; & — вхождение типа И; | — вхождение типа ИЛИ
Документ в ODA представлен в виде профиля и собственно документа, организованных в форме древовидной структуры.
Профиль содержит информацию о документе в целом и его прохождении, формальные признаки — дата составления, вид, регистрационный номер и т. д.
Собственно документ содержит текст и сведения о его структуре и стиле, а именно:
• структура документа — заглавие, параграфы, оглавление
и т. п. (логическая структура), а также абзацы, расположение
текста, шрифты (физическая структура);
• архитектура содержания — набор графических элементов, вы
деление определенных слов, строк и т. п.;
• коммуникативный формат — способы кодирования объектов,
признаков и содержания документов.
Язык SGML разработан на базе программного продукта DCF GML фирмы IBM и представляет собой метод создания структурированных документов, а также языков для их разметки.
В системах обработки текстов в документ включается дополнительная информация, называемая разметкой и выполняющая следующие функции:
• выделение логических элементов данного документа;
• задание функций обработки выделенных элементов,
В обычных текстовых процессорах существуют встроенные команды включения/выключения шрифтов и другие, аналогичные командам управления размещением информации на экране или при печати (Escape-последовательности). Такой подход называется командной или процедурной разметкой (табл. 1.13).
Таблица 1.13. Примеры разметки текстовых файлов (управление представлением) |
Примечание. Аналогично могут быть рассмотрены — управление размером и формой шрифта, вставка математических символов и пр.
Альтернативный способ разметки заключается в выделении части текста без указания способа обработки, который затем назначают другие команды. Такая разметка называется описательной (дескриптивной). Она включает метки (tags, тэги) начала и окончания элемента текста и указывает, как интерпретировать данный фрагмент. Изменяя набор процедур, сопоставленный описательной разметке, можно изменить внешнее представление одного и того же документа. Развитие идей описательной разметки привело к определению разметки как формального языка, что позволяет проверить правильность разметки и минимизировать разметки за счет подстановки умолчаний.
В языке SGML каждый документ включает:
• декларации языка SGML, привязывающие к определенным
значениям параметры обработки, а также имена синтаксиса;
• пролог, состоящий из деклараций о типе документа. Они определяют типы элементов, их взаимосвязи и атрибуты, а также
условные обозначения, которые могут быть задействованы
при разметке;
• данные, которые состоят из разметки документа и собственно информации.
Основные типы конструкций языка — описания элементов <!ELEMENT...>, объектов <!ENTITY...> и атрибутов <!ATTRIBUTE LIST...>, образующих структуру документа (документов), при этом элемент является основной его компонентой, объект — группа, род элементов, атрибут — характеристика элемента. Все «квадратики», приведенные на рис. 1.13, являются элементами. Запишем одну из возможных конструкций, соответствующую выделенной на рис. 1.13 цепочке элементов («Подраздел» — «параграф» — «текст»...):
<!ELEMENT SUBDIV (PAR*)> подраздел состоит из
параграфов (повт.)
<!ELEMENT PAR (TEXT | TABLE? | PICT?)> параграф - из текста или
таблицы (необяз.) или рисунка (необяз.);
<!ELEMENT PICT(IMAGE & САРТ)> рисунок - из изображения и подписи
Декларации и пролог на языке SGML задают структуру документа и, будучи отделенными от размеченного текста, образуют описание типа документа (DTD — Document Type Definition). На сегодня известно более 5000 DTD, соответствующих различным национальным и международным стандартам, из которых наиболее важным является HTML.
Дата добавления: 2015-07-20; просмотров: 446 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Проблема обмена информацией и коммуникативные (обменные) форматы | | | Лексическое обеспечение |