Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Типы, структуры, форматы данных и документов в информационных системах

Работа с текстовой информацией | Работа с графической информацией | Табличная информация и ее обработка | Технологии распознавания изображений | Предметные технологии | Компоненты и структуры АИС | Классификация АИС | Типы баз данных | Международная система по атомной науке и технике INIS | Техническое обеспечение АИС |


Читайте также:
  1. II. После выполнения данных упражнений составляется список целей.
  2. II. Стереотипы, связанные с приемными детьми и замещающими семьями
  3. III. Стереотипы, связанные с организацией работы по семейному устройству детей
  4. VI Ответственность сторон, регулирующих отношения на основе данных Правил
  5. Аварии в коммунальных системах жизнеобеспечения
  6. Анализ данных для отбора подходящих скважин
  7. АНАЛИЗ ДОКУМЕНТОВ

Типы данных — это совокупность соглашений о программно-ап­паратурной форме представления и обработки, а также ввода, кон­троля и вывода элементарных данных.

Структуры данных — способы композиции простых данных в агрегаты и операции над ними.

Форматы файлов — представление информации на уровне взаи­модействия операционной системы с прикладными программами.

Форматы данных — соглашения о представлении агрегатов ин­формации при передаче (поэтому часто говорят о коммуникативных или обменных форматах), в том числе:

• библиотечных и справочных БД;

• полнотекстовых документов.

Типы данных (табл. 1.11). Ранние ЯП, а точнее, системы про­граммирования (СП) — Фортран, Алгол, будучи ориентированными исключительно на вычисления, не поддерживали развитых систем типов и структур данных.

Таблица 1.11. Типы и структуры данных в некоторых системах программирования и управления данными

 

 

В Алголе символьные величины и переменные вообще не пре­дусматривались, в некоторых реализациях строки (символы в апост­рофах) могли встречаться только в операторах печати данных.

Типы числовых данных Алгола: INTEGER (целое число), REAL (действительное) — различаются диапазонами изменения, внутрен­ними представлениями и применяемыми командами процессора ЭВМ (соответственно арифметика с фиксированной и плавающей точкой). Нечисловые данные представлены типом BOOLEAN — ло­гические, имеющие диапазон значений {TRUE, FALSE}.

Позже появившиеся ЯП (СП) Кобол, ПЛ/1, Паскаль предусмат­ривают новые типы данных:

• символьные (цифры, буквы, знаки препинания и пр.);

• числовые символьные для вывода;

• числовые двоичные для вычислений;

• числовые десятичные (цифры 0—9) для вывода и вычислений.

Разновидности числовых данных здесь соответствуют внутрен­нему представлению и машинным (или эмулируемым) командам обработки. Кроме того, вводятся числа двойного формата (два ма­шинных слова), для обработки которых также необходимо наличие в процессоре (или эмуляция) команд обработки чисел двойной дли­ны (точности).

Уместно привести пример представления числовой информации в различных перечисленных формах. Пусть задано число 13510 = 2078 = 8716 = 1000001112:

• внутренняя стандартная форма — тип BINARY — представления для обработки в двоичной арифметике сохраняется
(1000001112). Объем — 1 байт, 8 двоичных разрядов;

• внутренняя форма двоично-десятичного — тип DECIMAL —
представления — каждый разряд десятичного числа представляется двоично-десятичной (4 бита) комбинацией. Представление 135 есть 0010111012. Объем — 2,5 байта, 12 двоичных
разрядов;

• символьное представление (для вывода) — тип
ALPHABETIC — каждый разряд представляется байтом в соответствии с кодом ASCII.

00110001 00110011 001101012. Объ-

Представление 135 есть ем — 3 байта.

Некоторые системы программирования (Фортран IV, напри­мер), поддерживают операции над комплексными числами вида Z- А + Bi (где Л, В — действительные коэффициенты, а / — мнимая единица). Очевидно, для размещения таких чисел необходим как минимум двойной расход оперативной памяти (по одному слову для размещения действительной и мнимой частей при обычной и по два слова при двойной точности). Кроме того, очевидно, что процессо­ры обычных универсальных ЭВМ вряд ли поддерживают операции над такими числами, в связи с чем операции над ними требуют на­писания соответствующих подпрограмм или эмуляции комплексной арифметики.

Появление СУБД и СП для разработки ИС приводит к появле­нию новых типов данных:

дата и время;

бинарные (BLOB — Binary Large Object) и текстовые объекты
без внутренней структуры (интерпретация возлагается на при­кладные программы).

Понятие типа данных ассоциируется также с допустимыми зна­чениями переменной и операциями над ними, например, данные типа время (ЧЧ:ММ:СС) или дата (ГГ/ММ/ДД) предполагают оп­ределенные диапазоны значений каждого из разрядов, а также ма­шинные или эмулируемые операции (сложение/вычитание дат и/или моментов времени). Основной причиной «проблемы 2000 г.» являлось не столько двухразрядная запись года в базах данных, сколько встроенные в огромное количество программ (часто не до­кументированных) операции над данными типа DATE — ГГ/ММ/ДД.

Структуры данных. В языке Алгол определены два типа структур: элементарные данные и массивы (векторы, матрицы, тензоры, со­стоящие из арифметических или логических переменных). Основ­ным нововведением, появившимся первоначально в Коболе, (затем ПЛ/1, Паскаль и пр.) являются агрегаты данных (структуры, запи­си), представляющие собой именованные комплексы переменных разного типа, описывающих некоторый объект или образующих не­который достаточно сложный документ.

Рассмотренные выше экзотические типы данных (комплексные числа) очевидно занимают промежуточное положение между эле­ментарными переменными и массивами (структурами).

Термин запись подразумевает наличие множества аналогичных по структуре агрегатов, образующих файл (картотеку), содержащих данные по совокупности однородных объектов, элементы данных образуют поля, среди которых выделяются элементарные и группо­вые (агрегатные).

С появлением СУБД и АИПС возникают новые разновидности структур:

• множественные поля данных;

• периодические групповые поля;

Таблица 1.12. Основные типы файлов, обрабатываемых в ПЭВМ

Тип, расширение имени Вид информации, содержащейся в файле
exe, com Программа, готовая к исполнению
bat Текстовый командный файл
sys Системный файл
ovl, ovr Оверлейный файл
pit Программно-информационный файл Windows
txt, 1st Текстовый файл в формате DOS
doc Документ (чаще всего в формате WinWord)
rtf Размеченный текстовый файл (Rich Text Format)
dot Файл формата документа (Document Type)
pdf Формат документа Adobe Acrobat
wri Документ редактора Write для Windows
wps Документ текстового процессора MS WORKS
bak, old Старая копия файла, создаваемая перед его изменением
arj, rar, zip, Izh, arc Архивные файлы
bas Текст программы на языке Basic
pas Текст программы на языке Turbo Pascal
с Текст программы на ЯП Си
bmp, pcx, gtf, tit, jpg Графические файлы
dbf Файлы базы данных формата DBase, FoxPro, Cliper
wdb Базы данных формата MS WORKS
wks Электронная таблица формата MS WORKS
xls Электронные таблицы EXCEL
lib, dll Файлы библиотек
dat Файл данных
ini Файл инициализации
hip Файл справки (подсказки, помощи)
ext Файл расширений
mnu Файл меню
wav, mid, mp3, mod Звуковые файлы
avi, mov, mpg Файлы видеоклипов

 

• текстовые объекты (документы), имеющие иерархическую
структуру (документ, сегмент, предложение, слово).

В ранее рассмотренных БД — INIS, TNT, CHEMNAME, D&B (см. рис. 1.4—1.7) — легко могут быть идентифицированы следую­щие виды полей данных:

• элементарные: RN, YEAR, VVSS (INIS); DK GI (TNT)- AA
NA, RN (CHEMNAME); EH, SQ (D&B);

• периодические группы: [PO, NA], [SA, ET] (D&B);

• текстовые поля: ABSTR, DESCR, TITLE (INISV TX RF
(CHEMNAME), TX (TNT);

• числовые поля: SQ, SA, ET, EN (D&B);

• символьные поля, которые составляют большинство в приведенных примерах БД.

Форматы файлов. Понятие файла появляется впервые в опера­ционной системе OS/360 фирмы IBM, причем в ранних версиях системы «настоящим файлом» считался только перфокарточный массив (file = картотека), данные на МД и МЛ обозначались как DS (Data Set — набор данных). В последующих ОС (RSX, UNIX, MS DOS) файлами становятся именованные организованные наборы данных на любых носителях и устройствах, за сохранность и обновляемость которых (а также передачу в прикладные программы и об­ратно) несет ответственность ОС ЭВМ.

В зависимости от типа и назначения файлов и возможностей ОС (методов доступа) файл может передаваться в прикладную про­грамму как целое или блоками (физическими записями) и логиче­скими записями (строками, словами, символами).

В системе OS/360 основную роль играли два типа файлов:

• символьные (исходные программы или данные);

• двоичные (программы в машинных кодах).

В современных системах активно используется значительно большее разнообразие файлов, из которых мы перечислим наиболее типичные (табл. 1.12):

текстовые файлы — обобщенное название для простых и раз­меченных текстов, ASCII-файлов и других наборов данных
символьной информации, которые интерпретируются и обрабатываются текстовыми редакторами, процессорами, анализа­
торами (Lexicon, Word, TEC, анализаторы SGML, HTML);

текст без разметки (планарный) — файл, содержащий только
отображаемые (воспроизводимые на всех печатающих устройствах и терминалах) символы кода ASCII, а также простейшие
управляющие символы — CR — возврат каретки; LF — перевод строки; TAB — символ табуляции, иногда LF — новая страница;

текст с разметкой — планарный файл, содержащий бинарную
(см. табл. 1.12, колонки 1, 2) или символьную (остальные колонки) разметку, управляющую отображением информации
(программно и/или аппаратурно);

ASCII-файл — содержит только отображаемые коды левой части кодовой таблицы ASCII (латиница и служебные символы),
обычно применяется для хранения документов с символьной
разметкой (RTF, SGML, HTML);

табличный файл — содержит форматированные данные (сим­
вольные, численные и др.), образующие строки и столбцы таб­лиц, создаваемых и обрабатываемых табличными СУБД
(FoxPro, Clipper, MS Access), и/или процессорами (SuperCalc,
MS Excel и др.);

графический файл — бинарный файл, содержащий графическую информацию. Форматы: tif (Tagged Image File), bmp
(Bit-Mapped Picture), а также ряд других — pcx, pic и т. д.;

мультимедиа файл — бинарный, содержащий оцифрованную
аудио- (типы wav или MIDI-Sequencer) видео- (формат
MPEG) или смешанную информацию.


Дата добавления: 2015-07-20; просмотров: 806 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
Программное обеспечение| Проблема обмена информацией и коммуникативные (обменные) форматы

mybiblioteka.su - 2015-2024 год. (0.01 сек.)