Читайте также:
|
|
Типы данных — это совокупность соглашений о программно-аппаратурной форме представления и обработки, а также ввода, контроля и вывода элементарных данных.
Структуры данных — способы композиции простых данных в агрегаты и операции над ними.
Форматы файлов — представление информации на уровне взаимодействия операционной системы с прикладными программами.
Форматы данных — соглашения о представлении агрегатов информации при передаче (поэтому часто говорят о коммуникативных или обменных форматах), в том числе:
• библиотечных и справочных БД;
• полнотекстовых документов.
Типы данных (табл. 1.11). Ранние ЯП, а точнее, системы программирования (СП) — Фортран, Алгол, будучи ориентированными исключительно на вычисления, не поддерживали развитых систем типов и структур данных.
Таблица 1.11. Типы и структуры данных в некоторых системах программирования и управления данными
В Алголе символьные величины и переменные вообще не предусматривались, в некоторых реализациях строки (символы в апострофах) могли встречаться только в операторах печати данных.
Типы числовых данных Алгола: INTEGER (целое число), REAL (действительное) — различаются диапазонами изменения, внутренними представлениями и применяемыми командами процессора ЭВМ (соответственно арифметика с фиксированной и плавающей точкой). Нечисловые данные представлены типом BOOLEAN — логические, имеющие диапазон значений {TRUE, FALSE}.
Позже появившиеся ЯП (СП) Кобол, ПЛ/1, Паскаль предусматривают новые типы данных:
• символьные (цифры, буквы, знаки препинания и пр.);
• числовые символьные для вывода;
• числовые двоичные для вычислений;
• числовые десятичные (цифры 0—9) для вывода и вычислений.
Разновидности числовых данных здесь соответствуют внутреннему представлению и машинным (или эмулируемым) командам обработки. Кроме того, вводятся числа двойного формата (два машинных слова), для обработки которых также необходимо наличие в процессоре (или эмуляция) команд обработки чисел двойной длины (точности).
Уместно привести пример представления числовой информации в различных перечисленных формах. Пусть задано число 13510 = 2078 = 8716 = 1000001112:
• внутренняя стандартная форма — тип BINARY — представления для обработки в двоичной арифметике сохраняется
(1000001112). Объем — 1 байт, 8 двоичных разрядов;
• внутренняя форма двоично-десятичного — тип DECIMAL —
представления — каждый разряд десятичного числа представляется двоично-десятичной (4 бита) комбинацией. Представление 135 есть 0010111012. Объем — 2,5 байта, 12 двоичных
разрядов;
• символьное представление (для вывода) — тип
ALPHABETIC — каждый разряд представляется байтом в соответствии с кодом ASCII.
00110001 00110011 001101012. Объ- |
Представление 135 есть ем — 3 байта.
Некоторые системы программирования (Фортран IV, например), поддерживают операции над комплексными числами вида Z- А + Bi (где Л, В — действительные коэффициенты, а / — мнимая единица). Очевидно, для размещения таких чисел необходим как минимум двойной расход оперативной памяти (по одному слову для размещения действительной и мнимой частей при обычной и по два слова при двойной точности). Кроме того, очевидно, что процессоры обычных универсальных ЭВМ вряд ли поддерживают операции над такими числами, в связи с чем операции над ними требуют написания соответствующих подпрограмм или эмуляции комплексной арифметики.
Появление СУБД и СП для разработки ИС приводит к появлению новых типов данных:
• дата и время;
• бинарные (BLOB — Binary Large Object) и текстовые объекты
без внутренней структуры (интерпретация возлагается на прикладные программы).
Понятие типа данных ассоциируется также с допустимыми значениями переменной и операциями над ними, например, данные типа время (ЧЧ:ММ:СС) или дата (ГГ/ММ/ДД) предполагают определенные диапазоны значений каждого из разрядов, а также машинные или эмулируемые операции (сложение/вычитание дат и/или моментов времени). Основной причиной «проблемы 2000 г.» являлось не столько двухразрядная запись года в базах данных, сколько встроенные в огромное количество программ (часто не документированных) операции над данными типа DATE — ГГ/ММ/ДД.
Структуры данных. В языке Алгол определены два типа структур: элементарные данные и массивы (векторы, матрицы, тензоры, состоящие из арифметических или логических переменных). Основным нововведением, появившимся первоначально в Коболе, (затем ПЛ/1, Паскаль и пр.) являются агрегаты данных (структуры, записи), представляющие собой именованные комплексы переменных разного типа, описывающих некоторый объект или образующих некоторый достаточно сложный документ.
Рассмотренные выше экзотические типы данных (комплексные числа) очевидно занимают промежуточное положение между элементарными переменными и массивами (структурами).
Термин запись подразумевает наличие множества аналогичных по структуре агрегатов, образующих файл (картотеку), содержащих данные по совокупности однородных объектов, элементы данных образуют поля, среди которых выделяются элементарные и групповые (агрегатные).
С появлением СУБД и АИПС возникают новые разновидности структур:
• множественные поля данных;
• периодические групповые поля;
Таблица 1.12. Основные типы файлов, обрабатываемых в ПЭВМ
Тип, расширение имени | Вид информации, содержащейся в файле |
exe, com | Программа, готовая к исполнению |
bat | Текстовый командный файл |
sys | Системный файл |
ovl, ovr | Оверлейный файл |
pit | Программно-информационный файл Windows |
txt, 1st | Текстовый файл в формате DOS |
doc | Документ (чаще всего в формате WinWord) |
rtf | Размеченный текстовый файл (Rich Text Format) |
dot | Файл формата документа (Document Type) |
Формат документа Adobe Acrobat | |
wri | Документ редактора Write для Windows |
wps | Документ текстового процессора MS WORKS |
bak, old | Старая копия файла, создаваемая перед его изменением |
arj, rar, zip, Izh, arc | Архивные файлы |
bas | Текст программы на языке Basic |
pas | Текст программы на языке Turbo Pascal |
с | Текст программы на ЯП Си |
bmp, pcx, gtf, tit, jpg | Графические файлы |
dbf | Файлы базы данных формата DBase, FoxPro, Cliper |
wdb | Базы данных формата MS WORKS |
wks | Электронная таблица формата MS WORKS |
xls | Электронные таблицы EXCEL |
lib, dll | Файлы библиотек |
dat | Файл данных |
ini | Файл инициализации |
hip | Файл справки (подсказки, помощи) |
ext | Файл расширений |
mnu | Файл меню |
wav, mid, mp3, mod | Звуковые файлы |
avi, mov, mpg | Файлы видеоклипов |
• текстовые объекты (документы), имеющие иерархическую
структуру (документ, сегмент, предложение, слово).
В ранее рассмотренных БД — INIS, TNT, CHEMNAME, D&B (см. рис. 1.4—1.7) — легко могут быть идентифицированы следующие виды полей данных:
• элементарные: RN, YEAR, VVSS (INIS); DK GI (TNT)- AA
NA, RN (CHEMNAME); EH, SQ (D&B);
• периодические группы: [PO, NA], [SA, ET] (D&B);
• текстовые поля: ABSTR, DESCR, TITLE (INISV TX RF
(CHEMNAME), TX (TNT);
• числовые поля: SQ, SA, ET, EN (D&B);
• символьные поля, которые составляют большинство в приведенных примерах БД.
Форматы файлов. Понятие файла появляется впервые в операционной системе OS/360 фирмы IBM, причем в ранних версиях системы «настоящим файлом» считался только перфокарточный массив (file = картотека), данные на МД и МЛ обозначались как DS (Data Set — набор данных). В последующих ОС (RSX, UNIX, MS DOS) файлами становятся именованные организованные наборы данных на любых носителях и устройствах, за сохранность и обновляемость которых (а также передачу в прикладные программы и обратно) несет ответственность ОС ЭВМ.
В зависимости от типа и назначения файлов и возможностей ОС (методов доступа) файл может передаваться в прикладную программу как целое или блоками (физическими записями) и логическими записями (строками, словами, символами).
В системе OS/360 основную роль играли два типа файлов:
• символьные (исходные программы или данные);
• двоичные (программы в машинных кодах).
В современных системах активно используется значительно большее разнообразие файлов, из которых мы перечислим наиболее типичные (табл. 1.12):
• текстовые файлы — обобщенное название для простых и размеченных текстов, ASCII-файлов и других наборов данных
символьной информации, которые интерпретируются и обрабатываются текстовыми редакторами, процессорами, анализа
торами (Lexicon, Word, TEC, анализаторы SGML, HTML);
текст без разметки (планарный) — файл, содержащий только
отображаемые (воспроизводимые на всех печатающих устройствах и терминалах) символы кода ASCII, а также простейшие
управляющие символы — CR — возврат каретки; LF — перевод строки; TAB — символ табуляции, иногда LF — новая страница;
• текст с разметкой — планарный файл, содержащий бинарную
(см. табл. 1.12, колонки 1, 2) или символьную (остальные колонки) разметку, управляющую отображением информации
(программно и/или аппаратурно);
• ASCII-файл — содержит только отображаемые коды левой части кодовой таблицы ASCII (латиница и служебные символы),
обычно применяется для хранения документов с символьной
разметкой (RTF, SGML, HTML);
• табличный файл — содержит форматированные данные (сим
вольные, численные и др.), образующие строки и столбцы таблиц, создаваемых и обрабатываемых табличными СУБД
(FoxPro, Clipper, MS Access), и/или процессорами (SuperCalc,
MS Excel и др.);
• графический файл — бинарный файл, содержащий графическую информацию. Форматы: tif (Tagged Image File), bmp
(Bit-Mapped Picture), а также ряд других — pcx, pic и т. д.;
• мультимедиа файл — бинарный, содержащий оцифрованную
аудио- (типы wav или MIDI-Sequencer) видео- (формат
MPEG) или смешанную информацию.
Дата добавления: 2015-07-20; просмотров: 806 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Программное обеспечение | | | Проблема обмена информацией и коммуникативные (обменные) форматы |