Кодирование символьной информации

Читайте также:

Внутреннее представление символов в ЭВМ осуществляется на основе определенной системы кодирования символов, которая обычно представлена в виде кодовой таблицы. Кодовая таблица отражает соответствие между изображениями символов и их внутренними числовыми кодами. Коды обычно представлены шестнадцатеричными или десятичными числами.

Кодовая таблица должна представлять следующие группы символов:

- управляющие символы;

- знаки арифметических операций, знаки препинания и цифры;

- буквы латинского алфавита;

- буквы национальных алфавитов;

- математические символы;

- символы псевдографики.

Общепринятый компьютерный алфавит еще не успел сложиться. В настоящее время существует достаточно много способов кодирования символов. Так, для представления символов в самых первых компьютерах использовался стандартный телеграфный код. Это было вызвано тем временем: для ввода и вывода текста использовались стандартные телетайпы, подключенные к ЭВМ. Когда появилось специализированное компьютерное оборудование ввода-вывода, изменилось и кодирование. Так, фирма IBM в своих больших машинах использовала кодировку EBCDIC (Extended Binary Coded Decimal Interchange Code) – расширенный двоично-десятичный код обмена информацией. Существовало порядка шести версий этого кода, несовместимых между собой.

В машинах американской фирмы DEC (советские аналоги этих машин – СМ и ДВК) использовалась семибитовая кодировка КОИ-7 (KOI-7). С ее помощью можно было закодировать 128 символов.

В современных условиях при вводе и преобразовании данных применяются различные системы кодирования символов. В IBM-совместимых ЭВМ используются в основном такие виды кодов: КОИ-7, КОИ-8, ДКОИ, ASCII и др. Наличие в ЭВМ блоков предварительной обработки позволяет производить перекодировку информации из одного кода в другой.

КОИ-7 предназначался для представления алфавитно-цифровой информации на входах и выходах аппаратуры передачи данных по линиям связи. Например, Е -русское в этом коде обозначается 1100101, а Е -латинское – 1000101. Этот код оказался неудобен для внутренней обработки информации в машине. Для этих целей стали применяться коды КОИ-8 (восьмибитовый код обмена информации) и ДКОИ (двоичный код обмена и обработки информации). Преимущество этих кодов в том, что они предоставляют возможность кодирования большего количества символов (до 256).

КОИ-8 предназначался для обмена алфавитно-цифровой информации с магнитными накопителями. Построен на основе семибитового кода КОИ-7. КОИ-8 разработан с соблюдением международных стандартов, что позволяет использовать его не только для выполнения арифметических и логических операций, но и обмена информацией как по внутренним, так и по международным линиям связи.

ДКОИ – двоичный код обмена и обработки информации – предназначен для обработки информации в машинах (табл.5.1–5.4).

Необходимость стандартизации представления текстовой информации была достаточно скоро осознана. Результатом этого явилась кодировка ASCII (American Standard Code for Information Interchange) – стандартный американский код для обмена информацией.

Коды десятичных цифр (ДКОИ)

Таблица 5.1

Десятичная цифра	Код	Десятичная цифра	Код
	F0		F5
	F1		F6
	F2		F7
	F3		F8
	F4		F9

Коды латинских букв (ДКОИ)

Таблица 5.2

Латинская буква	Код	Латинская буква	Код	Латинская буква	Код
A	C1	J	D1	S	E2
B	C2	K	D2	T	Е3
C	C3	L	D3	U	E4
D	C4	M	D4	V	E5
E	C5	N	D5	W	E6
F	C6	O	D6	X	E7
G	C7	P	D7	Y	E8
H	C8	Q	D8	Z	E9
I	C9	R	D9

Коды русских букв (ДКОИ)

Таблица 5.3

Русская буква	Код	Русская буква	Код	Русская буква	Код
А	C1	Л	CE	Ц	BB
Б	ВА	М	D4	Ч	FE
В	C2	Н	C8	Ш	FB
Г	BF	О	D6	Щ	FD
Д	BC	П	DC	Ь	EE
Е	C5	Р	D7	Ы	EF
Ж	EC	С	C3	Э	FC
З	FA	Т	E3	Ю	B8
И	CB	У	EB	Я	DD
Й	CC	Ф	BE
К	D2	Х	E7

Коды знаков (ДКОИ)

Таблица 5.4

Знак	Название знака	Код	Знак	Название знака	Код
[	Пробел		;	Точка с запятой	5E
&	Знак «и»		┐	Знак «не»	5F
-	Черточка		,	Запятая	6B
/	Знак деления		%	Знак процента	6C
.	Точка	4B	_	Знак подчеркивания	6D
<	Меньше	4C	>	Больше	6E
(	Левая скобка	4D	?	Вопросительный знак	6F
+	Плюс	4E	:	Двоеточие	7A
\|	Знак «или»	4F	#	Знак номера	7B
!	Восклицательный знак	5A	@	Товарный знак	7C
¤	Денежный знак	5B	’	Апостроф	7D
*	Знак умножения	5C	=	Знак «равно»	7E
)	Правая скобка	5D	“	Кавычки	7F

ASCII введен в качестве стандартного кода для обмена информацией между ЭВМ, а также для передачи информации по линиям связи. Это код двоичный, восьмиразрядный, восьмой бит – бит проверки на четность, семь остальных бит – значащие.

Хотя и введен стандарт, но несовместимые или частично совместимые с ним варианты продолжают существовать. Особенно ситуация осложнилась, когда компьютеры распространились за пределы англоязычных стран, а затем и за пределы стран с латинским алфавитом. Возникли проблемы совмещения латинского и национального алфавитов в одной кодовой таблице.

В персональных компьютерах используется система кодирования ASCII. В ней для национальных алфавитов, в частности, для русского отводятся коды с 128-го по 255-й. Исторически сложилось так, что наш алфавит был закодирован в этом коде несколькими различными способами. Однако наиболее часто использовался вариант, известный как СР866 – кодовая страница 866 для MS DOS.

Время идет, появляются новые операционные системы, которые предлагают новые системы кодировки. Например, для представления кириллицы в операционной системе MS Windows используется CP1251 - кодировка, несовместимая с прежней кодировкой кириллицы в MS DOS.

Несколько лет спустя появилась версия операционной системы UNIX для IBM-совместимых ПК, которая принесла с собой кодировку DEC KOI-8 и её кириллический вариант KOI-8r, который считается стандартом для передачи русскоязычной информации и её представления в Internet.

Одним из возможных решений проблемы совместимости национальных кодировок символов является разработка универсального межнационального стандарта. На её роль в настоящее время претендует стандарт UNICODE, в котором для представления символов используется двухбайтовая кодировка. В Windows 95 и Windows NT тоже есть средства по работе с UNICODE. Однако кодировка символов кириллицы в UNICODE не совместима ни с одной кодировкой русских букв, из числа упоминавшихся выше.

Дата добавления: 2015-07-11; просмотров: 168 | Нарушение авторских прав

⇐ Предыдущая 2 3 4 5 6 7 8910 11 12 13 14 15 16 17 Следующая ⇒

mybiblioteka.su - 2015-2024 год. (0.007 сек.)