Читайте также:
|
|
Внутреннее представление символов в ЭВМ осуществляется на основе определенной системы кодирования символов, которая обычно представлена в виде кодовой таблицы. Кодовая таблица отражает соответствие между изображениями символов и их внутренними числовыми кодами. Коды обычно представлены шестнадцатеричными или десятичными числами.
Кодовая таблица должна представлять следующие группы символов:
- управляющие символы;
- знаки арифметических операций, знаки препинания и цифры;
- буквы латинского алфавита;
- буквы национальных алфавитов;
- математические символы;
- символы псевдографики.
Общепринятый компьютерный алфавит еще не успел сложиться. В настоящее время существует достаточно много способов кодирования символов. Так, для представления символов в самых первых компьютерах использовался стандартный телеграфный код. Это было вызвано тем временем: для ввода и вывода текста использовались стандартные телетайпы, подключенные к ЭВМ. Когда появилось специализированное компьютерное оборудование ввода-вывода, изменилось и кодирование. Так, фирма IBM в своих больших машинах использовала кодировку EBCDIC (Extended Binary Coded Decimal Interchange Code) – расширенный двоично-десятичный код обмена информацией. Существовало порядка шести версий этого кода, несовместимых между собой.
В машинах американской фирмы DEC (советские аналоги этих машин – СМ и ДВК) использовалась семибитовая кодировка КОИ-7 (KOI-7). С ее помощью можно было закодировать 128 символов.
В современных условиях при вводе и преобразовании данных применяются различные системы кодирования символов. В IBM-совместимых ЭВМ используются в основном такие виды кодов: КОИ-7, КОИ-8, ДКОИ, ASCII и др. Наличие в ЭВМ блоков предварительной обработки позволяет производить перекодировку информации из одного кода в другой.
КОИ-7 предназначался для представления алфавитно-цифровой информации на входах и выходах аппаратуры передачи данных по линиям связи. Например, Е -русское в этом коде обозначается 1100101, а Е -латинское – 1000101. Этот код оказался неудобен для внутренней обработки информации в машине. Для этих целей стали применяться коды КОИ-8 (восьмибитовый код обмена информации) и ДКОИ (двоичный код обмена и обработки информации). Преимущество этих кодов в том, что они предоставляют возможность кодирования большего количества символов (до 256).
КОИ-8 предназначался для обмена алфавитно-цифровой информации с магнитными накопителями. Построен на основе семибитового кода КОИ-7. КОИ-8 разработан с соблюдением международных стандартов, что позволяет использовать его не только для выполнения арифметических и логических операций, но и обмена информацией как по внутренним, так и по международным линиям связи.
ДКОИ – двоичный код обмена и обработки информации – предназначен для обработки информации в машинах (табл.5.1–5.4).
Необходимость стандартизации представления текстовой информации была достаточно скоро осознана. Результатом этого явилась кодировка ASCII (American Standard Code for Information Interchange) – стандартный американский код для обмена информацией.
Коды десятичных цифр (ДКОИ)
Таблица 5.1
Десятичная цифра | Код | Десятичная цифра | Код |
F0 | F5 | ||
F1 | F6 | ||
F2 | F7 | ||
F3 | F8 | ||
F4 | F9 |
Коды латинских букв (ДКОИ)
Таблица 5.2
Латинская буква | Код | Латинская буква | Код | Латинская буква | Код |
A | C1 | J | D1 | S | E2 |
B | C2 | K | D2 | T | Е3 |
C | C3 | L | D3 | U | E4 |
D | C4 | M | D4 | V | E5 |
E | C5 | N | D5 | W | E6 |
F | C6 | O | D6 | X | E7 |
G | C7 | P | D7 | Y | E8 |
H | C8 | Q | D8 | Z | E9 |
I | C9 | R | D9 |
Коды русских букв (ДКОИ)
Таблица 5.3
Русская буква | Код | Русская буква | Код | Русская буква | Код |
А | C1 | Л | CE | Ц | BB |
Б | ВА | М | D4 | Ч | FE |
В | C2 | Н | C8 | Ш | FB |
Г | BF | О | D6 | Щ | FD |
Д | BC | П | DC | Ь | EE |
Е | C5 | Р | D7 | Ы | EF |
Ж | EC | С | C3 | Э | FC |
З | FA | Т | E3 | Ю | B8 |
И | CB | У | EB | Я | DD |
Й | CC | Ф | BE | ||
К | D2 | Х | E7 |
Коды знаков (ДКОИ)
Таблица 5.4
Знак | Название знака | Код | Знак | Название знака | Код |
[ | Пробел | ; | Точка с запятой | 5E | |
& | Знак «и» | ┐ | Знак «не» | 5F | |
- | Черточка | , | Запятая | 6B | |
/ | Знак деления | % | Знак процента | 6C | |
. | Точка | 4B | _ | Знак подчеркивания | 6D |
< | Меньше | 4C | > | Больше | 6E |
( | Левая скобка | 4D | ? | Вопросительный знак | 6F |
+ | Плюс | 4E | : | Двоеточие | 7A |
| | Знак «или» | 4F | # | Знак номера | 7B |
! | Восклицательный знак | 5A | @ | Товарный знак | 7C |
¤ | Денежный знак | 5B | ’ | Апостроф | 7D |
* | Знак умножения | 5C | = | Знак «равно» | 7E |
) | Правая скобка | 5D | “ | Кавычки | 7F |
ASCII введен в качестве стандартного кода для обмена информацией между ЭВМ, а также для передачи информации по линиям связи. Это код двоичный, восьмиразрядный, восьмой бит – бит проверки на четность, семь остальных бит – значащие.
Хотя и введен стандарт, но несовместимые или частично совместимые с ним варианты продолжают существовать. Особенно ситуация осложнилась, когда компьютеры распространились за пределы англоязычных стран, а затем и за пределы стран с латинским алфавитом. Возникли проблемы совмещения латинского и национального алфавитов в одной кодовой таблице.
В персональных компьютерах используется система кодирования ASCII. В ней для национальных алфавитов, в частности, для русского отводятся коды с 128-го по 255-й. Исторически сложилось так, что наш алфавит был закодирован в этом коде несколькими различными способами. Однако наиболее часто использовался вариант, известный как СР866 – кодовая страница 866 для MS DOS.
Время идет, появляются новые операционные системы, которые предлагают новые системы кодировки. Например, для представления кириллицы в операционной системе MS Windows используется CP1251 - кодировка, несовместимая с прежней кодировкой кириллицы в MS DOS.
Несколько лет спустя появилась версия операционной системы UNIX для IBM-совместимых ПК, которая принесла с собой кодировку DEC KOI-8 и её кириллический вариант KOI-8r, который считается стандартом для передачи русскоязычной информации и её представления в Internet.
Одним из возможных решений проблемы совместимости национальных кодировок символов является разработка универсального межнационального стандарта. На её роль в настоящее время претендует стандарт UNICODE, в котором для представления символов используется двухбайтовая кодировка. В Windows 95 и Windows NT тоже есть средства по работе с UNICODE. Однако кодировка символов кириллицы в UNICODE не совместима ни с одной кодировкой русских букв, из числа упоминавшихся выше.
Дата добавления: 2015-07-11; просмотров: 168 | Нарушение авторских прав