Кодирование текстовой информации.

Кодирование растровых изображений | Цветовые модели. | Видеоинформация |

Читайте также:

Домашнее задание: Цветовая модель HSB. Графические форматы файлов.

По желанию: Фрактальная графика.

Задание 1. Прочитайте текст, ответьте на вопросы.

Кодирование текстовой информации.

Задачи кодирования информации решались задолго до появления компьютеров. Коды, как средство тайнописи появились в глубокой древности. Да и сами древние алфавиты по сути – средства кодирования.

При работе с компьютером все символы в тексте кодируются при помощи двоичного кода. Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные для нас буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Символы на экране формируются на основе двух вещей — наборов векторных форм всевозможных символов (они находятся в файлах со шрифтами, которые установлены на вашем компьютере) и кода, который позволяет выбрать из файла шрифта именно тот символ, который нужно будет вставить.

Традиционно, для того чтобы закодировать один символ, используют количество информации равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий N и количество информации I, можно вычислить, сколько различных символов можно закодировать (считая, что символы - это возможные события): N = 2^I = 2⁸ = 256, т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255.

Присвоение символу определенного числового кода — это вопрос соглашения. В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange), кодирующая первую половину символов с числовыми кодами от 0 до 127 (коды от 0 до 32 отведены не символам, а функциональным клавишам).

Именно эти 128 символов из первоначального вариант ASCII стали стандартом, и в любой другой кодировке текста вы их обязательно встретите, и стоять они будут именно в таком порядке. Но с помощью одного байта информации можно закодировать не 128, а целых 256 различных значений, поэтому вслед за базовой версией ASCII появился целый ряд расширенных кодировок ASCII, в которых можно было кроме 128 основных символов закодировать еще и символы национальной кодировки (например, русской).

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-ые годы прошлого века на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX. Среди особенностей кодировки KOI-8R можно отметить то, что русские буквы в ее таблице идут не в алфавитном порядке. В кодировке KOI-8R русские буквы расположены в тех же ячейках таблицы, что и созвучные им буквы латинского алфавита из первой части таблицы ASCII.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница"). Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac. Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5. Наиболее распространенной в настоящее время является кодировка Windows-1251.

В конце 90-х годов появился новый международный стандарт Unicode, который отводит под один символ не один байт, а два, и поэтому с его помощью можно закодировать не 256, а 65536 различных символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

В настоящее время широко распространена кодировка UTF 8. Она реализует представление Юникода, но использует один байт для кодирования символов первой части кодовой таблицы ASCII, от 2 до 6 байт для кодирования остальных символов.

Тексты, закодированные при помощи одной таблицы, не будут правильно отображаться в другой кодировке. Наглядно это можно представить в виде фрагмента объединенной таблицы кодировки символов. Одному и тому же двоичному коду ставится в соответствие различные символы.

Дата добавления: 2015-11-03; просмотров: 75 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Социальные типы характера	\|	Кодирование векторных изображений

mybiblioteka.su - 2015-2024 год. (0.005 сек.)