Читайте также: |
|
софии: поскольку получатель уже имеет этот сегмент кода в своей памяти, нет необходимости пересылать его, требуется только определить адрес, чтобы найти сегмент. Код ссылается на расположение последовательности сегмента и затем дополняет следующий символ в последовательности, чтобы образовать новую позицию в словаре кода. Код начинается с пустого словаря, так что первые элементы являются позициями, которые не ссылаются на более ранние. В одной форме словаря рекуррентно формируется выполняемая последовательность адресов и сегмент символов алфавита, содержащийся в ней. Закодированные данные состоят из пакета <адрес словаря, следующий знак данных>, а каждый новый входной элемент словаря образован как пакет, содержащий адрес того словаря, за которым следует следующий символ. Рассмотрим пример такой технологии кодирования.
Закодируйте последовательность символов[abaababbbbbbbabbbba]
Закодированные <0,а>, <0,Ь>, <1,а>, <2,а>, <2,Ь>, <5,Ь>, <5,а>, <6,Ь>, <4,-> пакеты:
Адрес: 12345678
Содержимое: a b аа ba bb bbb bba bbbb
Начальный пакет <0,а> показывает нулевой адрес, потому что в словаре еще нет ни одной позиции. В этом пакете знак “а” является первым в последовательности данных, и он приписан к адресу 1. Следующий пакет <0,Ь> содержит второй знак данных Ь, который еще не был в словаре (следовательно, адресное значение есть 0); b приписывается адресу 2. Пакет <1,а> представляет кодирование следующих двух знаков “аа” с помощью вызова адреса 1 для первого и присоединения к этому адресу следующего знака “а”. Пара знаков “аа” приписывается адресу 3. Пакет <2,а> представляет кодирование следующих двух знаков данных “Ьа” с помощью вызова адреса 2 для знака “Ь” и присоединения к этому адресу следующего знака “а”. Пара знаков данных “Ьа” приписывается адресу 4 и т.д. Отметим, как завершается групповое кодирование. Восьмой пакет составлен из адреса 6, содержащего три знака “Ь”, за которыми следует другой знак “Ь”. В этом примере закодированные данные могут быть описаны с помощью трехбитового адреса с последующим битом 0 или 1 для определения присоединенного знака. В закодированной последовательности существует последовательность из 9 символов для общего содержимого в 36 бит для кодирования данных, содержащих 20 знаков. Как во многих схемах сжатия, эффективность кодирования не достигается для коротких последовательностей, как в этом примере, и имеется только для длинных последовательностей.
В другой форме алгоритма Лемпеля-Зива закодированные данные представлены как три словесных пакета вида <число знаков сзади, длина, следующий знак>. Здесь концепция адреса не используется. Наоборот, имеются ссылки на предшествующие последовательности данных, а также допускаются рекуррентные ссылки на параметр длины. Это показано в следующем примере, представленном как позиция <1,7,а>.
Закодируйте последовательность символов [abaababbbbbbbabbbbba]
Закодированные <0,0,а>, <0,0,Ь>, <2,1,а>, <3,2,Ь>, <1,7,а>, <6,5,а>
пакеты:
Содержимое: a b аа bab bbbbbbba bbbbba
Текущий текст: a ab abaa abaabab abaababbbbbbbba вся
последовательность
Здесь также не видно эффективности кодирования для короткой серии данных. Разновидности кода ограничивают размер обратной ссылки, например 12-битовая для максимума в 4 096 пунктов обратной ссылки. Это ограничение уменьшает размер памяти, требуемой для словаря, и сокращает вероятность перегрузки памяти. Возможны также модификации кода, ограничивающие длину префикса или фразы, определенной первыми двумя аргументами сназад п\, вперед п2, ххх>, которые должны быть меньше некоторого значения (например, 16) с целью ограничения сложности обратного поиска во время кодирования. Алгоритм Лемпеля-Зива присутствует во многих коммерческих и пробных программах, которые включают сжатие LZ77, Gzip, LZ78, LZW и UNIX.
13.8. Примеры кодирования источника
Кодирование источника стало основной подсистемой в современных системах связи. Высокие требования к полосе частот и возможность запоминания явились мотивом его развития, в то время как интегрированные схемы и методы обработки сигналов предоставили такую возможность. Вторичной причиной широкого внедрения процесса в систему связи является определение общеиндустриальных стандартов, которые позволяют множественным поставщикам проводить рентабельную и конкурентоспособную реализацию процесса кодирования. Существуют стандарты МККТТ для кодирования источника или алгоритмов сжатия речи, аудио, неподвижных образов и движущихся изображений. В этом разделе будет изучено множество алгоритмов кодирования источника, основанных на стандартах, что должно продемонстрировать широкую применимость кодирования источника в системах связи и проиллюстрировать типичные уровни производительности.
13.8.1. Аудиосжатие
Аудиосжатие широко применяется в потребительских и профессиональных цифровых аудиопродуктах, таких как компакт-диски (compact disc — CD), цифровая аудиолента (digital audio type — DAT), мини-диск (mini-disk — MD), цифровая компакт-кассета (digital compact cassette — DCC), универсальный цифровой диск (digital versatile disc — DVD), цифровое аудиовещание (digital audio broadcasting — DAB) и аудиопродукция в формате MP3 от экспертной группы по вопросам движущегося изображения (Motion Picture Experts Group — (MPEG). К тому же сжатие речи в телефонии, в частности сотовой телефонии, требуемое для экономии полосы частот и сбережения времени жизни батареи, дало начало процессу разработки множества стандартов сжатия речи. Различные алгоритмы применимы к речевым и потребительским сигналам более широкой полосы частот. Аудио- и речевые схемы сжатия можно для удобства разделить согласно приложениям, что отражает некоторую меру приемлемого качества. Рассмотрим параметры, описывающие это деление [24, 25].
Типичные значения параметров для трех классов аудиосигналов
Диапазон Частота Бит Скорость
частот дискретизации PCM/выборку передачи
___________________________________________________________ битов РСМ
Телефонная речь 300-3 400 Гц 8 кГц 8 64 Кбит/с
Широкополосная 60-7 000 Гц 16 кГц 14 224 Кбит/с речь
Широкополосное 10-20 000 Гц 48 кГц 16 768 Кбит/с аудио
Начнем наше обсуждение с обработки телефонной речи. Один из стандартов этой области — адаптивная дифференциальная импульсно-кодовая модуляция (adaptive differential pulse-code modulation — ADPCM) G.726 от МККТТ. Этот стандарт кодирует выборку за выборкой, предсказывая значение каждой выборки из восстановленной речи предшествующих выборок, с использованием адаптивного предсказателя с обратной связью. Он принимает качественную речь, преобразованную посредством 8-битового линейного преобразования с использованием А- или (i-закона со скоростью 64 Кбит/с, и выдает сжатую речь со скоростью 16, 24, 32 и 40 Кбит/с. Кодер применяет декодер в контуре обратной связи для анализа и модификации параметров алгоритма с целью минимизации ошибки восстановления. Предсказатель использует фильтр шестого порядка для моделирования нулей и фильтр второго порядка — для моделирования полюсов источника входного сигнала. Блочная диаграмма кодера изображена на рис. 13.36.
Рис. 13.36. Речевой кодек ADPCM (G. 726) |
13.8.1.2. Адаптивная дифференциальная импульсно-кодовая модуляция с разделением на подполосы
Стандарт МККТТ G.722 является стандартом кодирования широкополосной речи. Широкополосное сжатие приводит к значительному улучшению качества телефонной речи, которое приближается к качеству речи при радиовещании и в музыкальных сигналах. Данный кодер использует дополнительные фильтры нижних и верхних частот для отделения входной полосы частот в 7 кГц, после чего речь дискретизуется с частотой 16 кГц в более высокую и более низкую подполосы, каждая из которых выбирается с частотой 8 кГц. Функции обоих фильтров и операция повторной дискретизации реализованы в цифровом фильтре, известном как квадратурный зеркальный фильтр (quadrature mirror filter). Независимые кодеры ADPCM обрабатывают временные ряды сокращенных полос частот от двух фильтров и выдают скорости в 48 Кбит/с и 16 Кбит/с, соответственно, на выходе низкой и высокой полос. Эти кодеры представляют собой модифицированную версию речевых кодеров ADPCM МККТТ В.721, которые используют фильтры с обратным предсказанием, основанные на закодированном разностном сигнале. Отбрасывание младшего бита коэффициентов предсказывающего фильтра позволяет этому кодеру работать со скоростью 56 и 48 Кбит/с,
как и с номинальной скоростью 64 Кбит/с. При сниженной скорости передачи битов система связи может присваивать неиспользованные биты вспомогательному потоку данных, который передается со скоростью 8 и 16 Кбит/с, если канал поддерживает фиксированную выходную скорость в 64 Кбит/с. Предсказатель использует структуру с 6 нулями и 2 полюсами. Блочная диаграмма широкополосного аудиокодера, работающего со скоростью 64 Кбит/с, изображена на рис. 13.37.
Вспомогательная 48 Кбит/с информация 16 Кбит/с Рис. 13.37. Широкополосный кодек QMF-ADPCM(64 Кбит/с) (G.722) |
13.8.1.3. Схема CELP
Речевые кодеры, использующие линейные фильтры с предсказанием (linear predictive filter — LPF), могут давать высокое качество речи, закодированной со скоростью выше 16 Кбит/с, однако при снижении скорости качество быстро падает. Кодеры LPC могут быть модифицированы с целью получения высококачественного сжатия речи со скоростями порядка от 4,8 до 9,6 Кбит/с посредством приведения задачи синтеза к двухэтапной процедуре, названной синтез через анализ (synthesis by analysis). На первом этапе образуется модель LPC 10-го порядка для сигнала, действительного на протяжении короткого интервала, скажем каждые 20 мс. На втором этапе находится сигнал, который, будучи примененным к модели LPC, образует выходной сигнал, по возможности близкий к исходному синтезируемому сигналу. Завершается эта задача с помощью последовательного применения подходящего сигнала активизации к модели и сравнения каждой синтезированной формы сигнала с исходным сигналом с последующим выбором того, который минимизирует ошибку между исходным сигналом и выходом управляемой модели.
Из теории процесса формирования речи известно, что активизация речи часто состоит из периодических импульсов (образованных посредством вибрации речевых связок). Период периодических импульсов Р связан с голосом говорящего. Одноотводный рекурсивный фильтр определяется двумя параметрами: Р — число интервалов запаздывания в контуре обратной связи и g — коэффициент обратной связи. Импульсная характеристика этого фильтра представляет собой затухающую последовательность с Р равными нулю выходными выборками между последовательными ненулевыми выходными выборками. Выход этого фильтра генерирует периодический сигнал активизации, подаваемый на вход модели LPC (см. раздел 13.3.2). Алгоритм синтеза должен проверять возможные значения Р из перечня подходящих. Два параметра голоса оцениваются каждые 5 мс. Вход в речевой фильтр извлекается из таблицы подходящих последовательностей активизации. Выход фильтра, в свою очередь, управляет моделью LPC. Таблица, содержащая, как правило, 1 024 позиции, называется кодовой книгой. Кодовая книга посещается каждые 2,5 мс. Когда наилучшая комбинация позиций кодовой книги и период голоса определены с помощью полного
поиска, формируется группа, содержащая последовательность параметров голоса, последовательность адресов кодовой книги и информацию о коэффициентах LPC.
Кодер должен доставить параметры, описывающие модель LPC, на декодер. Спектральная характеристика фильтра LPC очень чувствительна к квантованию коэффициентов и как таковая должна бы представляться с помощью неприемлемо большого числа бит. Поэтому коэффициенты LPC преобразуются в иное множество параметров, названных линейными спектральными парами [10], которые являются нечувствительными к квантованию.
Системы, созданные согласно стандарту IS-95, используют следующий формат кадра LPC. Кадр, требуемый для описания 2 мс данных, содержит 192 бит, присвоенных представителю закодированных параметров.
10 коэффициентов LPC 40 бит
4 параметра запаздывания и опережения 40 бит
8 адресов кодовой книги 80 бит
Биты четности, проверочные биты и прочая служебная информация 32 бит
Общая скорость передачи битов для этой системы составляет 192 бит за 20 мс, или 9600 бит/с. Скорость передачи может быть снижена, если кодер детектирует речевые паузы.
13.8.1.4. Уровни I, II и III стандарта MPEG
Международная организация по стандартизации (International Organization for Standardization —ISO) и экспертная группа по вопросам движущегося изображения (Motion Picture Experts Group — MPEG) разработали стандарт аудиосжатия для сигнала, синхронизированного с сжатым видеосигналом, известный как MPEG. В этой схеме объединены свойства MUSICAM (Masking pattern adaptive Universal Subband Integrated Coding And Multiplexing — универсальные интегральные средства кодирования и уплотнения по поддиапазонам с маскировкой и адаптацией к кодограмме) и ASPEC (Adaptive Spectral Perceptual Entropy Coding — адаптивное спектральновосприимчивое кодирование энтропии). В схеме использованы три уровня (коды) увеличивающейся сложности и улучшающейся субъективной производительности, входные частоты дискретизации равны 32, 44,1 и 48 кГц, а биты на выход подаются со скоростью от 32 до 192 Кбит/с (монофонический канал) или со скоростью от 64 до 384 Кбит/с (стереофонический канал). Стандарт поддерживает режим работы единственного канала, стереорежим, двойственный режим работы канала (для двуязычных аудиопрограмм) и дополнительный совместный стереорежим. В последнем режиме два кодера для левого и правого каналов могут поддерживать друг друга, используя общие статистики с целью снижения скорости передачи бит аудиосигнала, даже большего, чем это возможно при монофонической передаче [26].
Кодер действует в соответствии с моделью реального времени порога спектральной восприимчивости человека. Этот порог представляет собой зависящую от частоты границу или порог, который отмечает уровни звукового давления, ниже которых человеческое ухо не может воспринимать сигналы. Эта кривая, названная порогом остроты слуха, генерируется во время слухового теста. Порог остроты обычно присутствует на уровнях амплитуды как функция спектрального положения и во многом подобен кривой спектра мощности. Этот порог представляет собой изменяющуюся во времени функцию кратковременной спектральной плотности мощности и имеет локальные максимумы в соответствии с тонами высокого уровня и тонообразными сигналами (называемыми тонала- ми). Повышение порога вследствие наличия сильных тоналов, приводит к локальной маскировке спектральных компонентов ниже нового порогового уровня. Спектральные компоненты сигнала, лежащие ниже порога слышимости, объявляются несущественными и не кодируются в процессе сжатия. Сигналы, превышающие зависящий от частоты порог, кодируются с достаточной точностью, позволяющей удерживать ошибку аппроксимации ниже уровня остроты. Этот процесс завершается делением спектра множеством узкополосных фильтров и присвоением достаточного числа бит для описания каждого выхода фильтра относительно его амплитуды, которая расположена выше порога. Таким образом, сигналу, в определенной полосе составляющему 30 дБ выше порога, будет при квантовании выделено 5 бит. В этом случае шум квантования падает ниже порога, так как отношение шум/сигнал квантования сократилось на 6 дБ на бит. Типичный график порога остроты представлен на рис. 13.38.
0,02 0,05 0,1 0,2 0,5 1,0 2,0 5,0 10,0 20,0 /'(кГц) Рис. 13.38. Порог остроты и маскировка |
Кодер работает следующим образом. Стандартный 16-битовый аудиосигнал РСМ усекается и преобразуется в компоненты спектральной подполосы с помощью группы многофазных фильтров, состоящей из 32 равномерно расположенных полосовых фильтров. Блок фильтра создается с помехами соседнего канала, превосходящими 96 дБ, — уровень, требуемый для подавления искажения восприимчивости, вызванного шумом квантования. Фильтрованные выходные сигналы выбираются с частотой Найквиста для каждой полосы пропускания диапазона частот. В декодере этот процесс обращается. Частота дискретизации каждого многополосного фильтра увеличивается до частоты исходного сигнала источника с помощью интерполирования сигналов подполосы, образованных на выходах полосы пропускания блока синтетических фильтров. На рис. 13.39 представлена блочная диаграмма аудиокодера и декодера уровней I и II стандарта MPEG.
На уровне III стандарта MPEG/ISO (MP3) достигается разрешение белее высокой частоты, которое весьма точно соответствует критической разрешающей способности человека. Это усовершенствованное деление достигается посредством дальнейшей обработки 32 подпсшосных сигналов с помощью перекрывающегося или усеченного 6-точечного или 18-точечного модифицированного дискретного косинус-преобразования (modified discrete cosine transform — MDCT). (Короткое описание ДКП представлено в следующем разделе, посвященном сжатию изображений.) Результирующее число полос частот, которое может быть разрешено на уровне III, равно 32 х 18, шш 576, где каждый фильтр представляет полосу частот в 24 000/576 шш 41,67 Гц. Уровень III отличается от уровней I и II дополнительным введением модифицированного ДКП в блок анализа, кодера Хаффмана на выход квантующего устройства и канала побочной информации.
Информация о масштабном Рис. 13.39. Блочная диаграмма аудиокодера и декодера, уровни I и II |
13.8.2. Сжатие изображения
Мы часто слышали старое высказывание: Картина стоит тысячи слов. Верно ли оно? 1 ООО слов содержит 6 ООО знаков, которые, будучи закодированы как 7-битовые символы ASCII, требуют в общей сложности 42 ООО бит. Какого размера образ (или картина) может быть описан с помощью 42 ООО бит? Если используется монохромный (т.е. черный и белый) образ со стандартной 8-битовой шкалой оттенков серого, образ будет ограничен 5 250 пикселями (или элементами изображения). Этот образ может иметь размерность 70 х 75 пикселей, и если предположить, что образ среднего качества (разрешение 300 пикселей на дюйм), в результате получаем, что наш образ составляет примерно j дюйма на j дюйма.
Определенно, требуется какое-то кодирование изображения.
Подойдем к проблеме с другой стороны. Насколько большим является изображение? Выбирая лист бумаги размером 8,5 х 11,0 дюймов, содержащий изображение с разрешением 300 пикселей на дюйм, получаем образ, содержащий 8,5 х 300 х 11,0 x 300 или 8,4 х 106 элементов изображения. Если это полноцветная картина с тремя цветами на элемент, каждый из которых описывается с помощью 8-битовых слов, находим, что образ содержит 2х 10* бит, что эквивалентно 4,8 х 106 6-знаковых слов ASCII. Возможно, старое высказывание стоит обновить в соответствии с совре-
' Более привычным является все же выражение “лучше один раз увидеть, чем сто раз услышать”, но в целях дальнейшего обсуждения приведен дословный перевод. — Примеч. пер.
менным положением дел, сказав, что: Картина стоит порядка пяти миллионов слов. Для сравнения с другими форматами изображения отметим, что отдельный кадр телевизионного изображения высокой четкости содержит примерно 1,8 х 106 пикселей, стандартное телевизионное изображение — это примерно 0,33 х Ю6 пикселей, а мониторы компьютера высшего класса содержат от 1,2 до 3,1 х 106 элементов изображения.
Технология дала нам принтеры низкой стоимости с высокой разрешающей способностью, сканеры, камеры и мониторы, позволяющие схватывать и представлять изображения с коммерческой и развлекательной целью. Хранение и передача этих образов существенно зависит от кодирования источника, призванного снизить требования к полосе частот и памяти. Существует множество стандартов, которые были разработаны для сжатия изображений. В следующем разделе будут изучены элементы двух основных схем сжатия [26, 27].
13.8.2.1. JPEG
JPEG (Joint Photography Experts Group — объединенная группа экспертов в области фотографии) — это общее название, которое дано стандарту ISO/JPEG 10918-1 и стандарту ITU-T Recommendation Т.81 “Цифровое сжатие постоянных изображений непрерывного тона”. JPEG, в основном, известен как основанная на преобразовании схема сжатия с потерями. Сжатие с потерями допускает ошибки в построении сигнала. Уровни ошибок должны быть ниже порога восприимчивости человеческого глаза. JPEG поддерживает три режима работы, связанных с дискретным косинус-преобразованием (discrete cosine transform — DCT, ДКП): последовательное ДКП, прогрессивное ДКП и иерархическое, а также режим без потерь с использованием дифференциального предсказания и энтропии кодирования ошибки предсказания. ДКП — это численное преобразование, связанное с дискретным преобразованием Фурье (discrete Fourier transform — DFT, ДПФ) и предназначенное для получения спектрального разложения четносимметричных последовательностей. Если входная последовательность является четносимметричной, нет необходимости в синусоидальных компонентах преобразования. Следовательно, ДКП может заменить ДПФ.
Начнем с введения двухмерного преобразования ДКП 8x8. Сначала прокомментируем использование ДКП для образования спектрального описания блока 8x8 пикселей. Двухмерное ДКП — это сепарабельное преобразование, которое может быть записано в виде двойной суммы по двум размерностям. Сепарабельное ДКП производит восемь 8- точечных ДКП в каждом направлении. Следовательно, основной компоновочный блок представляет собой единичное 8-точечное ДКП. Возникает вопрос, почему используется ДКП, а не какое-либо другое преобразование, например ДПФ. Ответ связан с теоремой о дискретном представлении и преобразованием Фурье. Преобразование в одной области приводит к периодичности в другой. Если преобразуется временной ряд, его спектр становится периодичным. С другой стороны, если преобразуется спектр временного ряда, временной ряд периодически продолжается. Этот процесс известен как периодическое расширение и обозначается результирующей периодограммой. Периодическое расширение исходных данных (рис. 13.40) демонстрирует разрыв на границах, который ограничивает степень спектрального затухания в спектре величиной 1 If. Можно образовать четное расширение данных, отображая данные относительно одной из границ. Если данные являются периодически расширенными, как показано на рис. 13.40, разрывность уже свойственна не амплитуде данных, а ее первой производной, так что степень спектрального затухания увеличивается до 1 If2. Более быстрая скорость спектрального затухания приводит к меньшему
числу значимых спектральных членов. Еще одним преимуществом ДКП есть то, что поскольку данные четно-симметричные, их преобразование также является действительным и симметричным; следовательно, отсутствует необходимость в нечетно-симметричных базисных членах — функциях синуса.
Спектр
ЛИ
йкш ~ [йш 13Ж* [Мш 1Мй! Ишй! [йш
Четное Исходная расширение
Спектр
~ <Ш} [ЙЯШ йШ] йнни ЙШб!Шй
Рис. 13.40. Спектральное затухание и периодическое расширение временного ряда с помощью ДПФ и ДКП
Поскольку амплитуда образа имеет сильную корреляцию на небольших пространственных интервалах, значение ДКП блока 8x8 пикселей определяется, в основном, окрестностью постоянной составляющей и относительно небольшим числом иных значимых членов. Типичное множество амплитуд и их преобразование ДКП представлено на рис. 13.41. Отметим, что спектральные члены убывают, по крайней мере, как I//2 и большинство членов высокой частоты, в основном, нулевые. Спектр посылается на устройство квантования, которое использует стандартные таблицы квантования для присвоения бит спектральным членам согласно их относительным амплитудам и их психовизуальному значению. Для компонентов яркости и цветности используются различные таблицы квантования.
Амплитуды пикселей |
Амплитуды дискретного косинусного преобразования |
Рис. 13 41. Пиксели и амплитуды ДКП, описывающие один и тот же блок 8x8 пикселей |
Чтобы использовать преимущество большого числа нулевых позиций в квантованном ДКП, спектральные адреса ДКП сканируются зигзагообразным образом, как изображено на рис. 13.42. Зигзагообразная модель обеспечивает длинную последовательность нулей. Это улучшает эффективность кодирования группового кода Хаффмана, описывающего спектральные выборки. На рис. 13.43 представлена блок-схема кодера JPEG. Сигнал, доставленный на кодер, обычным образом представлен в виде растровой развертки с дискретными основными аддитивными цветами: красным, зеленым и синим (RGB). Цветная плоскость преобразуется в сигнал яркости (У) и цветности
0, 564 х (В-Y) (обозначено как Св) и 0,713 х (Л-У) (обозначено как CR), используя преобразование цветового контраста, разработанное для цветного ТВ. Это отображение описывается следующим образом:
' Y' | " 0,299 | 0,587 | 0,114 ‘ | ~R | |
Св | = | -0,169 | -0,331 | 0,500 | G |
Cr. | 0,500 | -0,419 | -0,081 | В |
Здесь компонент Y образован для отражения чувствительности человеческого глаза к основным цветам.
- | у | S~ | у | / | V | |||
/ | / | / | / | / | / | Л | ||
1/ | ✓ | / | // | /' | / | |||
/ | / | / | / / | / | / | |||
к | ✓ | / | / | |||||
/ | / | / | / | И | ||||
/ | / | / | / | / | / | |||
-- | / 4. | *- |
Рис. 13 42. Зигзагообразное сканирование спектральных составляющих ДКП |
Рис. 13.43. Блок-схема кодера JPEG |
Глаз человека имеет разную чувствительность к цветным компонентам и компонентам яркости (черное и белое). Эта разница в способности к разрешению является следствием распределения рецепторов цвета (палочек) и рецепторов яркости (колбочек) на сетчатке. Человеческий глаз может различать 1-дюймовые чередующиеся черные и белые полоски со 180 футов (1/40 градуса). Для сравнения, 1-дюймовые сине-красные или сине-зеленые цветные полоски невозможно различить с расстояний, больших 40 футов (1/8 градуса). Следовательно, трехцветные образы требуют примерно на 1/25 (1/5 в каждом направлении) больше данных, чем нужно для получения черно-белого изображения. В далеком прошлом фотографы знали, что глаз требует очень малого числа цветных деталей. Чтобы придать образу цвет, существовала живая индустрия, в которой от руки раскрашивали черно-белые фотографии и почтовые открытки. Большинство аналоговых и цифровых цветных ТВ используют преимущество этой разницы в остроте восприятия для доставки дополнительных цветных компонентов через значительно сокращенную полосу частот. Стандарт NTSC определяет доставку всех трех цветов через полосу частот в 0,5 МГц, а не 4,2 МГц, действительно требуемую яркостным компонентом. Аналогично JPEG использует преимущество разницы в восприятии и выбирает компоненты цветового контраста с половинной частотой в направлении сканирования (х), но не в направлении поперек линий развертки (у).
Сигналы цветового контраста и сигналы с пониженной частотой дискретизации последовательно представлены как блоки 8x8 в двухмерном ДКП. Выходы ДКП квантуются с помощью соответствующей таблицы и затем зигзагообразно сканируются для передачи на кодер Хаффмана. JPEG использует кодер Хаффмана для кодирования коэффициентов переменной составляющей сигнала, но поскольку компоненты постоянной составляющей имеют высокую корреляцию между соседними блоками, для них используется дифференциальное кодирование. Разумеется, для формирования образа декодер обращает эти операции.
Дата добавления: 2015-10-28; просмотров: 52 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Основы теории принятая статистических решений 1051 74 страница | | | Основы теории принятая статистических решений 1051 76 страница |