Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Основы теории принятая статистических решений 1051 75 страница

Основы теории принятая статистических решений 1051 64 страница | Основы теории принятая статистических решений 1051 65 страница | Основы теории принятая статистических решений 1051 66 страница | Основы теории принятая статистических решений 1051 67 страница | Основы теории принятая статистических решений 1051 68 страница | Основы теории принятая статистических решений 1051 69 страница | Основы теории принятая статистических решений 1051 70 страница | Основы теории принятая статистических решений 1051 71 страница | Основы теории принятая статистических решений 1051 72 страница | Основы теории принятая статистических решений 1051 73 страница |


Читайте также:
  1. 1 страница
  2. 1 страница
  3. 1 страница
  4. 1 страница
  5. 1 страница
  6. 1 страница
  7. 1 страница

софии: поскольку получатель уже имеет этот сегмент кода в своей памяти, нет необ­ходимости пересылать его, требуется только определить адрес, чтобы найти сегмент. Код ссылается на расположение последовательности сегмента и затем дополняет сле­дующий символ в последовательности, чтобы образовать новую позицию в словаре кода. Код начинается с пустого словаря, так что первые элементы являются позиция­ми, которые не ссылаются на более ранние. В одной форме словаря рекуррентно формируется выполняемая последовательность адресов и сегмент символов алфавита, содержащийся в ней. Закодированные данные состоят из пакета <адрес словаря, сле­дующий знак данных>, а каждый новый входной элемент словаря образован как па­кет, содержащий адрес того словаря, за которым следует следующий символ. Рассмот­рим пример такой технологии кодирования.

Закодируйте последовательность символов[abaababbbbbbbabbbba]

Закодированные <0,а>, <0,Ь>, <1,а>, <2,а>, <2,Ь>, <5,Ь>, <5,а>, <6,Ь>, <4,-> пакеты:

Адрес: 12345678

Содержимое: a b аа ba bb bbb bba bbbb

Начальный пакет <0,а> показывает нулевой адрес, потому что в словаре еще нет ни одной позиции. В этом пакете знак “а” является первым в последовательности дан­ных, и он приписан к адресу 1. Следующий пакет <0,Ь> содержит второй знак данных Ь, который еще не был в словаре (следовательно, адресное значение есть 0); b припи­сывается адресу 2. Пакет <1,а> представляет кодирование следующих двух знаков “аа” с помощью вызова адреса 1 для первого и присоединения к этому адресу следующего знака “а”. Пара знаков “аа” приписывается адресу 3. Пакет <2,а> представляет коди­рование следующих двух знаков данных “Ьа” с помощью вызова адреса 2 для знака “Ь” и присоединения к этому адресу следующего знака “а”. Пара знаков данных “Ьа” приписывается адресу 4 и т.д. Отметим, как завершается групповое кодирование. Восьмой пакет составлен из адреса 6, содержащего три знака “Ь”, за которыми следует другой знак “Ь”. В этом примере закодированные данные могут быть описаны с по­мощью трехбитового адреса с последующим битом 0 или 1 для определения присое­диненного знака. В закодированной последовательности существует последователь­ность из 9 символов для общего содержимого в 36 бит для кодирования данных, со­держащих 20 знаков. Как во многих схемах сжатия, эффективность кодирования не достигается для коротких последовательностей, как в этом примере, и имеется только для длинных последовательностей.

В другой форме алгоритма Лемпеля-Зива закодированные данные представлены как три словесных пакета вида <число знаков сзади, длина, следующий знак>. Здесь концепция адреса не используется. Наоборот, имеются ссылки на предшествующие последовательности данных, а также допускаются рекуррентные ссылки на параметр длины. Это показано в следующем примере, представленном как позиция <1,7,а>.

Закодируйте последовательность символов [abaababbbbbbbabbbbba]

Закодированные <0,0,а>, <0,0,Ь>, <2,1,а>, <3,2,Ь>, <1,7,а>, <6,5,а>

пакеты:

Содержимое: a b аа bab bbbbbbba bbbbba

Текущий текст: a ab abaa abaabab abaababbbbbbbba вся

последовательность

Здесь также не видно эффективности кодирования для короткой серии данных. Разно­видности кода ограничивают размер обратной ссылки, например 12-битовая для макси­мума в 4 096 пунктов обратной ссылки. Это ограничение уменьшает размер памяти, требуемой для словаря, и сокращает вероятность перегрузки памяти. Возможны также модификации кода, ограничивающие длину префикса или фразы, определенной первы­ми двумя аргументами сназад п\, вперед п2, ххх>, которые должны быть меньше некото­рого значения (например, 16) с целью ограничения сложности обратного поиска во время кодирования. Алгоритм Лемпеля-Зива присутствует во многих коммерческих и пробных программах, которые включают сжатие LZ77, Gzip, LZ78, LZW и UNIX.

13.8. Примеры кодирования источника

Кодирование источника стало основной подсистемой в современных системах связи. Вы­сокие требования к полосе частот и возможность запоминания явились мотивом его раз­вития, в то время как интегрированные схемы и методы обработки сигналов предоставили такую возможность. Вторичной причиной широкого внедрения процесса в систему связи является определение общеиндустриальных стандартов, которые позволяют множествен­ным поставщикам проводить рентабельную и конкурентоспособную реализацию процесса кодирования. Существуют стандарты МККТТ для кодирования источника или алгоритмов сжатия речи, аудио, неподвижных образов и движущихся изображений. В этом разделе бу­дет изучено множество алгоритмов кодирования источника, основанных на стандартах, что должно продемонстрировать широкую применимость кодирования источника в системах связи и проиллюстрировать типичные уровни производительности.

13.8.1. Аудиосжатие

Аудиосжатие широко применяется в потребительских и профессиональных цифровых аудиопродуктах, таких как компакт-диски (compact disc — CD), цифровая аудиолента (digital audio type — DAT), мини-диск (mini-disk — MD), цифровая компакт-кассета (digital compact cassette — DCC), универсальный цифровой диск (digital versatile disc — DVD), цифровое аудиовещание (digital audio broadcasting — DAB) и аудиопродукция в формате MP3 от экспертной группы по вопросам движущегося изображения (Motion Picture Experts Group — (MPEG). К тому же сжатие речи в телефонии, в частности со­товой телефонии, требуемое для экономии полосы частот и сбережения времени жиз­ни батареи, дало начало процессу разработки множества стандартов сжатия речи. Раз­личные алгоритмы применимы к речевым и потребительским сигналам более широ­кой полосы частот. Аудио- и речевые схемы сжатия можно для удобства разделить согласно приложениям, что отражает некоторую меру приемлемого качества. Рассмот­рим параметры, описывающие это деление [24, 25].

Типичные значения параметров для трех классов аудиосигналов

Диапазон Частота Бит Скорость

частот дискретизации PCM/выборку передачи

___________________________________________________________ битов РСМ

Телефонная речь 300-3 400 Гц 8 кГц 8 64 Кбит/с

Широкополосная 60-7 000 Гц 16 кГц 14 224 Кбит/с речь

Широкополосное 10-20 000 Гц 48 кГц 16 768 Кбит/с аудио


Начнем наше обсуждение с обработки телефонной речи. Один из стандартов этой об­ласти — адаптивная дифференциальная импульсно-кодовая модуляция (adaptive differential pulse-code modulation — ADPCM) G.726 от МККТТ. Этот стандарт кодирует выборку за выборкой, предсказывая значение каждой выборки из восстановленной речи предшест­вующих выборок, с использованием адаптивного предсказателя с обратной связью. Он принимает качественную речь, преобразованную посредством 8-битового линейного пре­образования с использованием А- или (i-закона со скоростью 64 Кбит/с, и выдает сжатую речь со скоростью 16, 24, 32 и 40 Кбит/с. Кодер применяет декодер в контуре обратной связи для анализа и модификации параметров алгоритма с целью минимизации ошибки восстановления. Предсказатель использует фильтр шестого порядка для моделирования нулей и фильтр второго порядка — для моделирования полюсов источника входного сиг­нала. Блочная диаграмма кодера изображена на рис. 13.36.

  Рис. 13.36. Речевой кодек ADPCM (G. 726)

 

13.8.1.2. Адаптивная дифференциальная импульсно-кодовая модуляция с разделением на подполосы

Стандарт МККТТ G.722 является стандартом кодирования широкополосной речи. Широкополосное сжатие приводит к значительному улучшению качества телефонной речи, которое приближается к качеству речи при радиовещании и в музыкальных сиг­налах. Данный кодер использует дополнительные фильтры нижних и верхних частот для отделения входной полосы частот в 7 кГц, после чего речь дискретизуется с частотой 16 кГц в более высокую и более низкую подполосы, каждая из которых вы­бирается с частотой 8 кГц. Функции обоих фильтров и операция повторной дискрети­зации реализованы в цифровом фильтре, известном как квадратурный зеркальный фильтр (quadrature mirror filter). Независимые кодеры ADPCM обрабатывают времен­ные ряды сокращенных полос частот от двух фильтров и выдают скорости в 48 Кбит/с и 16 Кбит/с, соответственно, на выходе низкой и высокой полос. Эти кодеры пред­ставляют собой модифицированную версию речевых кодеров ADPCM МККТТ В.721, которые используют фильтры с обратным предсказанием, основанные на закодиро­ванном разностном сигнале. Отбрасывание младшего бита коэффициентов предска­зывающего фильтра позволяет этому кодеру работать со скоростью 56 и 48 Кбит/с,


как и с номинальной скоростью 64 Кбит/с. При сниженной скорости передачи битов система связи может присваивать неиспользованные биты вспомогательному потоку данных, который передается со скоростью 8 и 16 Кбит/с, если канал поддерживает фиксированную выходную скорость в 64 Кбит/с. Предсказатель использует структуру с 6 нулями и 2 полюсами. Блочная диаграмма широкополосного аудиокодера, рабо­тающего со скоростью 64 Кбит/с, изображена на рис. 13.37.

Вспомогательная 48 Кбит/с информация   16 Кбит/с Рис. 13.37. Широкополосный кодек QMF-ADPCM(64 Кбит/с) (G.722)

 

13.8.1.3. Схема CELP

Речевые кодеры, использующие линейные фильтры с предсказанием (linear predictive filter — LPF), могут давать высокое качество речи, закодированной со скоростью выше 16 Кбит/с, однако при снижении скорости качество быстро падает. Кодеры LPC могут быть модифицированы с целью получения высококачественного сжатия речи со скоростя­ми порядка от 4,8 до 9,6 Кбит/с посредством приведения задачи синтеза к двухэтапной процедуре, названной синтез через анализ (synthesis by analysis). На первом этапе образуется модель LPC 10-го порядка для сигнала, действительного на протяжении короткого интер­вала, скажем каждые 20 мс. На втором этапе находится сигнал, который, будучи приме­ненным к модели LPC, образует выходной сигнал, по возможности близкий к исходному синтезируемому сигналу. Завершается эта задача с помощью последовательного примене­ния подходящего сигнала активизации к модели и сравнения каждой синтезированной формы сигнала с исходным сигналом с последующим выбором того, который минимизи­рует ошибку между исходным сигналом и выходом управляемой модели.

Из теории процесса формирования речи известно, что активизация речи часто со­стоит из периодических импульсов (образованных посредством вибрации речевых свя­зок). Период периодических импульсов Р связан с голосом говорящего. Одноотвод­ный рекурсивный фильтр определяется двумя параметрами: Р — число интервалов за­паздывания в контуре обратной связи и g — коэффициент обратной связи. Импульсная характеристика этого фильтра представляет собой затухающую последо­вательность с Р равными нулю выходными выборками между последовательными не­нулевыми выходными выборками. Выход этого фильтра генерирует периодический сигнал активизации, подаваемый на вход модели LPC (см. раздел 13.3.2). Алгоритм синтеза должен проверять возможные значения Р из перечня подходящих. Два пара­метра голоса оцениваются каждые 5 мс. Вход в речевой фильтр извлекается из табли­цы подходящих последовательностей активизации. Выход фильтра, в свою очередь, управляет моделью LPC. Таблица, содержащая, как правило, 1 024 позиции, называ­ется кодовой книгой. Кодовая книга посещается каждые 2,5 мс. Когда наилучшая комбинация позиций кодовой книги и период голоса определены с помощью полного
поиска, формируется группа, содержащая последовательность параметров голоса, по­следовательность адресов кодовой книги и информацию о коэффициентах LPC.

Кодер должен доставить параметры, описывающие модель LPC, на декодер. Спек­тральная характеристика фильтра LPC очень чувствительна к квантованию коэффи­циентов и как таковая должна бы представляться с помощью неприемлемо большого числа бит. Поэтому коэффициенты LPC преобразуются в иное множество параметров, названных линейными спектральными парами [10], которые являются нечувствитель­ными к квантованию.

Системы, созданные согласно стандарту IS-95, используют следующий формат кадра LPC. Кадр, требуемый для описания 2 мс данных, содержит 192 бит, присвоен­ных представителю закодированных параметров.

10 коэффициентов LPC 40 бит

4 параметра запаздывания и опережения 40 бит

8 адресов кодовой книги 80 бит

Биты четности, проверочные биты и прочая служебная информация 32 бит

Общая скорость передачи битов для этой системы составляет 192 бит за 20 мс, или 9600 бит/с. Скорость передачи может быть снижена, если кодер детектирует речевые паузы.

13.8.1.4. Уровни I, II и III стандарта MPEG

Международная организация по стандартизации (International Organization for Standardization —ISO) и экспертная группа по вопросам движущегося изображения (Motion Picture Experts Group — MPEG) разработали стандарт аудиосжатия для сигна­ла, синхронизированного с сжатым видеосигналом, известный как MPEG. В этой схеме объединены свойства MUSICAM (Masking pattern adaptive Universal Subband Integrated Coding And Multiplexing — универсальные интегральные средства кодирова­ния и уплотнения по поддиапазонам с маскировкой и адаптацией к кодограмме) и ASPEC (Adaptive Spectral Perceptual Entropy Coding — адаптивное спектрально­восприимчивое кодирование энтропии). В схеме использованы три уровня (коды) увеличивающейся сложности и улучшающейся субъективной производительности, входные частоты дискретизации равны 32, 44,1 и 48 кГц, а биты на выход подаются со скоростью от 32 до 192 Кбит/с (монофонический канал) или со скоростью от 64 до 384 Кбит/с (стереофонический канал). Стандарт поддерживает режим работы единст­венного канала, стереорежим, двойственный режим работы канала (для двуязычных аудиопрограмм) и дополнительный совместный стереорежим. В последнем режиме два кодера для левого и правого каналов могут поддерживать друг друга, используя общие статистики с целью снижения скорости передачи бит аудиосигнала, даже большего, чем это возможно при монофонической передаче [26].

Кодер действует в соответствии с моделью реального времени порога спектральной восприимчивости человека. Этот порог представляет собой зависящую от частоты границу или порог, который отмечает уровни звукового давления, ниже которых человеческое ухо не может воспринимать сигналы. Эта кривая, названная порогом остроты слуха, ге­нерируется во время слухового теста. Порог остроты обычно присутствует на уровнях амплитуды как функция спектрального положения и во многом подобен кривой спектра мощности. Этот порог представляет собой изменяющуюся во времени функцию кратко­временной спектральной плотности мощности и имеет локальные максимумы в соот­ветствии с тонами высокого уровня и тонообразными сигналами (называемыми тонала- ми). Повышение порога вследствие наличия сильных тоналов, приводит к локальной маскировке спектральных компонентов ниже нового порогового уровня. Спектральные компоненты сигнала, лежащие ниже порога слышимости, объявляются несущественны­ми и не кодируются в процессе сжатия. Сигналы, превышающие зависящий от частоты порог, кодируются с достаточной точностью, позволяющей удерживать ошибку аппрок­симации ниже уровня остроты. Этот процесс завершается делением спектра множеством узкополосных фильтров и присвоением достаточного числа бит для описания каждого выхода фильтра относительно его амплитуды, которая расположена выше порога. Таким образом, сигналу, в определенной полосе составляющему 30 дБ выше порога, будет при квантовании выделено 5 бит. В этом случае шум квантования падает ниже порога, так как отношение шум/сигнал квантования сократилось на 6 дБ на бит. Типичный график порога остроты представлен на рис. 13.38.

  0,02 0,05 0,1 0,2 0,5 1,0 2,0 5,0 10,0 20,0 /'(кГц) Рис. 13.38. Порог остроты и маскировка

 

Кодер работает следующим образом. Стандартный 16-битовый аудиосигнал РСМ усе­кается и преобразуется в компоненты спектральной подполосы с помощью группы мно­гофазных фильтров, состоящей из 32 равномерно расположенных полосовых фильтров. Блок фильтра создается с помехами соседнего канала, превосходящими 96 дБ, — уровень, требуемый для подавления искажения восприимчивости, вызванного шумом квантования. Фильтрованные выходные сигналы выбираются с частотой Найквиста для каждой полосы пропускания диапазона частот. В декодере этот процесс обращается. Частота дискретиза­ции каждого многополосного фильтра увеличивается до частоты исходного сигнала источ­ника с помощью интерполирования сигналов подполосы, образованных на выходах поло­сы пропускания блока синтетических фильтров. На рис. 13.39 представлена блочная диа­грамма аудиокодера и декодера уровней I и II стандарта MPEG.

На уровне III стандарта MPEG/ISO (MP3) достигается разрешение белее высокой час­тоты, которое весьма точно соответствует критической разрешающей способности челове­ка. Это усовершенствованное деление достигается посредством дальнейшей обработки 32 подпсшосных сигналов с помощью перекрывающегося или усеченного 6-точечного или 18-точечного модифицированного дискретного косинус-преобразования (modified discrete cosine transform — MDCT). (Короткое описание ДКП представлено в следующем разделе, посвященном сжатию изображений.) Результирующее число полос частот, которое может быть разрешено на уровне III, равно 32 х 18, шш 576, где каждый фильтр представляет по­лосу частот в 24 000/576 шш 41,67 Гц. Уровень III отличается от уровней I и II дополни­тельным введением модифицированного ДКП в блок анализа, кодера Хаффмана на выход квантующего устройства и канала побочной информации.

Информация о масштабном   Рис. 13.39. Блочная диаграмма аудиокодера и декодера, уровни I и II

 

13.8.2. Сжатие изображения

Мы часто слышали старое высказывание: Картина стоит тысячи слов. Верно ли оно? 1 ООО слов содержит 6 ООО знаков, которые, будучи закодированы как 7-битовые символы ASCII, требуют в общей сложности 42 ООО бит. Какого размера образ (или картина) может быть описан с помощью 42 ООО бит? Если используется монохромный (т.е. черный и бе­лый) образ со стандартной 8-битовой шкалой оттенков серого, образ будет ограничен 5 250 пикселями (или элементами изображения). Этот образ может иметь размерность 70 х 75 пикселей, и если предположить, что образ среднего качества (разрешение 300 пикселей на дюйм), в результате получаем, что наш образ составляет примерно j дюйма на j дюйма.

Определенно, требуется какое-то кодирование изображения.

Подойдем к проблеме с другой стороны. Насколько большим является изображе­ние? Выбирая лист бумаги размером 8,5 х 11,0 дюймов, содержащий изображение с разрешением 300 пикселей на дюйм, получаем образ, содержащий 8,5 х 300 х 11,0 x 300 или 8,4 х 106 элементов изображения. Если это полноцветная картина с тремя цветами на элемент, каждый из которых описывается с помощью 8-битовых слов, находим, что образ содержит 2х 10* бит, что эквивалентно 4,8 х 106 6-знаковых слов ASCII. Возможно, старое высказывание стоит обновить в соответствии с совре-

' Более привычным является все же выражение “лучше один раз увидеть, чем сто раз услы­шать”, но в целях дальнейшего обсуждения приведен дословный перевод. — Примеч. пер.

менным положением дел, сказав, что: Картина стоит порядка пяти миллионов слов. Для сравнения с другими форматами изображения отметим, что отдельный кадр теле­визионного изображения высокой четкости содержит примерно 1,8 х 106 пикселей, стандартное телевизионное изображение — это примерно 0,33 х Ю6 пикселей, а мони­торы компьютера высшего класса содержат от 1,2 до 3,1 х 106 элементов изображения.

Технология дала нам принтеры низкой стоимости с высокой разрешающей спо­собностью, сканеры, камеры и мониторы, позволяющие схватывать и представлять изображения с коммерческой и развлекательной целью. Хранение и передача этих об­разов существенно зависит от кодирования источника, призванного снизить требова­ния к полосе частот и памяти. Существует множество стандартов, которые были раз­работаны для сжатия изображений. В следующем разделе будут изучены элементы двух основных схем сжатия [26, 27].

13.8.2.1. JPEG

JPEG (Joint Photography Experts Group — объединенная группа экспертов в области фотографии) — это общее название, которое дано стандарту ISO/JPEG 10918-1 и стан­дарту ITU-T Recommendation Т.81 “Цифровое сжатие постоянных изображений непре­рывного тона”. JPEG, в основном, известен как основанная на преобразовании схема сжатия с потерями. Сжатие с потерями допускает ошибки в построении сигнала. Уров­ни ошибок должны быть ниже порога восприимчивости человеческого глаза. JPEG под­держивает три режима работы, связанных с дискретным косинус-преобразованием (discrete cosine transform — DCT, ДКП): последовательное ДКП, прогрессивное ДКП и иерархическое, а также режим без потерь с использованием дифференциального пред­сказания и энтропии кодирования ошибки предсказания. ДКП — это численное преоб­разование, связанное с дискретным преобразованием Фурье (discrete Fourier transform — DFT, ДПФ) и предназначенное для получения спектрального разложения четно­симметричных последовательностей. Если входная последовательность является четно­симметричной, нет необходимости в синусоидальных компонентах преобразования. Следовательно, ДКП может заменить ДПФ.

Начнем с введения двухмерного преобразования ДКП 8x8. Сначала прокомментируем использование ДКП для образования спектрального описания блока 8x8 пикселей. Двух­мерное ДКП — это сепарабельное преобразование, которое может быть записано в виде двойной суммы по двум размерностям. Сепарабельное ДКП производит восемь 8- точечных ДКП в каждом направлении. Следовательно, основной компоновочный блок представляет собой единичное 8-точечное ДКП. Возникает вопрос, почему используется ДКП, а не какое-либо другое преобразование, например ДПФ. Ответ связан с теоремой о дискретном представлении и преобразованием Фурье. Преобразование в одной области приводит к периодичности в другой. Если преобразуется временной ряд, его спектр стано­вится периодичным. С другой стороны, если преобразуется спектр временного ряда, вре­менной ряд периодически продолжается. Этот процесс известен как периодическое расши­рение и обозначается результирующей периодограммой. Периодическое расширение исход­ных данных (рис. 13.40) демонстрирует разрыв на границах, который ограничивает степень спектрального затухания в спектре величиной 1 If. Можно образовать четное расширение данных, отображая данные относительно одной из границ. Если данные являются перио­дически расширенными, как показано на рис. 13.40, разрывность уже свойственна не ам­плитуде данных, а ее первой производной, так что степень спектрального затухания увели­чивается до 1 If2. Более быстрая скорость спектрального затухания приводит к меньшему


числу значимых спектральных членов. Еще одним преимуществом ДКП есть то, что по­скольку данные четно-симметричные, их преобразование также является действительным и симметричным; следовательно, отсутствует необходимость в нечетно-симметричных ба­зисных членах — функциях синуса.


 

 


Спектр

ЛИ

йкш ~ [йш 13Ж* [Мш 1Мй! Ишй! [йш


 


Четное Исходная расширение

Спектр

~ <Ш} [ЙЯШ йШ] йнни ЙШб!Шй

Рис. 13.40. Спектральное затухание и периодическое расширение времен­ного ряда с помощью ДПФ и ДКП

Поскольку амплитуда образа имеет сильную корреляцию на небольших простран­ственных интервалах, значение ДКП блока 8x8 пикселей определяется, в основном, окрестностью постоянной составляющей и относительно небольшим числом иных значимых членов. Типичное множество амплитуд и их преобразование ДКП пред­ставлено на рис. 13.41. Отметим, что спектральные члены убывают, по крайней мере, как I//2 и большинство членов высокой частоты, в основном, нулевые. Спектр посы­лается на устройство квантования, которое использует стандартные таблицы кванто­вания для присвоения бит спектральным членам согласно их относительным ампли­тудам и их психовизуальному значению. Для компонентов яркости и цветности ис­пользуются различные таблицы квантования.

 

Амплитуды пикселей

Амплитуды дискретного косинусного преобразования

Рис. 13 41. Пиксели и амплитуды ДКП, описывающие один и тот же блок 8x8 пикселей

 


 

Чтобы использовать преимущество большого числа нулевых позиций в квантован­ном ДКП, спектральные адреса ДКП сканируются зигзагообразным образом, как изо­бражено на рис. 13.42. Зигзагообразная модель обеспечивает длинную последователь­ность нулей. Это улучшает эффективность кодирования группового кода Хаффмана, описывающего спектральные выборки. На рис. 13.43 представлена блок-схема кодера JPEG. Сигнал, доставленный на кодер, обычным образом представлен в виде растро­вой развертки с дискретными основными аддитивными цветами: красным, зеленым и синим (RGB). Цветная плоскость преобразуется в сигнал яркости (У) и цветности

0, 564 х (В-Y) (обозначено как Св) и 0,713 х (Л-У) (обозначено как CR), используя преобразование цветового контраста, разработанное для цветного ТВ. Это отображе­ние описывается следующим образом:

' Y'   " 0,299 0,587 0,114 ‘ ~R
Св = -0,169 -0,331 0,500 G
Cr.   0,500 -0,419 -0,081 В

 

Здесь компонент Y образован для отражения чувствительности человеческого глаза к основным цветам.

                 
  - у S~ у   /   V
  / / / / / /   Л
  1/   / // /' /  
    / / / / / / /  
  к   /   /    
      / / /   / И
      / / / / / /
  --   / 4.         *-
Рис. 13 42. Зигзагообразное ска­нирование спектральных состав­ляющих ДКП

 

  Рис. 13.43. Блок-схема кодера JPEG

 

Глаз человека имеет разную чувствительность к цветным компонентам и компонен­там яркости (черное и белое). Эта разница в способности к разрешению является след­ствием распределения рецепторов цвета (палочек) и рецепторов яркости (колбочек) на сетчатке. Человеческий глаз может различать 1-дюймовые чередующиеся черные и бе­лые полоски со 180 футов (1/40 градуса). Для сравнения, 1-дюймовые сине-красные или сине-зеленые цветные полоски невозможно различить с расстояний, больших 40 футов (1/8 градуса). Следовательно, трехцветные образы требуют примерно на 1/25 (1/5 в каж­дом направлении) больше данных, чем нужно для получения черно-белого изображе­ния. В далеком прошлом фотографы знали, что глаз требует очень малого числа цветных деталей. Чтобы придать образу цвет, существовала живая индустрия, в которой от руки раскрашивали черно-белые фотографии и почтовые открытки. Большинство аналоговых и цифровых цветных ТВ используют преимущество этой разницы в остроте восприятия для доставки дополнительных цветных компонентов через значительно сокращенную полосу частот. Стандарт NTSC определяет доставку всех трех цветов через полосу частот в 0,5 МГц, а не 4,2 МГц, действительно требуемую яркостным компонентом. Аналогич­но JPEG использует преимущество разницы в восприятии и выбирает компоненты цве­тового контраста с половинной частотой в направлении сканирования (х), но не в на­правлении поперек линий развертки (у).

Сигналы цветового контраста и сигналы с пониженной частотой дискретизации последовательно представлены как блоки 8x8 в двухмерном ДКП. Выходы ДКП кван­туются с помощью соответствующей таблицы и затем зигзагообразно сканируются для передачи на кодер Хаффмана. JPEG использует кодер Хаффмана для кодирования ко­эффициентов переменной составляющей сигнала, но поскольку компоненты посто­янной составляющей имеют высокую корреляцию между соседними блоками, для них используется дифференциальное кодирование. Разумеется, для формирования образа декодер обращает эти операции.


Дата добавления: 2015-10-28; просмотров: 52 | Нарушение авторских прав


<== предыдущая страница | следующая страница ==>
Основы теории принятая статистических решений 1051 74 страница| Основы теории принятая статистических решений 1051 76 страница

mybiblioteka.su - 2015-2024 год. (0.019 сек.)