Кодирование источника

Читайте также:

Идея кодирования возникла давно и преследовала в основном быстроту и секретность передачи информации. В современных условиях кодирование используется и для создания условий, обеспечивающих надежную и экономичную передачу сообщений по каналам связи.

Как известно, один из важнейших результатов современной теории передачи информации состоит в рекомендации разделения задач кодирования источника и кодирования канала. В задачу кодирования источника информации входит описание передаваемого сообщения в максимально экономной форме, т. е. удаление избыточности в сообщении. Полученное таким образом сжатое сообщение становится более уязвимым к воздействию помех и может оказаться искаженным при передаче. Поэтому после кодирования источника применяют кодирование канала, в задачу которого входит защита передаваемого сообщения от помех.

Процедуры кодирования весьма специфическим образом кодируют речевые сигналы при помощи вокодеров (сокращенно от английского voice coder). Поскольку эти методы кодирования специально разработаны для речевых сигналов, они не могут использоваться для тех участков телефонной сети общего пользования (ТфОП), где также необходимо принимать и другие аналоговые сигналы (например, сигналы модема)[1].

Основная цель вокодера состоит в кодировании только наиболее важных для восприятия аспектов речи. Причем это достигается с меньшим числом разрядов, чем в большинстве кодеров. Таким образом, вокодеры могут использоваться в приложениях с ограниченной полосой частот, где другие методы кодирования неприменимы. Вокодеры в основном используются для воспроизведения записанных сообщений (например, «номер набран неверно!»), для передачи зашифрованного сигнала по узкополосным каналам ВЧ радио, в сотовой цифровой телефонии, цифровых схемах с мультиплексированием, на выходе компьютера, играх и Интернет-телефонии. Особенно интересно сравнительно недавнее применение вокодеров с линейным предсказанием для организации нескольких речевых каналов в одной арендованной линии. Так, при использовании арендованной линии высокого качества для получения скорости 9600 бит/с в один канал группировались (с помощью временного мультиплексирования) четыре речевых сигнала на скоростях 2400 бит/с. Это был один из первых случаев (начало 1980-х годов) использования преобразования сигнала в цифровую форму с целью сокращения полосы речевого сигнала. Хотя эта система и обеспечивала различимый звук, все же его качество было ниже телефонных стандартов[2].

Кодирование с линейным предсказанием (linear predictive coding - LPC)

Для устранения избыточности речевого сигнала (РС) широко используется метод кодирования источника, реализующий параметрическое представление РС в виде кодирования с адаптивным предсказанием.

Основная идея – представление голосового тракта человека в виде синтезирующего фильтра.

Большинство используемых в данное время алгоритмов адаптивного предсказания решают один вопрос: как эффективно выделить и сокращенно описать две составляющие:

– параметры возбуждения;

– параметры голосового тракта.

Параметры возбуждения относятся к источнику звука речи, отвечают за основной тон и т.п. – за возбуждение фильтра.

Параметры голосового тракта относятся непосредственно к отдельным звукам речи и определяют формальную структуру сигнала. Отрезки глухой речи при моделировании заменяют шумом[3].

В соответствии с этим подходом сжатия РС осуществляется в анализаторе, выделяющем из сигнала сравнительно медленно меняющиеся параметры выбранной модели (передающий конец).

Затем эти параметры передаются по каналу связи. На приемном конце с помощью местных источников сигнала, управляемых принятыми параметрами, синтезируется РС. Настоящим прорывом в кодировании речи стали кодеки на базе линейного предсказания, которые являются основным способом сжатия речи. Основной принцип линейного предсказания состоит в том, что текущий отсчет РС можно аппроксимировать линейной комбинацией предыдущих отсчетов[4].

Кодирование речи на основе метода линейного предсказания (ЛП) заключается в том, что по линии связи передаются не отсчеты РС, а параметры некоторого фильтра, эквивалентного голосовому тракту и параметры сигнала возбуждения этого фильтра. При кодировании производится оценка параметров фильтра-анализатора ЛП и параметров сигнала возбуждения. При декодировании (на приеме) сигнал возбуждения пропускается через фильтр-синтезатор, на выходе которого получается восстановленный РС[5].

Процедура кодирования речи сводится к следующему (рис.1):

1) Оцифрованный сигнал нарезается на сегменты длительностью 20 мс (160 выборок по 8 бит в каждом сегменте).

2) Для каждого сегмента оцениваются параметры фильтра ЛП и параметры сигнала возбуждения. В качестве сигнала возбуждения в простейшем случае может использоваться остаток предсказания, получаемый при пропускании сегмента речи через фильтр-синтезатор с параметрами, полученными из оценки данного сегмента.

3) Параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи[5].

Рисунок 1 - Процедура кодирования речи

Практическая реализация имеет более сложную схему и это связано со следующими причинами[1]:

1) РС обладает двумя видами корреляционных связей: кратковременной и долговременной избыточностью. Поэтому в большинстве современных кодеков используется два предсказания: кратковременное и долговременное. Первый предсказатель (STP) учитывает кратковременную избыточность РС, связан с корреляциями между близко расположенными отсчетами и определяет огибающую спектра. Второй долговременный предсказатель (LTP) определяет тонкую структуру РС и связан с корреляцией двух отрезков сигнала между собой. Сочетание двух предсказателей с различными характеристиками позволяет в значительной мере устранить остаточную избыточность. В результате остаток предсказания приближается по своим статистическим характеристикам к белому шуму. В канал связи передаются коэффициенты обоих предсказаний и остаток предсказания.

2) Использование остатка предсказания в качестве сигнала возбуждения оказывается не достаточно эффективным, так как требует для кодирования слишком большое число бит. Поэтому практическое применение находят более экономические методы формирования сигнала возбуждения. В начале 80-х годов была предложена модель многоимпульсного возбуждения (RPE), неиспользующая классификацию сегментов речи по признаку “вокализированный - невокализированный”[2].

В частности примером LPC-кодирования может служить кодек «Regular Pulse Excitation — Long Term Prediction» (RPE-LTP) или кодек долговременного линейного предсказания с регулярным импульсным возбуждением. Он призван уменьшить количество передаваемых данных между мобильной станцией и базовой станцией. Принцип работы этого кодека следующий: при каждой выборке голосового сигнала с помощью внутренней логики мобильной станции происходит предсказание следующей точки, после чего при следующей выборке происходит передача не целого значения, а лишь разницы между текущим значением и предыдущим, что существенно меньше по объему. RPE-LTP — голосовой кодек, разработанный для использования в системах сотовой связи стандарта GSM. Кодирование осуществляется блоками по 20 мс со скоростью 13 кбит/с. Поддерживается производителями оборудования, в основном в шлюзах между сотовыми и VoIP-сетями.

Дата добавления: 2015-10-28; просмотров: 96 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Много теперь говорят о своей «каноничности» «иерархи» из «Московской патриархии». Но «каноничность» их может быть только дьявольскою.	\|	Кодирование канала

mybiblioteka.su - 2015-2025 год. (0.008 сек.)