Читайте также: |
|
Для каждой полосы частот b вычисляются три пространственных параметра. Первый параметр – межканальная разность интенсивностей (IID[ b ]) – определяется как логарифм отношения мощностей соответствующих субполос входных сигналов:
Где * означает комплексное сопряжение. Второй параметр – относительный сдвиг фаз. Он нужен для оптимального (на основе корреляции) соотношения фаз между двумя сигналами. Этот параметр определяется межканальной разностью фаз (IPD[ b ]) и определяется так:
Using the IPD as specified in (3), (relative) delays between the input signals which are represented as a constant phase difference in each analysis frequency band, hence result in a fractional delay. Thus, within each analysis band, the constant slope of phase with frequency is modeled by a constant phase difference per band, which is a somewhat limited model for the delay. On the other hand, constant phase differences across the input signals are described accurately, which is in turn not possible if an ITD parameter (i.e., a parameterized slope of phase with frequency) would have been used. An advantage of using IPDs over ITDs is that the estimation of ITDs requires accurate unwrapping of bin-by-bin phase differences within each analysis frequency band, which can be prone to errors. Thus, usage of IPDs circumvents this potential problem at the cost of a possibly limited model for ITDs.
The third parameter is the interchannel coherence (IC[ b ]), which is, in our context, defined as the normalized cross-correlation coefficient after phase alignment according to the IPD. The coherence is derived from the cross-spectrum in the following way:
Downmix
A suitable mono signal S [ k ] is obtained by a linear combination of the input signals X 1[ k ] and X 2[ k ]:
S [ k ] = w 1 X 1[ k ] + w 2 X 2[ k ], (5)
where w 1 and w 2 are weights that determine the relative amount of X 1 and X 2 in the mono output signal. For example, if w 1 = w 2 = 0. 5, the output will consist of the average of the two input signals. A downmix that is created using fixed weights however bears the risk that the power of the downmix signal strongly depends on the cross-correlation of the two input signals. To circumvent signal loss and signal coloration due to time- and frequency-dependent crosscorrelations, the weights w 1 and w 2 are (1) complex-valued, to prevent phase cancellation, and (2) varying in magnitude, to ensure overall power preservation. Specific details of the downmix procedure are however beyond the scope of this paper.
After the mono signal is generated, the last parameter that has to be extracted is computed. The IPD parameter as described above specifies the relative phase difference between the stereo input signal (at the encoder) and the stereo output signals (at the decoder). Hence the IPD does not indicate how the decoder should distribute these phase differences across the output channels. In other words, an IPD parameter alone does not indicate whether a first signal is lagging the second signal, or vice versa.
При вычислении IPD по формуле (3) относительные задержки между входными сигналами представлены постоянной разностью фаз в каждой полосе анализа и возникает незначительная задержка. Таким образом, внутри каждой полосы анализа постоянное отклонение фазы с частотой моделируется постоянной разностью фаз в каждой полосе. Что является в своем роде моделью задержки. С другой стороны, постоянная разность фаз входных сигналов описана точно, что в свою очередь невозможно, если используется ITD параметр. Преимущество использования IPDs над ITDs в том, что оценка ITDs требует точного развертывания разности фаз каждого элемента в каждой полосе анализа, которое может быть сопряжено с ошибками. Так, использование IPD устраняет эту возможную проблему ценой ограниченности модели ITDs.
Третий параметр – это взаимная когерентность (IC[ b ]), которая, в нашем случае, определяется как нормированный коэффициент взаимной корреляции после фазовой подстройки согласно IPD. Когерентность получается из взаимного спектра так:
Даунмикс
Подходящий монофонический сигнал S [ k ] получается с помощью линейной комбинации входных сигналов X 1[ k ] и X 2[ k ]:
Где w 1 и w 2 – весовые коэффициенты, определяющие относительную долю X 1 и X 2 в выходном монофоническом сигнале. Например, если w 1 = w 2 = 0. 5, выходной сигнал будет состоять из среднего значения двух входных сигналов. Даунмикс, выполняемый с помощью фиксированных весовых коэффициентов, несет в себе риск, что мощность полученного сигнала будет сильно зависеть от взаимной корреляции двух сигналов. Чтобы избежать потери сигнала и его окраски из-за временно- и частотно зависимых взаимных корреляций, весовые коэффициенты w 1 и w 2 делают (1) комплексными, чтобы предотвратить фазовые компенсации, и (2) изменяющимися по величине, чтобы обеспечить общую сохранность мощности. Однако особенности процедуры даунмикса, находятся вне поля зрения данной статьи.
После того, как получен монофонический сигнал, вычисляется последний параметр. Как сказано выше, параметр IPD определяет относительную разность фаз между входным стереофоническим сигналом (в кодере) и выходным стереофоническим сигналом (в декодере). Следовательно, IPD не является показателем того, как декодер должен распределять эти разности фаз между выходными каналами. Другими словами, сам по себе IPD не показывает, отстает ли первый сигнал от второго или наоборот.
Thus, it is generally impossible to reconstruct the absolute phase for the stereo signal pair using only the relative phase difference. Absolute phase reconstruction is required to prevent signal cancellation in the applied overlap-add procedure in both the encoder as well as the decoder (see below). To signal the actual distribution of phase modifications, an overall phase difference (OPD) is computed and transmitted. To be more specific, the decoder applies a phase modification equal to the OPD to compute the first output signal, and applies a phase modification of the OPD minus the IPD to obtain the second output signal. Given this specification, the OPD is computed as the average phase difference between X 1[ k ] and S [ k ], following
Subsequently, the mono signal S [ k ] is transformed to the time domain using an inverse FFT. Finally, a synthesis window is applied to each segment followed by overlap-add, resulting in the desired mono output signal.
Дата добавления: 2015-11-14; просмотров: 62 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Parameter extraction | | | Parameter quantization and coding |