Кодеры речи
Кодеры речи
6 Глава1 Кодеры формы. Кодеры формы характеризуются способностью сохранять основную форму речевого сигнала. Кодеры формы не являются специфичными для речи в том смысле, что они с успе-хом работают с любой формой входного сигнала, и их применение ограничено только пределами амплитуды и шириной полосы. Сохраняя огибающую формы сигнала, подобные кодеры работают по принципу выборка-выборка, и их характеристики эффективно измеряются отношением сигнал/шум (ОСШ), так как квантование является основным источником искажений формы выходного сигнала. ИКМ -- первый мировой стандарт кодирования речи со скоростью 64 кбит/с с логарифмическим сжатием (по м-закону для Северной Америки и А-закону для Европы). ИКМ-кодер является кодером формы и все еще широко используется в цифровых системах. ИКМ со скоростью 64 кбит/с в основном используется как предварительное звено низкоскоростных речевых кодеров, поскольку ее характеристики считаются очень высоко-качественными. Позже был разработан стандарт на адаптивную дифференциальную ИКМ (АДИКМ) со скоростью 32 кбит/с. Снижение скорости цифрового потока наполовину было достигнуто благодаря использованию адаптивного предсказания и адаптивных квантователей для устранения избыточности речи. Некоторые другие кодеры, например с дельта-модуляцией и плавно изменяющейся крутизной (CVSDM -- Continuous Variable Slope Delta Modulation) на скорости 32 кбит/с, используются для решения специфичных задач. Хотя подобные высокоскоростные алгоритмы кодирования малоэффективны, они, тем не менее, остаются самыми эксплуатируемыми системами и, возможно, будут оставаться таковыми еще некоторое время. Импульсно-кодовая модуляция ИКМ (РСМ - Pulse Code Modulation). Рекомендация G.711При построении систем цифровой передачи непрерывных сообщений принципиальным моментом является определение полосы частот, требуемой для обеспечения заданного качества воспроизведения переданного сообщения. Вообще говоря, для высококачественной передачи речевого сообще-ния требуется полоса не менее 10 кГц. Однако для достижения удовлетвори-тельного уровня разборчивости при пе-редаче речи по телефонным каналам достаточно передать спектр в полосе 300...3400 Гц. Именно такой спектр звуковых частот обычно передается в современных системах передачи рече-вой информации. Как правило, максимальная частота передаваемого спектра аудио-сигнала выбирается равной ,а частота дискретизации (например, рекомендации G.711, G.721), хотя в ряде случаев с целью повышения качества передачи используются и более высокие значе-ния этих величин (например, рекомен-дация G.722). При использовании ИКМ дискретизированное сообщение подвергается квантованию по L уровням (рис. 1.1), в результате чего каждому значе-нию ставится в соответствие чи-сло , , представленное n-разрядной комбинацией двоичного кода. Для достижения приемлемого ка-чества восприятия восстановленного речевого сообщения при равномерном (простом) квантовании необходимо . Столь большое число уровней квантования при требует скорости передачи символов в канале не менее . Рисунок 1.1 Однако в связи с тем, что при восприятии речи человеческим ухом в области больших мгновенных значений оказываются допустимыми значительно большие искажения сообщения, чем в области малых мгновенных значений, требуемое число уровней квантования может быть существенно снижено путем использования неравномерного квантования, используя компрессию исходного сообщения по логарифмическому закону с последующим равномерным квантованием при сравнительно малом числе уровней (например, при или путем соответствующего цифрового преобразования (цифровой компрессии) сообщения, предварительно преобразованного в цифровую форму при сравнительно большом исходном числе уровней квантования (например, при ). Оптимальный квантователь имеет преимущества, если динамический диапазон входного сигнала фиксирован и достаточно мал. Характеристики квантователя быстро ухудшаются, мощность сигнала изменяется относительно значения, на которое он был рассчитан. Хотя этим процессом можно управлять, нормализуя входной сигнал и приводя его к единому диа-пазону, для правильного определения масштаба амплитуды восстановленно-го после квантователя сигнала потре-буется дополнительно несколько бит, необходимых для передачи динамиче-ского диапазона сигнала в определен-ные моменты времени. Для обработки входных речевых сигналов с большим динамическим диапазоном используются два зако-на сжатия, называемые импульсно-кодовой модуляцией по закону (А-ИКМ) и по закону м (м-ИКМ). В обеих схемах характеристика от-ношения сигнал/шум квантования (ОСШкв) должна быть близка к харак-теристике для простого квантователя. Вместе с тем характеристики А-ИКМ и м-ИКМ существенно не изменяют-ся и остаются сравнительно постоян-ными в большом диапазоне уровней входного сигнала. По сравнению с про-стыми квантователями (рис. 1.1) кван-тователи сжатия требуют меньше бит на входную выборку для определен-ного динамического диапазона сжатия и меньшего ОСШкв. В квантователях сжатия уровни квантования находятся в области малых амплитуд, которые увеличиваются при увеличении диа-пазона входного сигнала. Благодаря этому при квантовании речевых сигналов, у которых максимум функции распределения вероятностей находится в начале координат, наиболее ча-сто встречающиеся малые амплитуды квантуются с большей точностью, чем менее вероятные большие амплитуды, что приводит к значительно лучшим, Чем у простого квантователя, характер-истикам. Сжатие по А-закону определяется зависимостью: где A -- параметр сжатия с типовыми значениями 86 (Северо-Американская ИКМ) и 87,56 (Европейская ИКМ) для семибитных речевых квантователей. Сжатие по м-закону определяется выражением где V0 задается формулой , в которой L - нагрузочный фактор, a - среднеквадратическое значение входного речевого сигнала. Типовое значение фактора сжатия м равно 255. Выражение (1.1) пока-зывает, что А-закон -- это комбина-ция логарифмической кривой, исполь-зуемой для больших амплитуд, и ли-нейного участка, используемого на ма-лых амплитудах. м-закон не являет-ся в точности линейным или логариф-мическим ни в одном диапазоне, од-нако является приблизительно линей-ным для малых амплитуд и прибли-зительно логарифмическим для боль-ших амплитуд. Сравнение между квантователем по м-закону и опти-мальным квантователем показало, что оптимальный квантователь дает вы-игрыш 4 дБ, однако может иметь бо-лее высокий уровень фонового шума, когда канал свободен, и его динамиче-ский диапазон сведен к минимальному диапазону входного сигнала. Поэтому наиболее предпочтителен логарифми-ческий квантователь. Цифровое преобразование непре-рывного речевого сообщения в соответ-ствии с рекомендацией G.711 (рис. 1.2) используется наиболее часто. Рисунок 1.2 При этом ; частота дискретизации . После равномерного квантования при числе уровней и предварительного кодирования производится цифровая компрессия, в результате чего длина кодовой комбинации уменьшается до разрядов. Результатом преобразования является двоичная последовательность, передаваемая со скоростью 64 кбит/с. Из различных систем адаптивной ИКМ (АИКМ) наибольшее распространение получила система блочной ИКМ (БИКМ), оторую часто называют системой с почти мгновенным компандированием (NIC -- Near Instantaneous Companding). Отсчеты n-разрядного АЦП разбивают на блоки по N отсчетов. В каждом блоке находят отсчет с макси-мальным для данного блока уровнем. Этому уровню соответствует определенный номер старшего значащего раз-ряда (j), и все старшие разряды в ком-бинациях этого блока будут нулевыми. Записанный в двоичном коде но-мер этого разряда образует масштабную информацию, которая из-за своей важности, как правило, защищается помехоустойчивым кодом. В результате масштабная информация вместе с проверочными символами образует m-значную комбинацию, которую добавляют к основной информации. Основная информация формируется выбором k разрядов из n исходных разрядов, причем первым (старшим) разрядом является разряд с номером, описанным в масштабной информации. Основная информация для каждого из блоков объединяется с масштабной в единый цифровой поток. Результирующая скорость цифрового потока на выходе системы БИКМ . На практике, как правило, используют следующие параметры: . При одинаковых условиях передачи БИКМ дает лучшее качество, чем ИКМ. Поэтому можно снизить скорость передачи до 32.. .56 кбит/с. Дифференциальная импульсно-кодовая модуляция ДИКМ (DPCM - Differencial Pulse Code Modulation)Наряду с ИКМ применяются и более эффективные цифровые методы передачи речи. В частности, с целью снижения требований к пропускной способности канала можно использовать наличие корреляции между от-четными значениями передаваемого сообщения. Такой метод называется передачей с предсказанием. При этом последовательность значений поступает на один вход вычитающего устройства (рис. 1.3,а), в то время как на другой вход поступает предсказанное значение , полученное тем или иным методом в устройстве предска-зания на основе анализа как преды-дущих отсчетных значений сообщения, так и текущих передаваемых значений на входе вычитающего устройства. Рисунок 1.3 На приемном конце значения сооб-щения восстанавливаются путем добавления принятого сигнала ошибки предсказания к предсказываемому значению (рис. 1.3,б). В системе с дифференциаль-ной импульсно-кодовой модуляци-ей (ДИКМ) отсчетные значения ошибки предсказания подвергаются квантованию с переходом к значениям аналогично тому, как это делает-ся при использовании обычной ИКМ, однако при существенно меньшем числе уровней квантования. Таким обра-зом, при одинаковом качестве переда-чи речи метод ДИКМ позволяет ис-пользовать меньшее число разрядов n в кодовых комбинациях по сравне-нию с ИКМ. При этом существует большое число различных вариантов реализации метода ДИКМ, наиболее типичный из которых представлен на рис. 1.4. Рисунок 1.4 При этом имеют место соотноше-ния: Классификационными признака-ми кодеров ДИКМ считаются нали-чие блока линейного предсказания ав-торегрессионных последовательностей (предсказателя) и использование мно-гоуровневого (больше двух уровней) квантователя. Блок линейного пред-сказания может состоять из двух ча-стей -- долговременного и кратковре-менного предсказателей. В канал пе-редается разность истинного и пред-сказанного значений сигнала (сигнал-остаток, он же - погрешность пред-сказания). Системы с ДИКМ обеспе-чивают такое качество восстановления сигнала, которое сопоставимо с предоставляемым ИКМ, и на порядок более высокую помехоустойчивость. Эффективность метода ДИКМ может быть повышена путем пере хода к адаптивной дифференциальной импульсно-кодовой модуляции АДИКМ. Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM -- Adaptive Differencial Pulse Code Modulation). Рекомендации G.721 и G.726ADPCM - один из наиболее об-щепринятых и давно используемых ал-горитмов сжатия речи, который регла-ментируется стандартом G.726, был принят в 1984 г. Этот алгоритм да-ет практически такое же качество вос-произведения речи, как и РСМ, однако для передачи информации при его ис-пользовании требуется всего 32 кбит/с. Метод основан на том, что в анало-говом сигнале, передающем речь, не-возможны резкие скачки интенсивно-сти. Поэтому, если кодировать не са-му амплитуду сигнала, а ее измене-ние по сравнению с предыдущим зна-чением, то можно обойтись меньшим числом разрядов. В ADPCM изменение уровня сигнала кодируется четырехразрядным числом, при этом частота измерения амплитуды сигнала сохраняется неизменной. Все методы кодирования, основанные на определенных предположениях о форме сигнала, плохо работают в ситуации, когда сигнал может передаваться с резкими скачками амплитуды. Именно такой вид имеет аудиосигнал, генерируемый модемам или факсимильными аппаратами. Современные системы обмена информацией, поддерживающие цифровые ли-нии связи, умеют распознавать фак-симильный обмен и передают соответ-ствующие сигналы непосредственно в цифровом виде, не преобразуя их в ау-диосигнал. Нелинейный 15-уровневый адаптивный квантователь используется для квантования разностного сигна-ла . Перед квантованием сигнал логарифмируется по основанию 2 и масштабируются посредством коэф-фициента , который вычисляется с помощью блока адаптации масштаб-ного коэффициента. Для определения квантованного уровня используются четыре дво-ичных символа (три для амплитуды и один для знака). Четырехбитовый вы-ход квантователя образует выход-ной цифровой сигнал со скоростью 32 кбит/с, который одновременно подает-ся на инверсный адаптивный кванто-ватель и блок управления скоростью адаптации масштабного коэффициента квантователя. Квантованная версия разностного сигнала формируется путем мас-штабирования с использованием спе-циальной величины , выделяемой из нормализованной характеристики квантователя, и дальнейшей транс-формации результата из логарифмиче-ского представления. Блок адаптации масштабного ко-эффициента квантователя вычисляет -- масштабный коэффициент для квантователя и инверсного квантовате-ля. На его входы подаются четырехби-товые выходные сигналы квантователя и параметр управления скоростью адаптации . Основной принцип, реализуемый при масштабировании, заключается в бимодальной адаптации: - быстрой - для сигналов (напри-мер, речевых), которые дают разност-ные сигналы с большими флуктуациями; -медленной - для сигналов (например, данных в диапазоне тональ-ных частот, тонов), которые дают разностные сигналы с малыми флуктуациями. Управление скоростью адаптации производится с помощью комбинации быстрого и медленного масштабных коэффициентов. Быстрый (нефиксированный) масштабный коэффициент вычисляется рекурсивно в логарифмиче-ском представлении с основанием 2 из результирующего логарифмическо-го масштабного коэффициента: Как правило, лежит в пределах . Дискретная функция определяется таблич-ным образом. Множитель (1 - 2-5) вводит ограниченную память в процесс адаптации таким образом, что состо-яния кодера и декодера сходятся при ошибках передачи. Медленный (фиксированный) мас-штабный коэффициент получа-ется из с помощью операции фильтрации нижних частот: Затем быстрый и медленный мас-штабные коэффициенты объединяются для получения результирующего мас-штабного коэффициента: где . Управление скоростью адапта-ции. Предполагается, что управляю-щий параметр может принимать значения в диапазоне [0, 1]. Для рече-вых сигналов он стремится к единице, Для сигналов, данных в диапазоне то-нальных частот и одночастотных сигналов он стремится к нулю. Величи-на коэффициента определяется мерой скорости изменения величины разност-ного сигнала. Адаптивный предсказатель и калькулятор восстановленного сигна-ла. Первоначальная функция ада-птивного предсказателя заключается в вычислении оценки разностного сигнала . Используются две структуры адаптивного предсказате-ля - каскад первого порядка, модели-рующий нули, и каскад второго поряд-ка, моделирующий полюсы во входном сигнале. Детектор тона и перехода. С целью улучшения рабочих характери-стик для сигналов, поступающих с вы-ходов модемов с частотной манипуля-цией, работающих в режиме кодовых комбинаций, определен двухступенча-тый процесс декодирования. Снача-ла производится детектирование сиг-нала с ограниченной полосой (напри-мер, тона), в результате чего квантова-тель может быть переведен в быстрый режим адаптации. Упрощенная и развернутая струк-турные схемы декодера АДНКМ при-ведены на рис. 1.6,а и 1.7,б соответ-ственно. Декодер включает схему, идентичную цепи обратной связи коде-ра, преобразователь линейной ИКМ в сигнал по законам А или м и устрой-ство установки синхронного кодирова-ния. Устройство установки синхрон-ного кодирования предотвращает нако-пление искажений, имеющих место при синхронном последовательном кодиро-вании (АДИКМ-ИКМ-АДИКМ, дру-гие цифровые соединения). Установ-ка синхронного кодирования достига-ется путем подстройки проходного ко-да ИКМ таким образом, чтобы попы-таться устранить искажения квантова-ния в следующем каскаде кодирования АДИКМ. Функции основных блоков декоде-ра и кодера совпадают и поэтому ниже не рассматриваются. Вокодеры Вокодер (от английских слов voice - голос и coder - кодировщик) пред-ставляет собой устройство, осуще-ствляющее параметрическое компандирование речевых сигналов. Ком-прессия речевых сигналов на переда-ющем конце канала связи производит-ся в анализаторе, выделяющем из ре-чевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых посылок. На приемном конце с помощью мест-ных источников сигналов, управляе-мых принятыми параметрами, синте-зируется речевой сигнал. Работа вокодеров основана на моделировании человеческой речи с учетом ее характерных особенностей. Вместо непосредственного измерения амплитуды вокодер преобразует вход-ной сигнал в некий другой, похожий на исходный. Причем измеряемые харак-теристики речевого сигнала использу-ются для подгонки параметров в при-нятой модели речевого сигнала. Имен-но эти параметры и передаются прием-нику, который по ним восстанавливает исходный речевой сигнал. По суще-ству, речь идет о синтезе речи. Есте-ственно, что измерение искажений от-ношения сигнал/шум бесполезно для вокодеров, и, следовательно, необхо-димы другие субъективные оценки, та-кие, как средняя экспертная оценка, диагностический рифмованный тест, диагностическая оценка приемлемости и др. Вокодеры можно разделить на два класса: речеэлементные и параметри-ческие. В речеэлементных вокодерах при передаче распознаются произне-сенные элементы речи (например, фо-немы) и передаются только их но-мера. На приеме эти элементы со-здаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных воко-деров - линии командной связи, ре-чевое управление и говорящие автома-ты информационно-справочной служ-бы. Практически в таких вокодерах происходит автоматическое распозна-вание слуховых образов, а не опреде-ление параметров речи. В параметрических вокодерах из речевого сигнала выделяют два ти-па параметров: параметры, характеризующие оги-бающую спектра речевого сигнала, (фильтровую функцию); параметры, характеризующие ис-точник речевых колебаний (генератор-ную функцию), - частота основного тона, ее изменение во времени, момен-ты появления и исчезновения основно-го тона, шумового сигнала. По этим параметрам на приеме синтезируют речь. По принципу определения параме-тров фильтровой функции речи разли-чают вокодеры: * полосные канальные (channel); * формантные; * ортогональные; * липредеры (с линейным предска-занием речи); * гомоморфные. В полосных вокодерах спектр речи делится на 7-20 полос (каналов) аналоговыми или цифровыми полосо-выми фильтрами. Большее число ка-налов в вокодере дает большую нату-ральность и разборчивость. С каждо-го полосового фильтра сигнал поступа-ет на детектор и фильтр низких частот с частотой среза Fcp. Таким образом, сигналы на выходе каждого канала из-меняются с частотой менее Fcp. Их пе-редача возможна в аналоговом или ци-фровом виде. В формантных вокодерах оги-бающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант - центральная частота, амплитуда и ширина полосы частот. В ортогональных вокодерах огибающая мгновенного спектра рас-кладывается в ряд по выбранной си-стеме ортогональных базисных функ-ций. Вычисленные коэффициенты это-го разложения передаются на прием-ную сторону. Распространение полу-чили гармонические вокодеры, исполь-зующие разложение в ряд Фурье. Вокодеры с линейным пред-сказанием (LPC -- Linear Prediction Coding, или липредеры, основаны на оригинальном математическом аппа-рате. Они получили наибольшее рас-пространение и будут ниже рассмотре-ны более подробно. Гомоморфная обработка позво-ляет разделить генераторную и филь-тровую функции, образующие речевой сигнал. Из-за сложности определения па-раметров генераторной функции по-явились полувокодеры (VE -- Voice Excited Vocoder), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигна-ла. Полоса частот до 800. .. 1000 Гц кодируется АДИКМ, АДМ (адаптивная дельта модуляция) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде. Известны разные типы полувокодеров-липредеров: VELP -- Voice Excite Linear Prediction; RELP -- Residue Excited Linear Prediction. Вокодеры VELP используют голосовое возбуждение и коэффициент линейного предсказания (КЛП). В вокодерах RELP по исходному сигнал также вычисляются КЛП. Так как КЛП описывает фильтровую функцию, то сигнал ошибки (остатка) предсказания содержит информацию о генераторной функции речи и передается на приемную сторону (возможно ее сжатие методами АДИКМ, АДМ или помощью линейного предсказания малого порядка). Характеристики вокодеров. Качество речи вокодеров являет функцией скорости передачи, производительности и задержки обработки. Если вокодеры предназначены для телефонии по Интернет, разработчики продукции должны учитывать эти характеристики, между которыми существует строгая зависимость. Например, низкоскоростные вокодеры обычно имеют большую задержку и более низкое качество речи, чем высокоскоростные. Скорость. Так как вокодер совместно использует канал связи и часто перегруженную сеть предприятия или Интернет с другими информационными потоками, максимальная скорость должна была бы быть как можно ниже, особенно для приложений малых офисов. В настоящее время большинство вокодеров работают на фиксированной скорости вне зависимости от характеристик входного сигнала, однако целью современных разработок являются вокодеры с переменной скоростью. Для приложений по одновременной передаче речи и дан-ных компромиссом является создание алгоритмов сжатия пауз в качестве части стандарта кодирова-ния. Общим решением является ис-пользование фиксированной скорости для речи и низкой скорости для фо-новых шумов. Способ выполнения ме-ханизма сжатия пауз важен для повы-шения качества передачи речи, одна-ко часто выигрыш от компрессии пауз не реализуется. Проблемой является то, что при больших фоновых шумах сложно провести различия между ре-чью и шумом. Другая проблема за-ключается в том, что если механизм сжатия пауз неправильно выявил состояние речи, начало речи может быть «отрезано», что значительно ухудшает разборчивость кодированной речи. |
Алгоритм | Описание | | Детектор активности речи (VAD) | Определяет, является ли входной сигнал речью или фоновым шумом. Если сигнал считается речью, он кодируется на полной фиксированной скорости; если сигнал считается шумом, он кодируется на более низкой скорости | | Генерация комфортного шума | Механизм действует на стороне приемника для воссоздания основной характеристики фонового шума | | |
Способ генерации комфортного пума должен быть таким, чтобы кодер и декодер оставались синхронизи-рованными, даже если в течение некоторого интервала времени передача данных не осуществляется. Это позволяет сгладить переходы между сегментами активной и неактивной речи. Производительность алгоритмa. Вокодеры частот выполняются на основе цифровых сигнальных процес-соров (ЦСП). В соответствии с ком-пьютерной терминологией их произво-дительность может быть измерена в млн. операций в секунду, объеме па-мяти с произвольным доступом ОЗУ и объеме ПЗУ. Производительность определяет стоимость вокодера, поэто-му при определении типа вокодера для тех или иных приложений разработ-чик должен сделать соответствующий выбор. В случаях, когда вокодер со-вместно использует процессор с дру-гими приложениями, разработчик дол-жен решить, сколько ресурсов мож-но выделить для вокодера. Вокодеры, использующие менее 15 млн. опера-ций/с, считаются низкопроизводитель-ными. Использующие 30 или более млн. операций/с - высокопроизводи-тельными. Увеличение производительности приводит к увеличению стоимости и большим затратам энергии. Энерге-тические затраты важны для прило-жений в портативной аппаратуре, так как при больших затратах энергии со-кращается время между подзарядками батарей или возникает необходимость использовать батареи большей емко-сти, что, в свою очередь, приводит к большей цене и весу. При синтезе и исследовании по-лосных вокодеров и полосных вокоде-ров с ЛПК используются различные модели речевого процесса. Наиболее точная модель речи представляет со-бой нестационарный случайный про-цесс с медленно меняющейся дисперси-ей и спектральной плотностью. При использовании подобной модели мож-но получить наиболее точный резуль-тат оценки качества вокодера. Ортогональные вокодерыРечевой сигнал можно промо-делировать откликом на возбуждаю-щий сигнал линейной системы с им-пульсной характеристикой с пере-менными параметрами, так что выход-ной сигнал равен свертке возбу-ждающего сигнала и импульсного от-клика голосового тракта при условии, что форма голосового тракта неизмен-на. Все разнообразие звуков получа-ется путем изменения формы голосо-вого тракта. Если форма голосового тракта изменяется медленно, то на ко-ротких временных интервалах аппрок-симация выходного сигнала сверткой возбуждающего сигнала и импульсно-го отклика голосового тракта справед-лива. Если на коротком отрезке вре-мени входной сигнал является перио-дическим, с постоянной входной часто-той, то выходной сигнал также являет-ся периодическим. Такая модель спра-ведлива для описания звонких звуков. Аналогично временному, преобразова-ние речи может быть описано в частот-ной области, поскольку преобразова-ние Фурье речевого сигнала равно про-изведению преобразований Фурье воз-буждающего сигнала и импульсного отклика голосового тракта. Частотная характеристика голо-сового тракта является гладкой функ-цией частоты и характеризуется аку-стическими резонансами, называемы-ми формантными частотами. Поскольку при изменении различ-ных звуков форма голосового тракта изменяется, то с течением времени бу-дет изменяться и огибающая спектра речевого сигнала. Так, в частности, при изменении периода сигнала, воз-буждающего звонкие звуки, частотный разнос между гармониками спектра бу-дет также изменяться. Таким образом, для адекватного описания речевого сигнала надо не только знать вид его спектра, но и то, как он изменяется во времени. Основным параметром речевого сигнала, возбуждающего звонкий звук, является разнос гармоник основно-го тона, а характеристики голосового тракта достаточно полно определяют-ся частотами формант. Изложенное позволяет сделать вывод об удобстве частотного метода описания и преобразования речевых процессов на основе кратковременно-го спектрального анализа. Рассмотрим основные принципы, положенные в основу построения орто-гональных вокодеров. Запишем кратковременное пре-образование Фурье дискретизированного речевого процесса в виде Здесь весовая функция, сдвига-емая во времени. Соотношение (2.1) может быть пе-реписано в двух формах. Первая фор-ма имеет вид свертки где - обозначает свертку. Реализация (2.2) может быть представлена в виде рис. 2.2,а и озна-чает, что спектр речевого процесса со-ответствует свертке весовой функции с сигналом , промодулированным колебанием . Другая форма записи (2.1) получается, если ее переписать в виде Система (2.3) может быть реализована в виде, представленном на рис. 2.2,б и означает преобразование речевого сигнала полосовым фильтром центральной частотой щ и импульсной характеристикой . Реализации, представленные на рис. 2.2,а,б, отличаются тем, что первом случае используется цифровой фильтр нижних частот с импульсной характеристикой , а во втором - полосовой фильтр, что удобно при параллельном измерении на нескольких частотах щ. Используя алгоритмы БПФ, оценку кратковременного преобразования Фурье на равноотстоящих частотах можно записать в виде где Формулу (2.4) можно преобразовать к виду где можно рассматривать как характери-стику комплексного ПФ с центральной частотой . Исходный речевой сигнал можно восстановить, сложив сигналы на всех выходах гребенки ПФ так, что Формула (2.4) является осно-вополагающим уравнением анализа с кратковременным преобразованием Фурье, а формула (2.6) - основным уравнением синтезатора. Гомоморфные вокодерыВ основе гомоморфных вокодеров лежит метод нелинейной (гомоморфной) фильтрации. Общая структу-ра гомоморфных систем, предназначенных для инверсной фильтрации речевых сообщений, представлена на рис. 2.4. Свойства системы определяется соотношением , где и - Z-преобразования и соответственно. Сигнал на выходе системы обычно называют комплексным кепстром. Система является линейной, а система - обратной к системе . Удобства подобных преобразова-ний для анализа и синтеза рече-вых процессов обусловлены рядом свойств комплексного кепстра. В част-ности: комплексный спектр последова-тельностей, имеющих Z-преобразование, в основном сосредоточен вблизи нуля; последовательность, состоящая из равноотстоящих импульсов, имеет комплексный кепстр того же вида; для вычисления комплексного кепстра последовательности с мини-мальной фазой можно обойтись ло-гарифмом действительной, а не ком-плексной функции. Выше было показано, что отрез-ки речевых сигналов могут быть пред-ставлены откликом линейной системы. Так, в случае звонких звуков возбу-ждаемый сигнал имеет вид последова-тельности импульсов. В случае глу-хих звуков возбуждающий сигнал мо-жет быть смоделирован в виде шума. Обычно предполагают, что пере-даточная функция линейной системы, имитирующей голосовой тракт, опи-сывается рациональной функцией Z. В результате, согласно перечисленным выше свойствам кепстра, комплексный кепстр импульсного отклика голосово-го тракта сосредоточен вблизи нуля. В случае звонкого звука комплекс-ный кепстр возбуждающего сигнала состоит из импульсов, повторяющихся с периодом основного тона. То есть в случае звонкой речи комплексные кепстры возбуждающего сигнала и им-пульсного отклика голосового тракта занимают неперекрывающиеся времен-ные сигналы и могут быть извлечены из общего кепстра с помощью линей-ной системы L. Механизм восстановления речево-го сигнала с помощью кепстров может быть пояснен следующим образом. Поскольку спектр звонкого звука формируется умножением огибающей, характеризующей состояние голосово-го тракта, на функцию, описывающую тонкую структуру спектра возбужда-ющего сигнала, то логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбуждающего сиг-нала. Логарифм спектра возбуждающе-го сигнала изменяется с ростом часто-ты гораздо быстрее логарифма огиба-ющей спектра. Кроме того, он пери-одичен. В результате обратное пре-образование Фурье от логарифма оги-бающей спектра сконцентрировано по оси времени вблизи нуля, в то вре-мя как обратное преобразование от ло-гарифма спектра возбуждающего сиг-нала является линейчатым, отража-ющим его периодичность в частотной области. Для выделения логарифма огиба-ющей спектра из полного спектра ло-гарифма его «взвешивают» окном, от-крытым только в начальном участке кепстра (вблизи нуля). Эту процедуру называют «сглаживанием кепстра». В системе анализа-синтеза, осно-ванной на гомоморфной фильтрации, начальные значения кепстра служат параметрами, описывающими состоя-ние голосового тракта или огибающую спектра речевого процесса. Значения кепстра при больших значениях времени используются для оценки параметров возбуждающего сигнала. Таким образом, основная идея го-моморфной обработки заключается в разделении или обратной свертке сег-мента речевого сигнала с компонента-ми, представляющими собой импульс-ную характеристику и источник возбу-ждения. Это достигается путем линей-ной фильтрации обратного преобразо-вания Фурье логарифма спектра сигна-ла (кепстра). Гомоморфные вокодеры, как и любые другие вокодеры, в ко-торых осуществляется разделение па-раметров речи на сигнал возбуждения и параметры речевого тракта, позволя-ют достигнуть малой скорости переда-чи и дополнительной гибкости при об-работке речи ценой усложнения алго-ритмов преобразований. Кодирование с линейным предсказанием (LPC -- Linear Predictive Coding). Рекомендации G.728, G.729, G.723При кодировании с линейным предсказанием моделируются различные параметры человеческой речи, которые передаются вместо отсчетов или их разности, требующих значительно большей пропускной способности канала. Следует заметить, что буферы, необходимые для хранения потоков данных, увеличивают задержку кодирова-ния. Первые реализации LPC, такие как LPC-вокодер, были предназначены ля передачи данных на низких скоростях - 2,4 и 4,8 кбит/с. На скорости 2,4 кбит/с обеспечивался приемлемый уровень разборчивости речи, однако качество, естественность и узнаваемость речи недостаточны. Поскольку этот метод сильно зависит от точного воспроизведения человеческой речи, его реализации, такие как LPC-вокодер, не подходят для сигналов неречевого происхождения, например сигналов модема. Широко используемый в настоящее время метод кодирования с линейным предсказанием работает с блоками отсчетов, для каждого из которых вычисляется и передается частота основного тона, его амплитуда и информация о типе возбуждающего воздействия. Структура синтезатора речи с линейным предсказанием показана на рис. 2.5. Здесь управляющий вход или сигнал возбуждения смоделирован в виде последовательности импульсов на частоте основного тона (для вокализо-ванной речи) или случайный шум (для невокализированной речи). Комбинированные спектральные составляющие потока от голосовых связок, голосового тракта и звукообра-зования за счет губ могут быть пред-ставлены цифровым фильтром с изме-няющимися параметрами и передаточ-ной функцией где Параметрами, характеризующими голосовой тракт, являются коэффици-енты знаменателя и масштабный мно-житель G. Преобразуя уравнение (2.7) во вре-менную область, можно получить раз-ностное уравнение для импульсной ха-рактеристики , соответствующей : Уравнение (2.8) называют раз-ностным уравнением LPC. Оно устана-вливает, что текущее значение выход-ного сигнала может быть опреде-лено суммированием взвешенного те-кущего входного значения и взвешен-ной суммы предыдущих выходных вы-борок. Следовательно, в LPC анализе проблема может быть сформулирова-на так: даны измерения сигнала, требуется определить параметры пере-даточной функции системы . Линейное предсказание при ана-лизе речевых сигналов обычно исполь-зуется в двух направлениях. Одно из них - проведение кратковременно-го спектрального анализа речи. Вто-рое направление - построение систем анализа-синтеза. Параметры, входящие в функцию предсказания, через формулу (2.7) определяют параметры передаточной функции голосового тракта. Может быть предложено несколько вариантов структуры анализатора, пригодных для построения синтезатора и реализующих передаточную функцию голосового тракта. Структуру прямой формы можно получить непосредственно по коэффициентам функции предсказания. С другой стороны, дробь (2.7) можно преобразовать в произведение и получить структуру каскадной формы. Во всех случаях параметры синтезатора непрерывно обновляются при смене анализируемых кадров речи. Чтобы избежать эффектов, связанных со скачками значений параметров, необходимо плавно изменять параметры с помощью интерполяции при переходе от одного участка речи к другому. При прямой форме синтеза может возникать ситуация, соответствующая неустойчивому фильтру, хотя исходные значения относились к устойчивому фильтру. В каскадной структуре устойчивость обеспечивается проще.Определение параметров возбу-ждающего сигнала в системе анализа-синтеза с линейным предсказанием, как правило, основывается на иссле-довании сигнала ошибки, получаемого пропусканием исходного речевого сиг-нала через фильтр с характеристикой, обратной той характеристике, которая аппроксимирует передаточную функ-цию голосового тракта. Полученный сигнал ошибки является аппроксима-цией сигнала, возбуждающего речевое колебание. Для определения параме-тров возбуждающего сигнала можно применить один из известных алгорит-мов различения звонкой и глухой ре-чи, а также оценки периода основного тона, например на основе рассмотрен-ного выше корреляционного анализа сигналов во временной области. Кодирование речи методами анализа через синтез (AbS)При классификации методов ко-дирования речи на скоростях 4,8... ...16 кбит/с выделяют две основные группы -- методы анализа и синтеза (AaS -- Analysis-and-Synthesis) и ме-тоды анализа через синтез (AbS - Analysis-by-Synthesis). Хотя такие схе-мы AaS, как RELP, АРС, АТС и SBC успешно работают на скоростях 9,6... 16 кбит/с, при скоростях ниже 9,6 кбит/с они не могут обеспечивать хорошее качество речи. Это объясняется двумя причинами: 1) кодируе-мая речь не анализируется на предмет эффективности, т.е. не производится коррекция искажений в восстановлен-ной речи; 2) ошибки, накопленные в предыдущих фреймах, не учитывают-ся в момент анализа текущего фрейма и беспрепятственно переходят в следу-ющие фреймы. В схемах AbS, особенно в AbS-LPC, эти факторы, как правило, учтены. В этих схемах используется процедура оптимизации типа «замкну-тая петля» для нахождения возбужда-ющего сигнала, который при возбужде-нии моделирующего фильтра создает оптимальный речевой сигнал. Это по-зволяет схемам AbS более успешно ра-ботать на скоростях 4,8.. .9,6 кбит/с. Методы AbS подходят не только для кодирования речи, но могут так-же использоваться для оценки и идентификации. Основная идея AbS такова. Во-первых, допускается, что сигнал можно исследовать и представить в какой-либо форме, например в виде временных или частотных доменов. Затем созданная модель сигнала подвергается оптимизации (подгонке), как показано на рис. 2.6. Модель имеет несколько параметров, изменение которых приводит к изменению формы моделируемого сигнала. Для нахождения модели сигнала, которая имеет ту же форму, что и модель истинного сигнала, используют процедуры минимизации ошибки. Путем изменении параметров модели находят такой их набор, при котором синтезированный сигнал с минимальной погрешностью совпадает с реальным. Следовательно, когда достигнуто такое совпадение, параметры модели принимаются за параметры истинного сигнала. Базовая структура системы кодирования AbS-LPC представлена на рис. 2.7. В этой модели есть три компонента, которые можно изменять, добиваясь максимального подобия синтезированного сигнала с исходным: 1) нестационарный фильтр; 2) возбуждающий сигнал; 3) процедура минимизации, основанная на восприятии. Так как эта модель требует ча-стого обновления параметров для по-лучения хорошего совпадения с исход-ным сигналом, процедура анализа вы-полняется поблочно, т.е. входной рече-вой сигнал разбивается на блоки вы-борок. Длина анализируемых блоков (фреймов) и периодичность их обно-вления определяют скорость передачи (емкость) схемы кодирования. Алго-ритм работы AbS-LPC следующий: 1. Инициализировать LPC и то-нальный фильтры (нестационарные фильтры), т.е. установить уровень ну-ля или минимального случайного шу-ма; 2. Фрейм выборок речи заносится в буфер и на основании LPC-анализа вычисляется набор LPC-коэффициентов; 3. Используя вычисленные LPC-коэффициенты, формируется инверс-ный LPC-фильтр для вычисления пер-вого восстановленного после квантова-ния остатка. Если для поиска подхо-дящего тона используется «замкнутая петля», надобность в этом шаге отпа-дает. 4. Так как LPC фрейм обычно слишком велик для эффективного ана-лиза, при определении возбуждения фрейм разделяется на целое число подфреймов; 5. Для каждого подфрейма: а) рассчитываются параметры тонального фильтра (долгосрочного предсказателя), такие, как задержка и связанный с ней коэффициент мас-штабирования; б) тональный фильтра вместе с LPC-фильтром образуют каскадный фильтр, с помощью которого опре-деляется наилучшее вторичное возбу-ждение, т.е. такое, которое минимизи-рует разницу между синтезированной и исходной речью. 6. Окончательно синтезирован-ная речь получается при пропускании оптимального вторичного возбуждения через каскадный фильтр, параметры которого остались от синтеза предыду-щего подфрейма. 7. Повторение шагов 2-6 для сле-дующего фрейма последовательности. Таким образом, и на стороне коде-ра, и на стороне декодера синтезирует-ся речь, что необходимо для обновле-ния содержимого памяти нестационар-ных фильтров. В результате и кодер, и декодер имеют идентичное содержа-ние памяти. В противном случае для общей синхронности содержимое памя-ти пришлось бы передавать на деко-дер. Действительно, главный вопрос в схемах AbS-LPC -- как сохранить это одинаковое состояние в кодере и деко-дере, когда средства передачи несовер-шенны, например, в системах подвиж-ной радиосвязи, где очень высока доля ошибок. Может показаться, что схема AbS-LPC не является полноценной схемой «анализа через синтез». Это связа-но с тем, что в действительности про-цедуры последовательны, т.е. сначала вычисляются параметры фильтра, ко-торые фиксируются, и только затем следует вычисление методом «анали-за через синтез» вторичного возбужде-ния. Хотя вторичное возбуждение вы-полняется по исходному сигналу, оно ограничено оптимальностью использу-емых фильтров. Поэтому, в идеале, требуется наилучшая комбинация как возбуждения, так и фильтров, которая означает одновременную оптимизацию всех параметров. Эта процедура очень сложна, насыщена вычислениями, по-этому ее обычно разбивают на после-довательные этапы. Главное отличие классических во-кодеров от кодеров AbS-LPC состоит в том, что в классических вокодерах воз-буждение разделяется на вокализован-ные (импульсное возбуждение) и не-вокализованные (возбуждение случай-ным шумом), что является первопри-чиной точности модели. В AbS-LPC такое деление не явно, и поэтому воз-буждающий сигнал может носить лю-бой характер -- от псевдоимпульсного до шумоподобного, что позволяет син-тезировать речь более высокого каче-ства. Векторное квантование и кодовые книгиКогда набор значений амплитуд, дискретизированных по времени, кван-туется совместно как единичный век-тор, такой процесс называется век-торным квантованием (VQ - vector quantisation), известный также как блочное квантование. Будем считать, что N-мерный вектор с дей-ствительными значениями («т» озна-чает транспонирование); - случайным образом меняющий-ся компонент с непрерывной амплиту-дой. При векторном квантовании век-тору ставится в соответствие другой N-размерный вектор , имеющий дей-ствительные значения и дискретную амплитуду. Таким образом, кванту-ется как . Другими словами, ис-пользуется для представления . Обычно выбирается из конечного набора значений , где - размер кодовой книги, а - набор векторов кодовой книги. Набор Y называется кодовой книгой или шаблоном. Размер кодовой книги можно счи-тать равным числу уровней скалярных квантователей. Для создания подоб-ной кодовой книги N-размерное про-странство разделяется на L областей или ячеек , и вектор однозначно связывается с ячейкой . Квантователь обозначается вектором кодовой книги , если находит-ся в : , если . Процесс создания кодовой книги известен также как «обучение» или «настройка» кодовой книги. В каче-стве примера на рис. 2.9 иллюстриру-ется разделение двумерного простран-ства (N = 2) для целей векторно-го квантования. Область, обведенная жирной линией, -- ячейка . При векторном квантовании любой входной вектор , лежащий в ячейке , кван-туется как . Другие векторы кодовой книги, соответствующие другим ячей-кам, показаны точками. Если размер вектора , век-торное квантование трансформируется в скалярное квантование. Скалярное квантование имеет особое свойство, за-ключающееся в том, что хотя ячейки могут иметь разные размеры (размеры ступеней), все они имеют одинаковую форму. Однако при векторном кванто-вании ячейки в двух измерениях могут иметь разные формы, что дает векторному квантованию преимущество над скалярным квантованием. Гибридные кодеры Чтобы избавиться от недостатков кодеров формы и вокодеров, был раз-работан гибридный метод кодирова-ния, объединяющий преимущества обоих методов. По виду анализа гибрид-ные кодеры подразделяются на два класса: с частотным разделением и временным разделением. Гибридные кодеры с частотным разбиениемГлавная концепция кодирования с частотным разбиением состоит в раз-делении речевого спектра на частот-ные полосы или компоненты. Со-ответственно могут использоваться либо набор фильтров, либо блок-преобразователь. После кодирования и декодирования эти составляющие ис-пользуются для точного воспроизве-дения модели входного сигнала путем суммирования сигналов, полученных на выходе фильтров, или инверсных значений, полученных после преобра-зования. Главное допущение при ко-дировании с частотным разбиением со-стоит в том, что сигнал, подвергаемый кодированию, очень медленно изменя-ется во времени и может быть описан мгновенным спектром. Это связано с тем, что в большинстве систем, а осо-бенно в системах реального времени, в текущий момент доступен только крат-ковременный сегмент входного сигна-ла. В случае использования набора фильтров частота щ фиксирована, так что , а сигнал частотного доме-на представляет собой сигнал на выходе постоянного во времени ли-нейного фильтра с импульсной харак-теристикой , возбуждаемого моду-лированным сигналом : где определяет ширину полосы ре-чевого сигнала вокруг централь-ной частоты и является импульс-ной характеристикой анализирующе-го фильтра; знак означает свертку функций. При использовании блока, реали-зующего преобразование Фурье, вре-менной индекс h фиксируется на зна-чении h = ho, a представляет собой обычное преобразование Фурье взвешенной последовательности : где - преобразование Фурье. Здесь определяет отрезок времени анализа относительно момен-та времени h = ho и является «окном анализа» . Уравнение синтезирующего набо-ра фильтров может быть представлено как инте-грал (или сумма) компонентов - крат-ковременных спектров с не-сущими частотами . Для синтеза с помощью блока пре-образования уравнение выглядит сле-дующим образом: Его можно интерпретировать как сум-му инверсных преобразований Фурье, примененных к временным сигналам . CELP (Code Excited Linear Prediction)Метод кодирования CELP основан на линейной авторегрессионной моде-ли процесса формирования и воспри-ятия речи и входит в группу мето-дов анализа через синтез, реализую-щих современные и эффективные ал-горитмы информационного сжатия ре-чевых сигналов. Алгоритмы данного класса занимают промежуточное поло-жение между кодерами формы сигна-ла, в которых сохраняется форма коле-бания речевого сигнала в процессе его дискретизации и квантования, и пара-метрическими вокодерами, основанны-ми на процедурах оценки и кодирова-ния небольшого числа параметров ре-чи, объединяя преимущества каждого из них. Линейная авторегрессионная мо-дель процесса формирования речевых сигналов с локально постоянными на интервалах 10. . .30 мс параметрами получила в настоящее время наиболь-шее распространение. Для этой моде-ли где М -- порядок модели; - последовательность отсчетов речево-го сигнала; - коэффициенты линейного предсказания, характери-зующие свойства голосового тракта; - порождающая последователь-ность или сигнал возбуждения голосо-вого тракта. Авторегрессионная модель речево-го сигнала описывает его с достаточ-но высокой степенью точности и по-зволяет применять развитый матема-тический аппарат линейного предска-зания. При этом обеспечивается более высокое качество декодированной ре-чи, устойчивость к входному акустиче-скому шуму и ошибкам в канале свя-зи по сравнению с системами с иными принципами кодирования. В рамках данной модели наибо-лее перспективными методами кодиро-вания считаются методы «анализа че-рез синтез» с использованием многоимпульсного возбуждения. Новизна мно-гоимпульсного возбуждения заключа-ется в том, что в сигнале остатка ли-нейного предсказания выбираются та-кие его значения, которые наиболее важны для повышения качества синте-зированной речи. При этом использу-емая в процедуре анализа через син-тез схема кодирования, помимо учета ошибок квантования, включает крите-рии субъективной оценки качества ре-чевого сигнала, что обеспечивает есте-ственное звучание синтезированной ре-чи. При многоимпульсном возбужде-нии сигнал остатка линейного предска-зания представляется в виде последо-вательности импульсов с неравномер-но распределенными интервалами и с различными амплитудами (около 8-10 импульсов за 10 мс). Амплитуды и по-ложение этих импульсов определяют-ся на покадровой основе (кадр за ка-дром). Основным преимуществом мно-гоимпульсного возбуждения является то, что она определяется для любого речевого сегмента и при этом не тре-буется знаний ни о вокализованности данного сегмента, ни о периоде основ-ного тона. Методы анализа через синтез ис-пользуют синтезатор (декодер) ре-чевого сигнала как составную часть устройства кодирования. При этом задача анализа сводится к процедуре оценки передаваемых в канал связи па-раметров речи, проводимой в соответ-ствии с некоторым критерием рассо-гласования между исходным и декоди-рованным сигналами. Для учета спе-цифики слухового восприятия в каче-стве критерия рассогласования обычно используется взвешенная по частоте квадратическая ошибка где и - преобразование Фу-рье исходного и синтезированного ре-чевых сигналов; - весовая функ-ция. Принимая во внимание важ-ность для восприятия речи не только формант, но и межформантных обла-стей, для алгоритмов анализа речи че-рез синтез в качестве эталонной была предложена весовая функция следую-щего вида: где - передаточная харак-теристика синтезирующего фильтра; г - параметр, регулирующий энер-гию ошибки или шум квантования. Фактически при таком окне взвешива-ния подчеркивается ошибка в межфор-мантных областях и тем самым обеспе-чивается более равномерное по часто-те распределение отношения мощности полезного сигнала к мощности ошибки кодирования. В алгоритмах кодирования с «анализом через синтез» повышение эффективности информационного уплотнения речевых сигналов производится, преимущественно, за счет сокращения избыточности последовательности x(h), которая осуществляет возбуждение синтезирующего фильтра линейного предсказания, формирующего огибающую сигнала, с коэффициентом передачи Для этой цели применяется также дополнительный фильтр с характеристикой с коэффициентом предсказания и задержкой на период основного тона T. Фильтр выполняет функции генератора квазипериодических колебаний голосовых связок при произношении вокализованных звуков.
|