Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Кодирование речи – вокодеры

Читайте также:
  1. A)& Кодированием
  2. ГЛАВА 6. Канальное кодирование (часть 1).
  3. ГЛАВА 7. Канальное кодирование (часть 2).
  4. Двоичное кодирование в компьютере
  5. Двоичное кодирование графической и звуковой информации.
  6. Двоичное кодирование звуковой информации
  7. Двоичное кодирование текстовой информации
  8. Двочное неравномерное кодирование без использования разделителей
  9. Декодирование
  10. Декодирование последовательности по алгоритму Витерби

Речь формируется с помощью возбуждения акустической трубы, называемой голосовым трактом. Голосовой тракт начинается от голосовой щели и оканчивается губами. «Огласованные» звуки (например, «а» и «е») образуются вследствие колебания голосовых связок, которые вырабатывают квазипериодическую последовательность импульсов воздушного потока, возбуждающую голосовой тракт. Вот почему огласованные звуки речи по своей природе являются периодическими. И несмотря на то, что огласованный звук может иметь сходство со случайным шумом, достаточно наличия даже слабых импульсов для обнаружения периодической природы звука. Это именно та структура (или образ), которая выделяется вокодерами и затем используется для цифрового представления речи. Частота следования этих импульсов называется основным тоном речи.

Неогласованные звуки (например, «S» и «F») образуются благодаря смыканию голосового тракта и продавливанию воздушного потока через область смычки. В области смычки возникает турбулентный воздушный поток, создающий шумоподобное возбуждение голосового тракта. Вот почему неогласованные звуки очень похожи на случайный шум. Действительно, генераторы случайного шума можно использовать для восстановления неогласованных звуков.

Эти источники обеспечивают широкополосное возбуждение голосового тракта. Для моделирования голосового тракта можно воспользоваться фильтром с медленно меняющимися во времени параметрами, который подстраивает свои частотные характеристики под спектр сигнала возбуждения. При этом цифровой фильтр будет стремиться так изменить свои коэффициенты, чтобы как можно точнее отразить параметры голосового тракта.

Речевые кодеры называются «вокодерами» (от англ. voice – голос, coder - кодировщик). Вокодеры отображают речевые сигналы в соответствии с математической моделью голосового тракта человека. Вместо передачи текущих квантованных отсчетов сигнала речевой кодер передает параметры модели. Декодер вводит принятые параметры в математическую модель и генерирует сигнал, подобный исходному речевому сигналу. Процесс определения параметров модели называется анализом, а процесс воспроизведения речи по выбранным параметрам называется синтезом.

Качество вокодерного звука значительно изменяется в зависимости от входного сигнала, поскольку вокодеры основаны на модели голосового тракта. Сигналы от источников, не совпадающих с моделью, могут кодироваться плохо, и результатом воспроизведения будет сигнал очень низкого качества.

Вокодеры предполагают, что источники возбуждения и состояние голосового тракта относительно независимы. Изображенная на рисунке структурная схема представляет именно такой вокодер. Фильтр с переменными во времени параметрами моделирует голосовой тракт. Однако голосовой тракт изменяет свое состояние довольно медленно. Поэтому резонно предположить, что фильтр является инвариантным (т.е. не меняющимся) на коротких отрезках времени (например, 12 мс). Огласованные звуки создаются периодическим возбуждением, на которое накладываются частотные характеристики модели голосового тракта. Источником возбуждения для формирования неогласованных звуков является генератор случайных чисел, а частотные характеристики модели голосового тракта накладываются, как и в первом случае. Всякий раз модель голосового тракта (фильтр) может накладывать различные частотные характеристики на источник возбуждения.

Чтобы лучше понять, как работают вокодеры, в дальнейшем рассмотрим базовую конструкцию самого раннего вокодера – полосового (или канального) вокодера, который широко используется до сих пор.

· Полосовой вокодер – анализатор

Полосовой вокодер расщепляет речевой сигнал на расширяющиеся, неперекрывающиеся частотные субполосы. Полный диапазон охватывает все частоты, которые может слышать человеческое ухо. Поступающий речевой сигнал разделяется на сегменты длительностью примерно 20 мс.

Сигнал на выходе каждой субполосы выпрямляется и фильтруется для определения его спектральной огибающей. Далее огибающая преобразуется в цифровую форму и поступает на устройство временного уплотнения (мультиплексор) для передачи по каналу связи. Обычно используются 16 субполос, охватывающих полный диапазон звуковых частот.

Речевой сигнал, кроме того, анализируется для получения частоты основного тона. Значение частоты сигнала возбуждения для огласованных звуков через мультиплексор передается в канал связи. Поскольку неогласованные звуки не имеют основного тона, кодируется и передается только указание на тип возбуждения.

Выделитель основного тона определяет различие между «огласованными» и «неогласованными» сегментами. Огласованные сегменты с их ясной периодичностью довольно легко отделить от неогласованных сегментов, которые являются непериодическими. Однако очень трудно оценить сегменты, которые попадают между этими двумя крайностями. Существует ряд алгоритмов выделения огласованных сегментов, но ни один из них не применим во всех случаях.

Итак, полосовой вокодер выделяет в кадре поступающего речевого сигнала три главных параметра:

· огибающую спектра речевого сигнала,

· основной тон,

· амплитуду (уровень).

Выделенная информация после временного уплотнения передается по каналу связи. Такой анализ не сохраняет самобытность речи, но делает возможным сжать ее без потери разборчивости.

· Полосовой вокодер – синтезатор

Задача синтезатора состоит в изменении процесса кодирования на обратный. Полученный сигнал сначала демультиплексируется, чтобы выделить различные параметры сигнала. Часть сигнала, несущая информацию об огибающей спектра, преобразуется в аналоговую форму. Если она принадлежит сегменту огласованной речи, для возбуждения используется последовательность импульсов с частотой основного тона, в результате чего «заполняется» огибающая спектра. Если огибающая принадлежит неогласованному сегменту, для восстановления звука используется генератор шума. Наконец, сегмент сигнала фильтруется полосовым фильтром в его первоначальной частотной области.

Из рассмотрения структурной схемы вокодеров становится совершенно очевидным, что большинство блоков может быть реализовано на современных ЦПОС. Особенно легко реализовать фильтры, причем занимаемое ими время обработки укладывается в интервалы, требуемые речевыми сигналами. Известен ряд алгоритмов оценки основного тона, уже реализованных с использованием ЦПОС. Производительность ЦПОС и их пригодность для обработки сигналов делают возможным реализацию эффективных устройств оценки основного тона. Многие вокодеры, речевая почта, автоответчики и системы маршрутизации используют ЦОС-технологию.

Мы объяснили основы работы одной из самых ранних конструкций вокодеров, но существует ряд различных вокодерных систем, которые используют другие методы обработки сигналов. Каждая из этих довольно специализированных систем имеет конкретную область применения

· Выводы:

исследованы:

· общий подход к кодированию сигналов,

· кодирование речи,

· кодирование изображений.

Одним из наиболее широко используемых цифровых методов кодирования является ИКМ (импульсно-кодовая модуляция); также широко применяются ее варианты: ДИКМ (дифференциальная импульсно-кодовая модуляция) и АДИКМ (адаптивная дифференциальная импульсно-кодовая модуляция).

· Кодирование речи

Схемы кодирования речи разрабатываются для сжатия речевых сигналов. Большинство схем кодирования речи используют периодичность в «огласованных» сегментах речи и пренебрегают участками сигнала, не воспринимаемыми ухом человека. Речевые кодеры обычно называются вокодерами. Благодаря использованию этих двух (и других) свойств речевых сигналов вокодеры способны сжимать речевые сигналы без существенных потерь в качестве.

· Кодирование изображений

Кодирование изображений вызывает большие сложности. Один черно-белый ТВ-кадр требует приблизительно полумиллиона битов. Полоса пропускания, необходимая для передачи цветного ТВ без какого-либо кодирования, должна соответствовать скорости передачи 200Мбит/сек. Чтобы сжимать такие изображения, нужны достаточно впечатляющие схемы кодирования.

Кодеры изображений используют преобразования сигналов, в частности, повсеместно применяется дискретное косинусное преобразование (ДКП). БПФ не подходит для кодирования изображений, т.к. формирует мнимые компоненты.

Благодаря ДКП оказывается достижимым коэффициент сжатия 20. Такой коэффициент компрессии сожмет изображение объемом в 1 Мбайт почти до 50 Кбайт.

Видео-, анимационные и им подобные системы имеют дело с движущимися изображениями. Такие системы требуют передачи по крайней мере 25 кадров в секунду, но различие между кадрами маленькое. Методы сжатия видео- и подвижных изображений основаны на сходстве между кадрами. Например, стандарты серии Н для кодирования видеоизображений передают только направление и величину смещения. Следующий кадр конструируется, исходя из этой информации. MPEG пользуется подобным свойством движущихся изображений и находит сходства с предыдущим кадром, следующим кадром или с обоими кадрами.

· Реализация

ЦПОС являются превосходными процессорами для большинства схем кодирования. Мы сами являемся свидетелями рождения нового поколения ЦПОС, такого как TMS320C80, который специально сконструирован для задач обработки видео- и подвижных изображений. Наряду с такими мощными процессорами системы обработки речи, требующие меньшей производительности, также используют ЦПОС, поскольку на них легче и эффективнее реализуются необходимые функции обработки сигналов.

выход




Дата добавления: 2014-12-18; просмотров: 50 | Поможем написать вашу работу | Нарушение авторских прав




lektsii.net - Лекции.Нет - 2014-2024 год. (0.009 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав