Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АрхитектураБиологияГеографияДругоеИностранные языки
ИнформатикаИсторияКультураЛитератураМатематика
МедицинаМеханикаОбразованиеОхрана трудаПедагогика
ПолитикаПравоПрограммированиеПсихологияРелигия
СоциологияСпортСтроительствоФизикаФилософия
ФинансыХимияЭкологияЭкономикаЭлектроника

Реферат «Речевой интерфейс»



Реферат «Речевой интерфейс»

Общий план


Введение

Посредством звука человек получает до 16% информации при взаимодействии со своим окружением. Таким образом, слух является вторым по важности органом чувств, благодаря которому мы познаём мир. XXI век стал поистине веком информации. Веком, когда человек постоянно взаимодействует с многочисленными искусственными информационными системами практически во всех сферах своей жизни. Самым распространённым каналом обмена информации при этом по праву является визуальный. Однако возможность получения информации посредством сразу двух дополняющих друг друга каналов позволило бы качественно преобразовать взаимодействие человека с информационными системами. Таким образом, благодаря созданию речевого сопровождения различного рода данных, открывается дополнительный канал обмена информации.

Одним из наиболее актуальных направлений применения речевого сопровождения является измерительная информация. То, что измерено всегда лучше не только увидеть, но и прослушать. Это позволило бы ускорить восприятие информации, а в ряде случаев и распараллелить восприятие сразу из нескольких источников, оптимизируя тем самым работу с измерительными приборами.

Эксплуатация второго канала связи становится необходимостью в случае, когда отображение информации графически либо сильно ограничено, либо вообще невозможно. Примером здесь может служить стартовый этап загрузки PC, когда ещё до возможности отобразить что-либо на мониторе, BIOS подаёт звуковые сигналы во время выполнения процедуры POST, обозначающие контрольные точки тестирования оборудования и подготовки к началу работы, инициализации в памяти начальных данных. Целым направлением деятельности, соответствующем подобному случаю является отладка сложных микропроцессорных систем на основе микроконтроллеров. Зачастую такие системы имеют весьма ограниченный набор средств, отображающих информацию о том, что в данный момент происходит в контроллере. Следует отметить, что в условиях высокой производительность современных процессоров, за очень короткие времена в устройстве совершаются гигантское количество операций, отследить которые при имеющихся на платах средствах крайне затруднительно. Для этого используются специальные анализаторы и устройства синхронизации, которые по сложности порой превосходят отлаживаемую систему. Голосовые знаки, распознаваемые человеком, могли бы позволить отслеживать работу программных алгоритмов, проистекающих в микроконтроллерной системе, создавая тем самым удобную поддержку отладки в существенно новом качестве.



Таким образом, для открытия второго канала получения данных из информационного устройства необходимо создать систему, относящуюся к классу систем речевого ответа [].

При этом надо отдавать отчёт в том, что каждая информационная система, а особенно это касается микроконтроллеров, имеют свои собственные специфические задачи, на которые должна выделяться основная часть аппаратных ресурсов разрабатываемого устройства. Поэтому, создавая системы, реализующие речевую поддержку информации, необходимо до предела уменьшить используемые ресурсы, чтобы минимально влиять на выполнение основных функций и алгоритмов, для которых создавалось устройство.


1. Теоритические основы

Предложенная в данном разделе информация призвана восполнить пробелы читателя в сфере физики акустических процессов, а конкретнее речевых сигналов. А также дать базовые понятия о сущности интерфейсов как в общем, так и в более специфическом применении.

1.1. Природа звука

Звук - волнообразные колебания твердых, жидких и газообразных тел воспринимаются органом слуха, ухом, в форме особого ощущения, звука. Звуковые волны распространяются от получившего удар и приведенного в дрожательное колебание тела во все стороны окружающей тела среды. Все тела по отношению к звуку делятся на проводящие и на неупругие (например - воск) и потому не проводящие звук. Обычным проводником звука является воздух. Звук распространяется со скоростью, различной для разных тел, в воздухе при 0° в 1 сек. 332,5 м. Скорость распространения звука наблюдается при громе и молнии. Гром, несмотря на то, что возникает одновременно с разрядом электричества, молнией, слышен через некоторый промежуток времени, в зависимости от отдаленности места электрического разряда. Звук характеризуется высотой, силой и оттенком. Высота звука зависит от числа колебаний звучащего тела; сила звука - в данном месте есть количество звуковой энергии, проходящей в единицу времени через единицу площади, перпендикулярной к направлению распространения звука. Оттенок звука или тембр зависит от высших или гармонических тонов, сопровождающих во всяком звуке основной тон.

1.2. Передача звука

Ещё 350 лет назад людям было не ясно, что представляет собой звук и как он распространяется. Откачивая, воздух из-под стеклянного колпака, учёные пытались узнать, будет ли звучать помещённый туда звонок. однако звучащий предмет был плохо изолирован от подставки, и звук был слышен. ошибки не заметили и сделали неправильный вывод: звук передаётся через пустоту.

И только опыты англичанина Р. Бойля привели к верному умозаключению. Для распространения звуку необходима среда-воздух, вода, дерево или металл. Именно её колебания и переносят звук к нашим ушам.

Например, рассмотрим опыт. Под колокол воздушного насоса помещают звонок и включают его. Затем начинают откачивать воздух насосом. По мере разрежения воздуха звук становится слышен всё слабее и слабее и, наконец, почти совсем исчезает. Когда же воздух снова начинают впускать под колокол, то звук звонка опять становится слышимым

Итак, в разрежённом воздухе звук распространяется плохо и совсем не распространяется в безвоздушном пространстве.

Среда необходима для передачи колебаний от источника звука к приёмнику, например к уху человека. Колебания источника создают в окружающей его среде упругую волну звуковой частоты. Волна, достигая уха, воздействует на барабанную перепонку, заставляя её колебаться с частотой, соответствующей частоте источника звука.

Опыты показывают, что различные твёрдые тела проводят звук по-разному. Упругие тела - хорошие проводники звука. Большинство металлов, дерево, газы, а также жидкости являются упругими телами и поэтому хорошо проводят звук.

1.3. Основные характеристики звука.

Энергетической характеристикой звуковых колебаний является интенсивность звука - энергия, переносимая звуковой волной через единицу поверхности, перпендикулярную направлению распространения волны, в единицу времени. Интенсивность звука зависит от амплитуды звукового давления, а также от свойств самой среды и от формы волны. Субъективной характеристикой звука, связанной с его интенсивностью, является громкость звука, зависящая от частоты. Наибольшей чувствительностью человеческое ухо обладает в области частот 1-5 кгц. В этой области порог слышимости, т. е. интенсивность самых слабых слышимых звуков, по порядку величины равна 10-12 вм/м2, а соответствующее звуковое давление - 10-5 н/м2. Верхняя по интенсивности граница области воспринимаемых человеческим ухом З. характеризуется порогом болевого ощущения, слабо зависящим от частоты в слышимом диапазоне и равным примерно 1 вм/м2.

При распространении звуковой волны в заданном направлении происходит постепенное её затухание, т. е. уменьшение интенсивности и амплитуды. Знание законов затухания практически важно для определения предельной дальности распространения звукового сигнала. Затухание обусловливается рядом факторов, которые проявляются в той или иной степени в зависимости от характеристик самого звука (и в первую очередь, его частоты) и от свойств среды. Все эти факторы можно подразделить на две большие группы. В первую входят факторы, связанные с законами волнового распространения в среде. Так, при распространении в неограниченной среде звука от источника конечных размеров интенсивность его убывает обратно пропорционально квадрату расстояния. Неоднородность свойств среды вызывает рассеяние звуковой волны по различным направлениям, приводящее к ослаблению её в первоначальном направлении, например рассеяние звука на пузырьках в воде, на взволнованной поверхности моря, в турбулентной атмосфере, рассеяние высокочастотного ультразвука в поликристаллических металлах, на дислокациях в кристаллах. На распространение звука в атмосфере и в море влияет распределение температуры и давления, силы и скорости ветра. Эти факторы вызывают искривление звуковых лучей, т. е. рефракцию звука, которая объясняет, в частности, тот факт, что по ветру звук слышен дальше, чем против ветра. Распределение скорости звука с глубиной в океане объясняет наличие т. н. подводного звукового канала, в котором наблюдается сверхдальнее распространение звука, например звук взрыва распространяется в таком канале на расстояние более 5000 км.

Вторая группа факторов, определяющих затухание звука, связана с физическими процессами в веществе - необратимым переходом звуковой энергии в другие формы (главным образом в тепло), т.е. с поглощением звука, обусловленным вязкостью и теплопроводностью среды, а также переходом звуковой энергии в энергию внутримолекулярных процессов (молекулярное или релаксационное поглощение). Поглощение З. заметно возрастает с частотой. Поэтому высокочастотный ультразвук и гиперзвук распространяются, как правило, лишь на очень малые расстояния, часто всего на несколько см. В атмосфере, в водной среде и в земной коре дальше всего распространяются инфразвуковые волны, отличающиеся малым поглощением и слабо рассеиваемые. На высоких ультразвуковых и гиперзвуковых частотах в твёрдом теле возникает дополнительное поглощение, обусловленное взаимодействием волны с тепловыми колебаниями кристаллической решётки, с электронами и со световыми волнами. Это взаимодействие при определённых условиях может вызвать и "отрицательное поглощение", т. е. усиление звуковой волны.

Распространение звуковых волн характеризуется в первую очередь скоростью звука. В газообразных и жидких средах распространяются продольные волны (направление колебательного движения частиц совпадает с направлением распространения волны), скорость которых определяется сжимаемостью среды и её плотностью. Скорость З. в сухом воздухе при температуре 0°С составляет 330 м/сек, в пресной воде при 17°С - 1430 м/сек. В твёрдых телах, кроме продольных, могут распространяться поперечные волны, с направлением колебаний, перпендикулярным распространению волны, а также поверхностные волны. Для большинства металлов скорость продольных волн лежит в пределах от 4000 м/сек до 7000 м/сек, а поперечных - от 2000 м/сек до 3500 м/сек.

1.4. Речевой сигнал

Большинство сигналов в природе, включая речь и музыку, могут быть описаны при помощи гармонической модели, которая определяется следующим набором параметров: фундаментальной частотой, амплитудой и фазой каждой частотной компоненты. Гармонический сигнал генерируется серией синусоид или гармонических компонент, частоты которых являются целочисленным кратным некоторой фундаментальной частоты. Данная модель является весьма эффективным решением для большого количества приложений кодирования сигнала, так как позволяет представить сигнал с помощью достаточно компактного набора параметров.

Первые попытки представления речевого сигнала с помощью гармонической модели датируются началом 1980-х гг. [1]. В дальнейшем в системах анализа–синтеза речи данное представление стало уточняться и дополняться описанием сигнала-остатка в форме шумовой модели [2], что позволяет повысить точность представления речевого сигнала, а вместе с тем и качество.

Некоторые сегменты речевого сигнала сложно разделить на периодическую и апериодическую составляющие, используя гармоническую и шумовую модели. Это происходит при попадании в сегмент взрывных звуков, наличии в сегменте одновременно гласных и глухих согласных, присутствии каких-то локальных явлений. Следующей ступенью развития представления речевого сигнала стала гибридная модель [3], предусматривающая три возможных класса для сегмента речи — вокализованный, невокализованный, переходный. Особенностью ее является анализ–синтез переходных сегментов во временной области, в то время как вокализованные и невокализованные сегменты обрабатываются в частотной области.

Рис. 7. Результат применения метода VDVQ, использующего линейную шкалу чувствительности слуховой системы человека

1.4.1. Анализ речевых сигналов

Из общей теории связи известно, что информация, содержащаяся в физических сигналах, обычно присутствует в их амплитуде (абсолютной или относительной), в частоте, в спектральном составе, в фазе или в относительных временных (частотных) зависимостях нескольких сигналов [].

Существующий опыт научного познания при изучении физических процессов, явлений и систем позволяет в самом общем случае выделить следующие этапы, связанные с обработкой сигналов []:

1. Преобразование исходных физических величин или параметров, характеризующих свойства исследуемых объектов, в электрический сигнал, как наиболее удобный для дальнейшей обработки.

2. Регистрация (в случае необходимости – передача) полученных сигналов и подготовка к их дальнейшей обработке.

3. Оценивание основных свойств сигналов.

4. Формирование информативных характеристик (параметров и функций).

5. Анализ и обработка полученных данных (вторичная обработка).

6. Принятие решения, совершение определённого действия, классификация, прогнозирование на основе полученных данных и формирование управляющего воздействия на исследуемый объект.

Все эти задачи могут решаться либо аналоговыми, либо цифровыми методами и средствами. В данном случае предпочтение отдаётся второму варианту, т.к. цифровая обработка сигналов обладает следующими преимуществами:

· многофункциональность (универсальность);

· многоканальность, обусловленная возможностью мультиплексирования;

· реализация произвольных преобразований любой сложности;

· высокая стабильность характеристик;

· возможность многократно и точно воспроизводить требуемые преобразования (повторяемость характеристик);

· уникальные возможности для адаптации (управление характеристиками);

· высокая точность воспроизведения операторов обработки;

·возможность документальной регистрации полученных результатов на различных носителях;

· простота включения в состав измерительно-информационных или вычислительно-информационных систем.

Тем не менее, следует отметить, что цифровой обработке сигналов присущи такие недостатки, как:

· наличие вычислительных ошибок (проблемы конечной разрядности чисел);

· нелинейные эффекты переполнения и предельных циклов;

· зависимость скорости обработки от точности;

· более высокая сложность и стоимость по сравнению с аналоговыми устройствами того же назначения.

Кроме того, именно алгоритмы цифровой обработки сигналов легли в основу современных технологий, связанных с речевыми и аудио сигналами (передача речевых данных; синтез и распознавание речи; озвучивание текста; цифровые аудиосистемы), что непосредственно связано с данной работой.

2. Методология

2.1. Расчёт спектральной плотности мощности

В последнее время наиболее часто используется определение спектральной плотности мощности, основанное на непосредственном преобразовании Фурье исследуемой реализации:

(1)

где

М – оператор статистического усреднения.

Из данного определения оценка спектральной плотности мощности может быть получена в следующем виде

(2)

где

Здесь – это односторонняя спектральная плотность, поэтому в приведенном выражении стоит цифра 2.

Основные свойства этой оценки:

(3)

т. е. данная оценка является асимптотически несмещенной.

Дисперсия данной величины

(4)

Это значит, что асимптотически несмещенная оценка не является состоятельной. Другими словами, средняя квадратическая погрешность данной оценки равна 1 или 100 %.

Преодолеть возникшие трудности можно воспользовавшись некоторыми свойствами самой функции часто называемой периодограммой. Во-первых, она является случайной функцией частоты. При этом интервал корреляции по частоте составляет величину, примерно равную При случайные величины и с увеличением интервала Т становятся все менее коррелированными, т. е.

(5)

Это обстоятельство и лежит в основе получения состоятельных оценок спектральной плотности мощности, т. е. путем сглаживания (усреднения) оценки по сравнительно небольшому интервалу частот может быть получена оценка с убывающей дисперсией, хотя и с некоторым смещением.

Для того, чтобы по отсчетам обрабатываемого сигнала можно было бы получить спектральные оценки в соответствующих единицах энергии или мощности, необходимо выражение для прямого ДПФ умножить, а для обратного ДПФ разделить на интервал дискретизации  t:

(6)

(7)

где – интервал наблюдения (длительность обрабатываемой реализации).

В этом случае оценка спектральной плотности мощности будет определяться следующим образом:

(8)

где

Эта оценка называется выборочным спектром, периодограммой Шустера или просто периодограммой.

Данная оценка также не является состоятельной оценкой истинной спектральной плотности мощности (СПМ), так как дисперсия этой величины не стремится к нулю ни при каком сколь угодно большом значении N. Вследствие этого для получения состоятельных оценок требуется выполнение операции статистического усреднения. В этом случае будем иметь

(9)

Для расчетов используется выражение

(10)

которое называют исходной немодифицированной формой периодограммной оценки СПМ.

Для сглаживания периодограммной оценки используются три основных метода: метод Даньелла (Даниелла), Бартлетта и Уэлча.

3. История

Впервые концепция ГИП была предложена учеными из исследовательской лаборатории Xerox PARC в 1970-х.

В 1973 году в лаборатории Xerox PARC собрали молодых учёных и дали свободу исследований. В результате, кроме всего прочего, на свет появляется концепция графического интерфейса WIMP (Windows, Icons, Menus, Point-n-Click).[1] В рамках этой концепции создаётся компьютер Alto.

В 1979 году Three Rivers Computer Company выпускает рабочую станцию PERQ, похожую по принципам построения на Alto. В 1981 Xerox выпускает продолжение Alto — Star.

Коммерческое воплощение концепция ГИП получила в продуктах корпорации Apple Computer. В операционной системе AmigaOS ГИП с многозадачностью был использован в 1985 году. В настоящее время ГИП является стандартной составляющей большинства доступных на рынке операционных систем и приложений.

Примеры систем, использующих ГИП: Mac OS, Solaris, GNU/Linux, Microsoft Windows, NeXTSTEP, OS/2, BeOS.

4. Классификация

Можно выделить следующие виды ГИП:

простой: типовые экранные формы и стандартные элементы интерфейса, обеспечиваемые самой подсистемой ГИП;

истинно-графический, двумерный: нестандартные элементы интерфейса и оригинальные метафоры, реализованные собственными средствами приложения или сторонней библиотекой;

трёхмерный: на данный момент слабо классифицирован.

Естественно-языковой интерфейс

Пользователь «разговаривает» с программой на родном ему языке. Т.к данная тема самым тесным образом связана с тематикой данной магистерской работы, её обсуждение приводится отдельным подразделом («Общий обзор в сфере голосового интерфейса») ниже.

Физический интерфейс

Способ взаимодействия физических устройств. Чаще всего речь идёт о компьютерных портах.

4.1. Общий обзор в сфере голосового интерфейса

Как и искусственный интеллект, голосовое управление (далее ГУ) относится к вещам, которые вот уже десятки лет должны произойти в следующем году. Из-за этого напряженного ожидания оказывается довольно трудным рассудить, что именно ГУ может дать интерфейсу, поскольку у ГУ, помимо достоинств, есть и явный недостаток: во многих случаях оно не может являться очень быстрым интерфейсом.

Если сравнить время, затрачиваемое на произношение команды (для чистоты мысленного эксперимента не будем засчитывать обработку команды системой), с уже имеющимися сейчас методами взаимодействия, окажется, что ГУ в очень многих случаях оказывается на порядок более медленным. Например, для пользователя, сидящего за компьютером, щелкнуть мышью по кнопке чаще всего гораздо быстрее, чем произнести название этой кнопки (из этого наблюдения рождается следующая эвристика: для ГУ короткие названия кнопок предпочтительны в отношении скорости). Разумеется, если пользователь не сидит за компьютером, а сидит в другой комнате, ГУ окажется более быстрым.

Кроме того, говоря о ГУ, следует сразу определиться в отношении понимания системой нечетких команд. Система может как «понимать» команду, так и ограничиваться сравнением услышанного с содержимым своего банка команд. Во втором случае от пользователя будет требоваться время и усилие на формирование понятной системе команды, что резко увеличит число ошибок и уменьшит скорость взаимодействия. Можно, конечно, держать пользователя перед монитором и показывать ему возможные в данном контексте команды (читай — меню), но, как уже было сказано, необязательно, что голосовой ввод команд в такой ситуации будет самым быстрым. Проблема здесь заключается в том, что от понимания системой команд мы ещё очень далеки, в ближайшие несколько лет речь может идти только в сравнении команды с банком. В ближайшее время ГУ будет не более чем очередной инкарнацией пресловутой командной строки со всеми её проблемами – ничего принципиально революционного с её появлением не произойдет. В прессе, напротив, ГУ обсуждается так, будто этого понимания мы уже достигли, что попросту некорректно.

Ситуацию портит ещё и то, что полное введение ГУ в теперешних интерфейсах, к сожалению, очень трудоемко. Большинство диалоговых окон нужно будет переделывать, чтобы голосом можно было быстро изменить любой параметр в них. Учитывая стоимость такой переделки, легко предположить, что после появления ГУ большинство программ долго не смогут полноценно пользоваться этим способом взаимодействия. ГУ опять откладывается на несколько лет.

Таким образом, в ближайшие годы ГУ отнюдь не революционизирует пользовательские интерфейсы, но улучшит интерфейсы существующие. Голосовой интерфейс, сопряженный с тем же GUI, может сделать (и сделает) жизнь пользователей гораздо проще. Достаточно сказать, что компьютерная клавиатура для большинства пользователей станет архаикой – одно это стоит того, чтобы молиться на голосовое управление. Но само ГУ в чистом виде всех проблем отнюдь не решит.


5. Заключение

На протяжении десятилетий мы привыкли приспосабливать свои привычки, поведение и образ мышления к существующим технологиям. Мы улучшили свою производительность, используя инструменты и устройства, спроектированные именно для конкретных задач, с которыми мы чаще всего сталкиваемся. Но мы также ограничиваем наши способности функциями этих устройств, от которых мы стали зависимы.

Мы привыкли ко многим вещам: к традиционной клавиатуре и мыши, к интерфейсу в формате 2D, к возможности работы только с одним приложением, к примеру, когда вы работаете со своим браузером и не можете одновременно измерить масштаб текста и изменить размер окна...

Но есть хорошие новости. Все можно изменить. И данная магистерская работа вносит свой небольшой, но посильный вклад в эту неумолимую тенденцию.

6. Литература

Almeida L., Tribolet J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1983. Vol. ASSP-31, № 3. P. 664–678.

Stylianou Y. // IEEE Trans. on Speech and Audio Proc. 2001. Vol. 9, № 1. P. 21–29.

Shlomot E., Cuperman V., Gersho A. // IEEE Trans. Speech and Audio Proc. 2001. Vol. 9, № 6. P. 632–646.

Стретт Дж. В. (лорд Рэлей), "Теория звука", пер. с англ., 2 изд., М., Лихачoff 1955;

Красильников В. А., "Звуковые и ультразвуковые волны в воздухе, воде и твердых телах", 3 изд., М., 1960.

Скучик Е., "Основы акустики", пер. с нем., т. 1 - 2, М., 1958 - 59;


Дата добавления: 2015-08-29; просмотров: 144 | Нарушение авторских прав




<== предыдущая лекция | следующая лекция ==>
ГБОУ СОШ № 323 Невского района Санкт-Петербурга | 1. Рефлекторное потоотделение

mybiblioteka.su - 2015-2024 год. (0.026 сек.)