Математические методы исследования фонационно-артикуляционных параметров речи тема диссертации и автореферата по ВАК РФ 10.02.21, доктор филологических наук Собакин, Аркадий Николаевич
- Специальность ВАК РФ10.02.21
- Количество страниц 252
Оглавление диссертации доктор филологических наук Собакин, Аркадий Николаевич
ВВЕДЕНИЕ.
ГЛАВА I
ЛИНЕЙНАЯ МОДЕЛЬ РЕЧЕОБРАЗОВАНИЯ И ЕЕ ПАРАМЕТРЫ. ПОСТАНОВКА ЗАДАЧИ АНАЛИЗА И СИНТЕЗА РЕЧИ ПО ПАРАМЕТРАМ
§ 1.1. Модель речеобразования. Окно анализа.
§ 1.2. Параметры модели речеобразования.
§ 1.3. Анализ речи.
§ 1.4. Параметрический синтез речи.
Выводы к главе 1.
ГЛАВА II
ОЦЕНИВАНИЕ ПАРАМЕТРОВ РЕЧЕВОГО ТРАКТА ПО ЗВУКОВОЙ ВОЛНЕ
§ 2.1. Обратная фильтрация речи. Окно анализа. Параметры речевого тракта.
§ 2.2. Математические методы обратной фильтрации.
§ 2.3. Спектральные методы анализа речевого тракта.
§ 2.4. Прямые расчетные методы исследования речевого тракта по речевой волне.
Выводы к главе 2.
ГЛАВА III
МАТЕМАТИЧЕСКИЕ МЕТОДЫ ИССЛЕДОВАНИЯ ФОНАЦИОННЫХ ХАРАКТЕРИСТИК
§3.1. Постановка задачи. Краткий обзор методов выделения основного тона по речевому сигналу.
§ 3.2. Математический метод преобразования речевых колебаний в импульсную последовательность.
§ 3.3. Выделение импульсов основного тона по речевому сигналу.
§ 3.4. Исследование голосового источника с использованием линейного предсказания.
§ 3.5. Параллельный анализ основного тона на основе корреляционной матрицы.
Выводы к главе 3.
ГЛАВА IV
АДАПТИВНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ РЕЧИ
§4.1. Общие положения.
§ 4.2. Адаптивные методы вычисления параметров речевого тракта.
§ 4.3 Адаптивные структуры определения параметров речевого тракта на сфере в различных метрических пространствах.
§ 4.4. Определение основного тона речи адаптивным методом.
Выводы к главе 4.
Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК
Исследование обратной задачи для голосового источника с помощью процедуры реконструкции математических моделей речевого процесса2008 год, кандидат технических наук Якушев, Дмитрий Владимирович
Математические модели образования звучной речи2004 год, кандидат технических наук Коцубинский, Владислав Петрович
Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени2000 год, доктор технических наук Гитлин, Валерий Борисович
Модель голосообразования и анализ речевого сигнала в норме и при патологии2007 год, кандидат технических наук Квасов, Алексей Николаевич
Модели речевых сигналов для аутентификации личности по голосу2010 год, доктор технических наук Голубинский, Андрей Николаевич
Введение диссертации (часть автореферата) на тему «Математические методы исследования фонационно-артикуляционных параметров речи»
История человечества отмечена целым рядом научно-технических открытий и изобретений. Одним из фундаментальных фактов в этом ряду исследований является осознание несомненной важности в организации и существовании сообществ людей информационных потоков между членами сообщества. Без обмена информацией между людьми невозможны процессы сохранения и накопления знаний, совместных и согласованных действий в трудовой деятельности и, вообще говоря, развития и сохранения цивилизации.
В повседневной деятельности человек часто использует речь как средство общения, поэтому сам процесс речевой коммуникации ему представляется достаточно простым и о сложности его он часто не подозревает. Речь как способ общения является для нас столь привычным явлением, что мы часто не задумываемся о сущности этого процесса, его реализации и характеристиках. Сказанное о речи относится к большинству людей, но, естественно, не ко всему человечеству в целом. Важность исследования этого явления осознавалось человеком с незапамятных времен.
Платон, Гиппократ, Авиценна придавали большое значение звучащей речи, а произнесенное «слово», по их мнению, имело оттенок даже мистического воздействия на человека. Это хорошо известно религиозным деятелям, мистикам всех родов, политикам и т.д. Слово в понимании древних1 могло оказывать на человека сложное воздействие (увеличивать защитные силы человека и лечить его: «.по вере твоей.», нести в себе недобрые намерения, угнетать человека и т.п.). В этом смысле речь человека больше чем просто информационный канал, служащий для передачи смысла сказанного говорящим слушателю.
1 Следует оговориться, что современные представления о воздействии речи на человека не до конца изучены и во многих аспектах не опровергают древних. Лингвопрограммирование, например, использует приемы древних в своей практической деятельности.
Помимо подспудного (неосознанного) содержания, речь включает в себя непосредственную информационную компоненту, которая должна дойти до получателя (слушателя) несмотря на возможные внешние шумовые воздействия. Другими словами, речь должна быть весьма сильно защищена от различных природных и технических шумов и должна обладать своими особыми свойствами и характеристиками, отличающими ее от иных звуков. В речи такая помехозащищенность присутствует в виде избыточности и приобретается на основе адаптации речеобразующих и слуховых органов человека в процессе своего развития. Понятно, что умение говорить и понимать речь не является врожденным качеством человека, а приобретается им в первые годы жизни.
Избыточность звучащей речи позволяет нам, с одной стороны, понимать сказанное в достаточно сложной шумовой обстановке, а с другой, - передавать нам большее количество информации о говорящем, чем просто понимание смысла сказанного. Мы воспринимаем индивидуальность голоса диктора, часто его эмоциональное и физическое состояние, стиль и тип высказывания и т. п.
Благодаря избыточности мы извлекаем речевую информацию из искаженного речевого сигнала по нескольким его параметрам и характеристикам, обладающими соответствующими компенсационными свойствами по отношению друг к другу. Например, значение основного тона гласной, временная огибающая (интенсивность) и длительность слога определяют его ударность. При этом взаимовлияние этих характеристик речи на ударность слога не представляется в виде однозначной зависимости, и аудитор регистрирует ударность слога при их определенном и достаточно сильном искажении.
Другой отличительной характеристикой речи, обусловленной особенностями артикуляционного аппарата человека и адаптационными свойствами нервной системы человека, является ее вариативность. Практически невозможно дважды повторить одно и то же высказывание так, чтобы временная организация звучания была бы в них идентична. Физические параметры, их значения и временная организация в этих высказываниях отличаются друг от друга, что отрицательно влияет на построение тех или иных систем распознавания речи и не позволяет использовать напрямую сравнение двух предъявленных образцов речи. В связи с вышесказанным, процедура сравнения существенно усложняется в силу отмеченной вариативности звучащей речи.
В таком широком понимании информационного содержания звучащей речи трудно выделить базовые характеристики и параметры процесса речевой коммуникации, а в отсутствии общей модели процесса трудно сформулировать задачу его всестороннего исследования.
Оказалось, что чем глубже проникает человек в суть процесса речевой коммуникации, тем сложнее становится задача разработки общей концепции этого явления. Примеров существенного возрастания сложности изучаемых процессов и явлений можно привести немало. При исследовании речи мы имеем, по-видимому, столь же фундаментальную задачу, как в области психиатрии и других разделов медицины, связанных в той или иной степени с изучением свойств нервной деятельности человека. Познать самого себя оказалось значительно сложнее, чем окружающий нас физический мир.
На первый взгляд речевое общение представляет собой вполне объяснимое явление. Так, например, в диалоге один из участников является диктором и произносит, воспроизводит речь в виде акустических колебаний, а другой - аудитор воспринимает эти колебания с помощью слухового аппарата и понимает смысл произнесенного. Однако эта простота и ясность сразу исчезают, как только мы сформулируем следующие вопросы: как происходит формирование речевого сигнала, каковы законы его распространения в пространстве и каким образом из него извлекаются необходимые сведения.
Из поставленных вопросов относительно простым является второй. Законы распространения акустических колебаний могут быть достаточно точно описаны уравнениями математической физики, учитывающими распространение воздушного давления в окружающем нас пространстве. Это не означает, однако, что, получив эти уравнения в явном виде, мы столь же просто получим ответ на поставленный вопрос. Описать распространение воздушного давления, являющегося функцией времени и пространственных координат, можно на базе этих уравнений только после определения массы параметров и характеристик процесса рече-образоваиия неизвестных заранее.
Еще сложнее обстоит дело с ответами на два других поставленных вопроса.
Процесс речеобразования представляет собой целую цепь сложных до конца необъясненных процессов - от возникновения замысла произнесения до его физической реализации органами артикуляции. В этом процессе речепроизводства участвуют многие отделы головного мозга, вырабатывающие в результате сумму согласованных между собой команд управления артикуляционными органами. Надо сказать, что весь процесс в целом представляет столь сложную последовательность взаимообусловленных и взаимозависимых явлений, что до настоящего времени нет единой концепции, объясняющей это явление.
Современные модели речевой коммуникации «человек - человек» включают и учитывают [Потапова 1986, 2001, 2003] со стороны говорящего:
- психофизическое состояние и намерение (интенция);
- тактику вербального и невербального поведения по отношению к партнеру;
- оценку ситуации;
- «хранилище» лингвистических знаний и владение языком;
- лингвистическое кодирование сообщения;
- артикуляцию и фонацию (образование акустического сигнала);
- канал передачи, со стороны слушающего:
- эффект ожидания при принятии сообщения;
- психофизическое состояние;
- оценку ситуации;
- тактику поведения по отношению к говорящему;
- регистрацию звуковых колебаний;
- «хранилище» лингвистических знаний и владение языком;
- лингвистическое декодирование сообщения.
В таком широком понимании процесс речевого общения изучен недостаточно. Задача разработки подобной концепции и моделирования целостного процесса речевого общения осложняется в рассматриваемом случае невозможностью измерения характеристических параметров процесса речеобразования непосредственно в момент произнесения на всех его уровнях. Единственно доступными для изучения оказались органы артикуляции [Фант 1968, Фланаган 1968] что, в конечном счете, позволило создать несколько моделей их функционирования. В диссертации далее под процессом речеобразования понимается низший иерархический уровень (реализация) речевой коммуникации «человек-человек» как наиболее изученный. В настоящее время эти модели уточняются с помощью более совершенных методов исследования.
Прикладные задачи речеведения выдвигают на первый план задачу углубленного изучения физических и акустических свойств артикуляционных органов человека, их параметров и характеристик. С одной стороны, это требовало использования соответствующих регистрирующих устройств (датчиков), применения из смежных областей знаний методов физического, биоэлектрического и (или) аудиометрического исследования сложных резонаторов, возможности математического моделирования процессов распространения звуковых колебаний в таких резонаторах и т.п. С другой стороны, практические запросы техники кодирования и передачи речи по каналам связи ставили задачу фонационно-артикуляционного описания речи в прямую зависимость от качества синтеза речи по полученным параметрам. Таким образом, модель речеобразования, ее параметры и характеристики должны были в полном объеме содержать речевую информацию. С точки зрения техники связи также необходимо было иметь возможность синтезировать речь по этим параметрам, по качеству не отличимую на слух от исходного, естественного образца. Это направление исследований в технике связи привело к разработке современных систем синтетической телефонии.
Существенный вклад в рассматриваемую проблему внесли два направления исследования речи, которые, дополняя друг друга, могли привести к созданию оптимальной модели речеобразования, удобной для анализа и синтеза речи по параметрам.
Первое направление связано с изучением процессов движения артикуляционных органов в их взаимодействии с источником звуковых колебаний при речеобразовавнии [Lewis 1936; Farnsworth 1940; Smith 1954; Miller 1956; Stevens, Kosowski, Fant 1953; Фант 1968; Сорокин 1985, 2000]. Это исследовательское направление позволяет накопить более полный объем знаний о динамике речевого тракта, изменения его длины, перемещений языка, нёбной занавески, губ, об образовании, например, губной или губно-зубной смычки.
Для описания распространения звукового давления в речевом тракте как акустическом, объемном резонаторе с изменяющимися во времени формами используются пространственные уравнения математической физики в частных производных с граничными условиями. При определении граничного воздействия на распространение звукового давления необходимо учитывать коэффициенты отражения тканей стенок речевого тракта (их вязкоупругость и инерционные характеристики), жесткость и упругость мышц, управляющих речеобразующими органами, механические характеристики речевого аппарата и т. п.
Всё это сильно усложняет задачу математического моделирования процесса речеобразования в такой постановке, поскольку значения коэффициентов отражения не известны априори, более того, они изменяются во времени и являются динамическими характеристиками процесса речеобразования.
Второе направление исследований речи связано с системами передачи речи по каналам связи. [Dudley 1939; Schroeder 1956,1966; Mathews et all 1961 a, b; Gold 1962; Gold, Rabiner 1969; Itakura, Saito 1971, 1972; Сапожков 1963]. На начальном этапе исследований в области связи усилия ученых были направлены на выявлении базовых информационных компонент речи [Dudley 1939; Schroeder 1956, 1966; Miller 1956; Peterson 1951, 1959; Kramer, Mathews 1956; Mathews et all 1961 a, b; Weibel 1955; Rappaport 1958; Heinz 1962; Pinson 1963; Gold et all 1962].
Отметим здесь особый вклад в подведение итогов данного этапа исследова— ний книгу Сапожкова М.А. [Сапожков 1963], не утратившую своего значения до наших дней.
Следует особо подчеркнуть значимость предложенного Г. Дадли подхода к параметрическому описанию речи для экспериментальной и прикладной лингвистики. С одной стороны, использованные в вокодере информационные параметры речевого сигнала, их набор оказались информационно значимы для синтеза речи, с другой стороны, появление в рамках синтетической телефонии связки «анализ-синтез» речи позволило сформулировать ряд проблем прикладной лингвистики, связи и кибернетики:
1) проблему полноты предложенного набора параметров речи;
2) проблему эффективности методов их определения по речевому сигналу;
3) проблему оценки качества звучащей речи.
Первая часть задач (1-2-й пункты) первичного описания речи разбирается в данной работе и составляет основу дальнейшего изложения. В настоящее время эти проблемы в той или иной степени решены применительно к технике передачи речи по каналам связи и остаются актуальными с точки зрения прикладной экспериментальной лингвистики.
Вторая часть (проблема оценки качества речи) по своей сути затрагивает области нервной деятельности человека и связана с изучением процессов восприятия речи аудитором. Это направление исследований и сама задача оказались чрезвычайно сложными. Понятие «качество речи» является трудноопределимой ее характеристикой и, в частности, включает в себя целый ряд показателей: разборчивость, натуральность, узнаваемость и т.д. Целый ряд признаков этого понятия относится к «механическим» искажениям: дребезжание, треск, хрип, призвуки, глухость, фон. Другие особенности определяются индивидуальными качествами говорящего, особенностями диктора: картавость, гнусавость, плаксивость, шепелявость. В развитие этого направления исследований значительный вклад внесли отечественные ученые [Сапожков 1963; Покровский 1962; Апресян 1966; Звегинцев 1968; Жинкин 1982; Щерба 1983; Вемян 1985; Потапова 1989, 1992, 1997; Михайлов, Сапожков 1992].
В полном объеме рассмотреть задачу оценки качества речи не представляется возможным, и в рамках данной работы ограничимся одним прикладным аспектом этой проблемы. Нас в дальнейшем будет интересовать один вопрос: насколько полным и эффективным является первичное описание фонационно-артикуля-ционных характеристик речи?
Предложено несколько методов оценки качества речи. Определение качества речи осуществляется методами парных сравнений, экспертных оценок и селективных признаков. Базу речевого массива в ряде методов составляют артикуляционные таблицы (ГОСТ Р 50840-95), позволяющие получать в основном оценку одного из параметров качества речи: разборчивость. Область применения таких психолингвистических методов, по-видимому, ограничена, и они используются чаще всего в технике связи (при оценке качества каналов связи).
С точки зрения полноты и эффективности первичного описания речи предпочтительным является метод парных сравнений. Аудитору предлагается прослушать исходный (до анализа) и синтезированный (по параметрам) участки речи и сравнить их по качеству. Практические запросы коммерческой телефонии формулируют достаточно простой критерий для оценки качества двух указанных образцов речи: эти отрезки звучащей речи должны быть неотличимы друг от друга на слух1.
В дальнейшем будем считать, что параметрическое описание речи будет полным, а методы получения этих характеристик речи - эффективными, если выполняется указанный критерий. По существу, в этом критерии отражено основное требование к анализу и синтезу речи при первичном ее описании: аудитор не должен «замечать» преобразований речевого сигнала и на передающем и на приемном конце канала связи. Получатель речевой информации (аудитор) не реагирует на произведенные промежуточные изменения речи (возможно, достаточно сложные с математической и технической точки зрения) и воспринимает ее как качественный (в широком смысле) образец речи. Синтезированная речь при
1 Простота критерия не должна вводить в заблуждение: достижение сформулированного требования достигается совсем непросто. этом должна сохранять в «неизменном» виде все аспекты и параметры качества, и (или) допустимые искажения этих характеристик качества не должны превышать пороговых значений слухового восприятия речевых образов.
Сформулированный критерий оценки полноты первичного описания речи, по нашему мнению, крайне важен в области прикладной лингвистики. Он позволяет исследовать речь не только по отдельным ее характеристикам (мелодии основного тона, временной огибающей, формантной структуры и т. п.), а в совокупности по полному набору фонационно-артикуляционных ее параметров, полученных с опорой на единый звуковой образ. При этом исследователь будет уверен в том, что на этапе первичного описания речи не произошло потери речевой информации, а совокупность параметров описания содержит последнюю в полном объеме. Это обстоятельство позволит более глубоко изучить корреляционные зависимости просодических и артикуляционных характеристик речи, их временную организацию, пороговые значения их возможных искажений и т. п., что, в конечном счете, может расширить наши представления о двух взаимообусловленных процессах: речеобразовании и слуховом восприятии.
Большое количество научных исследований было посвящено улучшению и различным модификациям анализа речи (в основном формантного) с тем, чтобы повысить качество синтезированной речи. Отметим здесь работы 50-х - начала 60-х годов прошлого столетия [Peterson 1951, 1959; Weibel 1955; Rappaport 1958; Heinz 1962; Pinson 1963]. Более подробный обзор литературы по этим направлениям содержится в книге М.А.Сапожкова [Сапожков 1963], ставшей классическим пособием всех речевиков и сохранившей свое значение до наших дней.
Процитированная здесь литература относится лишь к начальному периоду исследований в указанных областях преобразования речи и, естественно, не отражает всего их объема в этом направлении. Помимо упомянутых выше классических работ М.А. Сапожкова, Г. Фанта, Дж. Л. Фланагана, позднее были опубликованы книги [Вокодерная телефония / Под ред. A.A. Пирогова 1974; Маркел, Грей 1980; Макклеллан, Рейдер 1983; Михайлов, Сапожков 1992; Рабинер, Голд
1978; Прохоров 1977; Методы автоматического распознавания речи / Под ред. Ли У.], обзоры [Джайант 1974; Макхоул 1975; Уидроу и др. 1976; Кей и Марпл 1981; Фридландер 1982] и тематические выпуски журнала ТИИЭР (пер. с англ.) [Речевая связь с машинами 1975; Цифровая обработка сигналов 1975; Спектральное оценивание 1982], в которых содержится достаточно полный обзор научных статей по вопросу параметрического описания артикуляционного аппарата1.
В указанных работах была отмечена большая зависимость текущих спектральных характеристик речи от величины окна анализа. Выбор того или иного интервала речевого сигнала, по которому вычисляются спектральные компоненты, например дискретного преобразования Фурье (ДПФ), сильно влияет на их величину. Это обстоятельство затрудняет определение формант по полученному спектральному представлению и искажает резонансные характеристики речевого тракта. Было установлено [Pinson 1963; Mathews, Miller, David 1961], что эти искажения минимальны для окна анализа, равного одному или нескольким периодам основного тона. Понятно, что при таком спектральном анализе необходимо параллельно определять по речевому сигналу частоту колебаний голосовых связок. Такой выбор исследуемого интервала речи в дальнейшем получил название «анализ синхронный с основным тоном».
Алгоритм вычисления антирезонансов линейной системы неоднозначен и может быть выполнен многими различными способами. Неоднозначность и многообразие методов настройки параметров обратного фильтра является следствием некорректности задачи анализа артикуляционного аппарата с опорой только на речевой сигнал. С математической точки зрения в единственном уравнении, связывающем три компоненты процесса речеобразования (источник, речевой тракт и речь на выходе речевого тракта), неизвестными являются две (характеристика источника звуковых колебаний и характеристика речевого тракта). В распоряжении исследователя имеется только осциллограмма звуковых коле
1 Сказанное не относится к статьям отечественных авторов, баний, что является, вообще говоря, недостаточной информацией для однозначного определения остальных параметров речи.
Некорректность задачи обратной фильтрации можно рассматривать с двух диаметрально противоположных позиций.
С одной стороны, множественность возможных методов решения сформулированной задачи затрудняет нахождение точных (несмещенных) значений резонансных характеристик речевого тракта, что позволило бы в рамках линейной модели речеобразования Фанта определить истинную функцию возбуждения, формируемую работой голосовых связок. С физической точки зрения такое «идеальное» решение проблемы анализа речи означает возможность исследования четырехполюсника, представляющего собой ЛС конечного порядка, и его квазипериодического импульсного источника, опираясь только на сигнал на выходе системы. При этом желательно определить резонансные параметры речевого тракта, усредненный период следования импульсов ОТ и их форму.
Задача анализа речевого сигнала в такой постановке не имеет до настоящего времени окончательного решения. Возможные подходы к ее решению обсуждаются в четвертой главе данной работы [Собакин 1970 б, в, 1972; Акинфиев, Жарова, Собакин 1973; Акинфиев, Собакин 1974; Собакин 1976 б, 1989 б, 1999, 2001; Собакин, Николаев 2002; БоЬакт, Оогеу 2005].
С другой стороны, некорректность задачи обратной фильтрации может быть устранена, если предложить какой-либо алгоритм определения по речевому сигналу резонансных параметров артикуляции или параметров источника (фонации). Тогда вторая компонента процесса речеобразования определяется однозначно из уравнения, описывающего модель речеобразования Фанта.
Разработанные методы ЛП, основанные на минимизации СКО сигнал-остатка на выходе обратного фильтра, позволяют получить приближенные, (вообще говоря) смещенные оценки параметров речевого тракта на озвученных участках речи. Заметим, что на временных интервалах, соответствующих чисто шумовому источнику звуковых колебаний (например, при образовании фрикативных согласных), полученные оценки резонансных характеристик артикуляции будут несмещенными [Собакин 1970 в]. Достаточно подробное описание этих методов содержится в работах [Грей 1980; Джайант 1974; Макхоул 1975]1.
Смещенность параметров речевого тракта в методах ЛП влечет за собой искажение сигнал-остатка, получаемого на выходе обратного фильтра. Форма колебаний выходного сигнала сильно отличается от «идеальной» в виде последовательности треугольных импульсов и содержит побочные компоненты, порожденные не полностью компенсированной формантной структурой речи. Это означает, что артикуляционная компонента речи сохраняется при обратной фильтрации речевых колебаний и параметры обратного фильтра имеют «смещение» по отношению к истинным резонансным характеристикам речевого тракта.
Краткий обзор методов параметрического описания речи позволил выделить ключевые, по мнению автора, идеи и алгоритмы, применяемые в этой области знаний. Следует отметить, что предложенные методы первичного описания речи не утратили актуальности до настоящего времени и применяются (в скрытом виде) в современных программных продуктах, реализующих вокодерные системы коммерческой телефонии.
Многие задачи первичного описания речи получили в дальнейшем свое развитие и углубление, а с точки зрения запросов и требований прикладной и экспериментальной лингвистики, связанных в основном с качеством и эффективностью полученного параметрического представления, проблему не следует считать закрытой [Собакин 2005].
Принципиальной особенностью современного периода исследования речи является тот факт, что практически в качестве единственно доступного объекта получения достоверной информации является речевой сигнал. Другие каналы измерения характеристик процесса речеобразования не могут быть использованы (в силу объективных причин) и не применяются. Усложняющими факторами будут в рассматриваемой проблеме: неполнота представления
1 Как отмечают авторы перевода книги «Линейное предсказание речи» Ю.Н. Прохоров и B.C. Звездин, отечественные исследования в этой области в ней не упоминаются. Это же относится и к обзорам Джайанта и Макхоула. лингвистических структур (знаков) в акустическом сигнале; недостаточность функциональных связей между источником звуковых колебаний, артикуляционным аппаратом и речевым сигналом; многообразие предложенных моделей процесса речеобразования и методов исследования речи.
Эти обстоятельства определяют место и значение проблемы фонационно-артикуляционного анализа на основе звучащей речи.
Актуальность диссертации определяется необходимостью:
- проведения теоретической разработки методов параметрического анализа звучащей речи;
- компактного представления речи при исследовании ее структуры;
- повышения эффективности и качества первичного описания речи;
- возможностью получения существенного экономического и социального эффекта в областях связи (коммерческой и специальной), фоноскопической экспертизы, медицинской диагностики, верификации и идентификации дикторов, системах распознавания;
- более глубокого проникновения в процесс речеобразования и изучения его характеристик, существенных для слухового восприятия, в рамках прикладной и экспериментальной лингвистики.
Детальный анализ существующих методик анализа и синтеза речи показывает, что имеется диалектическое противоречие между желанием все более точного и подробного описания процесса речеобразования на первичном уровне и отсутствием соответствующего математического аппарата для эффективного исследования параметров модели этого процесса по речевой волне. Это противоречие составляет существо проблемы диссертационной работы.
Целью диссертационной работы является разработка эффективных и перспективных методов исследования фонационно-артикуляционных характеристик речи по речевому сигналу на базе математических методов анализа.
15
Для достижения поставленной цели решались следующие задачи:
1. Выбор адекватной модели процесса речеобразования, описание параметров фонации и артикуляции в рамках этой модели, постановка задачи анализа и синтеза речи по параметрам в рамках рассматриваемой модели.
2. Анализ состояния речевого тракта по речевому сигналу в обобщенном виде. Разработка методов вычисления оценок резонансных характеристик артикуляции, на основе целого класса операторов, линейных пространств и ограничений на параметры артикуляции. Проверка работоспособности предложенных методов анализа на базе стационарных звуков и слитной речи.
3. Исследование фонационных характеристик речи с возможностью получения информации о форме импульса основного тона по речевой волне, минуя этап предварительного определения резонансных параметров речевого тракта. Апробация предложенных методов исследования на естественных звуках речи и непрерывном речевом потоке.
4. Применение адаптивных процедур при исследовании речи и разработка итерационных методов анализа фонационно-артикуляционных параметров речевых колебаний.
Формулируя тему, проблему и основные направления исследований автор исходил из следующих предположений:
1. Артикуляционные параметры речевого тракта в слитной речи могут быть эффективно описаны линейной системой конечного порядка.
2. Источник речевых колебаний и речевой тракт функционируют в процессе речеобразования независимо друг от друга.
3. Математическими методами принципиально возможно получение информации о двух компонентах процесса речеобразования (источнике и артикуляции) по речевым колебаниям.
4. Существуют метрические пространства, базовые операторы и ограничения на параметры модели, согласованные со слуховым восприятием речи человеком.
В контексте выдвигаемых гипотез должны интерпретироваться все явления и процессы исследуемой предметной области. Для проверки работоспособности предлагаемых методов анализа необходима их проверка на реальных речевых сигналах.
Основным объектом диссертационного исследования является звучащая речь, представленная речевым сигналом в цифровом и аналоговом варианте.
Предметом исследования являются источник звуковых колебаний и состояние артикуляционного аппарата с опорой на речевой сигнал, оценка которых осуществляется на базе математических методов. При этом предполагается возможность синтеза речи по параметрам.
Вопросы параметрического синтеза речи в диссертации рассматриваются кратко: приводятся общие методы синтезирующих алгоритмов, блок-схемы соответствующих устройств, основные принципы обновления параметров и условия их устойчивости.
Научная новизна диссертации заключается в следующем:
- в авторской интерпретации предложены математические методы исследования формы импульсов основного тона по речевой волне; а также определены интервалы смыкания голосовых связок и вычислены несмещенные параметры речевого тракта;
- получили дальнейшее развитие методы исследования резонансных характеристик речевого тракта на основе обобщенного прогноза;
- впервые проверена состоятельность (работоспособность) предложенных математических методов анализа (на материале изолированно произнесенных русских гласных и тех же гласных в потоке речи);
- впервые использованы научные результаты ряда смежных наук (прикладной и экспериментальной лингвистики, математики, теории речевой связи, теории линейных систем с сосредоточенными параметрами, физиологии).
В основу методологии решения сформулированных проблем положен принцип определения параметров артикуляции в виде экстремальной задачи. Для исследования фонационных характеристик речи предлагается серия нелинейных преобразований речевого сигнала в импульсную последовательность, синхронную с работой голосовых связок.
При решении экстремальных задач параметрического описания речи использовались методы математического программирования, а также специальные разделы:
-вариационного исчисления;
- принципа максимума Понтрягина;
- динамическое программирование Беллмана;
- линейное и нелинейное программирование;
- методы стохастической аппроксимации.
Отметим, что математическое программирование не связано с необходимостью описания условий задачи в аналитическом, формульном виде и охватывает, в силу этого, широкий круг задач и проблем, трудно решаемых чисто аналитическими методами. Итерационная форма решения экстремальных задач удобна при использовании современной вычислительной техники.
Основные результаты диссертации представляют собой целый спектр математических методов исследования фонационно-артикуляционных характеристик речи. При этом методы анализа содержат внутренние константы, соответствующий выбор которых позволяет варьировать метрические пространства, базовые операторы и ограничения на параметры. Последнее позволяет определять интервалы смыкания голосовых связок и несмещенные оценки артикуляционных параметров речи, исследовать фонационные характеристики речи без предварительного определения параметров речевого тракта, а в перспективе согласовывать качество первичного описания речи со слуховым восприятием человека речевых образов.
Основные теоретические результаты работы состоят в следующем:
- результаты исследований вносят свой вклад в изучение речевой коммуникации на первичном уровне речеобразования и восприятия речи;
- полученные данные расширяют корпус моделей порождения речи и методов параметрического анализа речевых колебаний;
- теоретические и экспериментальные результаты доказывают принципиальную разрешимость проблемы разделения фонационных и артикуляционных характеристик по речевому сигналу в автоматическом режиме;
- предложенные методы исследований фонации в производстве речи позволяют уточнить характеристики источника звуковых колебаний и процесса речеобразования в целом.
Диссертация содержит следующие научные компоненты:
- формируется обобщенная проблема определения фонационных и артикуляционных характеристик по речевому сигналу в рамках линейной модели речеобразования;
- расширяется и модернизируется корпус локальных и адаптивных методов исследования резонансных параметров речевого тракта;
- предлагаются методы исследования формы импульсов основного тона по речевой волне;
- определяются интервалы смыкания голосовых связок и на них вычисляются истинные параметры речевого тракта
- на естественных звуках и слитной речи проверяется состоятельность (работоспособность) методов анализа;
- используются, как уже отмечалось, научные результаты ряда смежных наук (теории оптимального управления, теории построения алгоритмов градиентного спуска, методов линейной алгебры).
При решении сформулированных проблем применен математический принцип определения параметров артикуляции в виде экстремальной задачи.
Для исследования фонационных характеристик речи предлагается серия нелинейных преобразований речевого сигнала в импульсную последовательность синхронную с работой голосовых связок.
При решении задач параметрического описания речи использовались следующие разделы математики:
- теория линейных дифференциальных и (или) разностных уравнений;
- спектральный и корреляционный анализ сигналов;
- разделы линейной алгебры;
- теория линейных систем;
- теория цифровой обработки сигналов;
- теория адаптивных систем;
- теория аппроксимации.
При проведении диссертационных исследований использовались научные принципы решения некорректных обратных задач математики, методы прикладной и экспериментальной лингвистики, теории связи, средства построения адаптивных итерационных систем. В работе использован терминологический аппарат указанных областей знаний.
В систему естественных ограничений на решение проблемы включены:
1) процедуры анализа речи разрабатываются с опорой только на речевые колебания и не применяются другие информационные каналы регистрации характеристик фонации и артикуляции;
2) некорректность задачи вычисления артикуляционных параметров по речевой волне без регистрации функции возбуждения;
3) рассматривается конечный порядок модели речевого тракта в виде линейной системы с сосредоточенными параметрами;
4) сложная форма речевых колебаний маскирует фонационную компоненту процесса речеобразования на озвученных участках речи.
20
Перечисленные ограничения не являются определяющими для разрешения сформулированной проблемы в общей постановке и могут быть сведены к минимуму в рамках единой методологии ее решения в результате последующих исследований.
В качестве базового аппарата математического моделирования определены персональный компьютер с возможностями ввода и вывода речи в память машины и системной оболочкой МАТЬАВ.
Теоретическая значимость диссертации заключается: в получении результатов, являющихся в корректным решением проблемы описания звучащей речи фонационно-артикуляционными параметрами; в разработке блочных и адаптивных методов анализа резонансных характеристик речевого тракта; в расширении корпуса методов параметрического анализа речевых колебаний; в решении проблемы разделения фонационных и артикуляционных характеристик речи; в углублении метода изучения микровариаций голосовых связок в процессе речеобразования.
Практическая ценность диссертации заключается в том, что предложенные математические методы анализа звучащей речи применимы в прикладных и экспериментальных задачах лингвистики; системах речевой коммуникации и коммерческой телефонии; в задачах автоматического распознавания и синтеза речи; системах идентификации и верификации дикторов; медицинской диагностике по речевому сигналу; управлении робототехническими устройствами и машинами голосом оператора; создании систем искусственного интеллекта; при разработке экспертных систем.
Достоверность и обоснованность применения обобщенного подхода к проблеме первичного описания речи и математических методов ее исследования обеспечивается репрезентативной выборкой проанализированного материала, включающего в себя 1300 единиц сегментов речи, из которых впоследствии исследованы 210 сегментов, подвергнутых анализу с использованием предложенных методик.
Основные результаты диссертационного исследования неоднократно докладывались на заседаниях кафедры прикладной и экспериментальной лингвистики МГЛУ, а также прошли апробацию на следующих конференциях:
• Юбилейная научно-техническая конференция по технике и экономике связи. -М., 1968;
• Всесоюзная школа-семинар «Автоматическое распознавание слуховых образов (АРСО)».- Таллин, 1971, 1989; Алма-Ата, 1972; Львов, 1974; Минск, 1976; Тбилиси, 1978; М., 1991, 1999;
• Всесоюзная школа-семинар «Психологическая бионика». - Харьков, 1988;
• Всесоюзный симпозиум АН СССР «Методологические проблемы информатики, информационных технологий и информатизации общества». - Обнинск, 1988;
• Всесоюзная акустическая конференция. - М., 1991;
• Международная научная конференция ММТТ - 12. - Великий Новгород, 1999;
• Сессия «Российского акустического общества». - М., 1999, 2000, 2001;
• Международная конференция «Speech and Computer». - SPECOM 2000; SPECOM 2001; -M.: 2000, 2001;
• SPECOM' 2005, - Partas Greece, - 2005;
• Конференция АМН СССР «Проблемы проектирования экспертных систем». -М., 1988.
• XIth Inter Cong, of Phon. Scienc. - Tallinn, Estonia, U.S.S.R. - 1987 tli
• XII Inter. Cong, of Phon. Scienc. - Aix - on - Province, France. - 1991
По материалам диссертации опубликовано в научно-технических журналах 50 статей общим объемом 27 п. л., монография: «Артикуляционные параметры речи и математические методы их исследования». Монография. Научное издание. - М.: Вестник МГЛУ, Вып. №517, 2005. - 9.4 п. л.; два учебных пособия: «Введение в информатику и вычислительную технику». - М.: Гос. Ком. СССР по нар. образ., МГПИИЯ им. М. Тореза, 1988. - 6,4 п. л. (в соавторстве с Р.К. Потаповой, в т. ч. автора - 4,2 п. л.); «Методы математической статистики в прикладной лингвистике». - М.: Гос. Ком. СССР по нар. образ.,
МГПИИЯ им. M. Тореза, 1988. - 5 п. л. (в соавторстве с Р.К. Потаповой и Л.П. Бло-хиной, в т. ч. автора - 4 п. л.); принимал участие в написании более 25 отчётов по научно-исследовательским работам, выполненным в 1965-1989 гг.
Научно-технические результаты работ защищены семью авторскими свидетельствами.
Основные результаты диссертации положены в основу курса «Параметрическое описание речи». Этот курс неоднократно был прочитан аспирантам и студентам старших курсов отделения прикладной и экспериментальной лингвистики (ОПЛ) МГЛУ. Часть материала преподается ежегодно в рамках обязательного курса «Математические основы гуманитарных знаний» студентам ОПЛ. Базовые положения диссертации излагаются на лекциях и семинарах по подготовке специалистов в области судебной фонетики и речевой экспертологии.
Предложенные обобщения методов параметрического анализа и синтеза речи позволяют углублённо исследовать как процессы порождения речи, так и согласованные с ними процессы восприятия слуховых образов. Полученные результаты применимы:
- в прикладных и экспериментальных задачах лингвистики;
- в системах речевой коммуникации и коммерческой телефонии;
- в задачах автоматического распознавания и синтеза речи;
- в системах идентификации и верификации дикторов;
- в медицинской диагностике по речевому сигналу;
- в управлении робототехническими устройствами и машинами голосом оператора;
- в создании систем искусственного интеллекта;
- при разработке экспертных систем.
Структура работы основана на совокупности основных разделов диссертации (титул, оглавление, введение, четыре главы и заключение) объемом 205 с. Общий объем диссертационной работы составляет 252 е., включая основной текст, список литературы из 188 источников, двух приложений. Работа содержит 53 иллюстрации и 4 табл. Нумерация формул содержит две цифры: первая из них
Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК
Разработка методов эффективного кодирования речи на основе новых моделей источника речеобразования2007 год, кандидат технических наук Медведев, Олег Николаевич
Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач2005 год, кандидат технических наук Макаров, Илья Сергеевич
Модель и алгоритмы анализа и сегментации речевого сигнала2007 год, кандидат технических наук Конев, Антон Александрович
Разработка критериев и алгоритмов сегментации речевого сигнала на участки "ТОН/НЕ ТОН" для метода выделения основного тона в информационно-измерительных системах речевой технологии2000 год, кандидат технических наук Архипов, Игорь Олегович
Математические модели импедансного типа в теории речеобразования и обработке речевых сигналов2016 год, кандидат наук Любимов, Николай Андреевич
Заключение диссертации по теме «Прикладная и математическая лингвистика», Собакин, Аркадий Николаевич
Результаты исследования искусственных импульсов.
Рис. 3.23.
Импульсы основного тона фонем [у, э] для мужских (I) и женских (II) голосов.
Рис.3.24.
Метод выделения импульсов основного тона на основе линейного предсказания.
ЗВУК [а]
1001-1—-1-1-:-1-1-[—,-1-1-Г
08 II—II-1IиIII
0 100 200 ЗОО 400 500 600 700 600 900 1000
Рис.3.27.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [а].
ЗВУК (и]
61—II--1-1 —.1---1-—1-1-1----1--I
О ЧОО 200 ЭОО 400 500 600 700 ООО 900 1000
Рис.3.28.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [и]. 243
Рис.3.29.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [ы].
ЗВУК [о]
Рис.3.30.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [о].
ЗВУК [у]
Рис.3.31.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [у].
ЗВУК [э]
Рис.3.32.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [э].
Рис.4.2.
Сравнение блочного (сплошная линия) и адаптивного (пунктирная линия) методов анализа.
Рис.4.3.
Определение частоты основного тона речи адаптивным методом.
Рис.4.4.
Частотные характеристики фильтра на фазовых контурах (а) и операторах задержки (б).
Рис.4.5.
График логарифма функционала качества для искусственных сигналов.
Рис.4.6.
Изменение функционала для естественных сигналов речи
ЗАКЛЮЧЕНИЕ
Математические методы анализа артикуляционных характеристик речи, рассмотренные в данной работе, разрабатывались параллельно в СССР (Акинфиев, Собакин), Японии (Itakura, Saito, Wakita) и США (Schroder, Atal) в 60-70 -х годах ХХ-го столетия. Эти методы позволяют определять резонансные свойства речевого тракта и временного огибающую достаточно надежно и полно с точки зрения качества речи, синтезированной по этим параметрам. Позднее (в 80-90-х годах) синтез речи позволил выявить неполноту и недостатки предложенного первичного описания звуковых колебаний.
Качество синтезированной речи существенно зависит от методов анализа артикуляционных характеристик, сегментации на тоновые и шумовые участки и определения частоты основного тона. Выяснилось также, что полученных характеристик речевых колебаний недостаточно для получения синтезированного образца неотличимого от естественной исходной речи. Необходимо к указанному выше набору параметров добавить в том или ином виде описание формы импульсов основного тона.
В диссертации предлагается разрешение отмеченных проблем путем обобщенного подхода к проблеме анализа речи и разработке методов исследования работы голосового источника в процессе речеобразования.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.