Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Карпов, Николай Вячеславович
- Специальность ВАК РФ05.13.17
- Количество страниц 174
Оглавление диссертации кандидат технических наук Карпов, Николай Вячеславович
Обозначения и сокращения.
Введение.
Глава 1. Основные положения информационной теории восприятия речи
1.1. Задача фонетического анализа слитной речи.
L.2. Метод обеляющего фильтра.
1.3. Результаты экспериментальных исследований.
1.4. Выводы.
Глава 2. Формирование словаря эталонов элементарных речевых единиц
2.1. Задача классификации элементарных речевых единиц.
2.2. Результаты экспериментальных исследований.
2.3. Критерий минимума суммы информационных рассогласований.
2.4. Выводы.
Глава 3. Элементы информационной системы фонетического анализа слитной речи.
3.1. Архитектура и интерфейс блока ввода информационной системы
3.2. Используемые средства для программирования.
3.3. Оптимизация параметров информационной системы.
3.4. Выводы.
Глава 4. Формирование фонетической базы данных группы дикторов
4.1. Постановка задачи.
4.2. Структурирование фонетической базы данных методом дерева.
4.3. Переопределение дерева фонетической базы данных.
4.4. Выводы.
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования2011 год, кандидат технических наук Губочкин, Иван Вадимович
Интеллектуализация принятия решений в автономных системах обработки речевой информации на основе теоретико-информационного подхода2017 год, кандидат наук Савченко, Людмила Васильевна
Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи2006 год, кандидат технических наук Кушнир, Дмитрий Алексеевич
Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич
Исследование и разработка методов автоматического синтеза речи по фонемному тексту1984 год, доктор технических наук Лобанов, Борис Мефодьевич
Введение диссертации (часть автореферата) на тему «Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи»
Актуальность темы исследований. Большинство современных методов автоматической обработки речи основывается на процедуре предварительного сегментирования сигналов на короткие отрезки данных. В результате задача сводится к поэтапному анализу речи. На первом, базовом этапе, формируются элементарные речевые единицы (ЭРЕ) типа отдельных фонем. На втором, заключительном этапе, исследуются слова, фразы и целые тексты как соответствующим образом структурированные последовательности разных ЭРЕ. В результате, задача формирования ЭРЕ и фонем является неотъемлемой частью фонетического анализа слитной речи (ФАР) в общем случае. Соответственно, работа всей системы автоматической обработки во многом зависит от эффективности фонетического анализа речи. При этом состав и качество базового словаря, или фонетической базы данных (ФБД), некоторого фиксированного объема во многом определяют достигаемое качество ФАР. Поэтому формирование или настройка ФБД является ключевой для большинства современных методов автоматической обработки сигнала. В информационной теории восприятия речи [1] для решения указанной задачи предложена модель «фонетического дерева» и информационный (А'+ 1)-элемент. В основе функционирования последнего используется статистический подход к задаче R-альтернативного распознавания образов и критерий минимума информационного рассогласования распределений (МИР) в метрике Кульбака-Лейблера. В отличие от других известных алгоритмов информационный (R +1)-элемент имеет дополнительный (R+Y)-й выход, который сигнализирует об отказе при распознавании образов одновременно от всех возможных R альтернатив. Данная особенность может служить, в свою очередь, основой для построения эффективного алгоритма статистической классификации сигналов «без учителя», когда ни точные распределения-классы {Wr}, ни их суммарное число Я исследователю заранее не известны. Теории и практике осуществления анализа речи на основе принципа минимума информационного рассогласования распределений (МИР) и посвящена представленная диссертация. Ее тема представляется актуальной одновременно по ряду причин.
Во-первых, информационная теория восприятия речи (ИТВР) представляет собой одну из наиболее перспективных ветвей развития акустической теории речеобразования, которая своими корнями уходит в классические работы Г. Гельмгольца 1870-х г. [2]. Основная идеология этих работ осталась без изменения до настоящего времени, и в явном или неявном виде принимается большинством современных специалистов в области обработки речи. При этом, конечно, учитывается целый ряд математических и технико-технологических усовершенствований, введенных и исследованных в работах Т.Чибо и М.Каджияма [3], Г.Фанта [4] и ряде других работ последнего периода [5, 6, 7]. Среди работ российских авторов в данном направлении следует отметить, прежде всего, тематический цикл работ проф. Галунова В.И. [8].
Основные особенности модели Гельмгольца сводятся к двум постулатам:
1. Процесс речеобразования состоит из двух независимых компонент: возбуждения как такового звука и формирования фонетического качества звука типа ЭРЕ за счет возбуждения резонансных частот артикуляционного тракта (у Гельмгольца) или фильтрации (в современном рассмотрении).
2. Фонетическое качество ЭРЕ определяется так называемыми формантами, которые определяются как резонансные частоты артикуляционного тракта (или же полюса передаточной функции артикуляционного фильтра) или как максимумы спектра речевого сигнала.
Указанные постулаты до настоящего времени не подвергались пересмотру, хотя, как всем это было очевидно, они не вполне соответствуют действительности. Рассмотрим, в первую очередь, постулат об определяющем значении формант, то есть максимумов в частотном спектре ЭРЕ, с точки зрения тонкой структуры речи. То, что с помощью таких формант можно добиться определенного качества звучания, не вызывает сомнения. Но определяют ли именно эти максимумы спектра это качество? Первые сомнения были внесены еще в 30-х годах после создания полосного вокодера [9]. В начале 60-х годов была сформирована на основе большого экспериментального материала теория расчета разборчивости речи, принявшая за основу полосное представление речевого сигнала [10], исключавшая из рассмотрения форманты. Все это вместе взятое заставило российских исследователей JI.A. Варшавского и И.М. Литвака ввести гипотезу о том, что фонетическое качество звуков зависит, в основном, от уровня соотношений мощности в соседних спектральных полосах, а форманты (максимумы в спектре) являются лишь доступным способом достижения необходимых межполосных соотношений. ИТВР в своей идеологии следует в русле именно такой гипотезы, сводя все наиболее существенные признаки звукового строя речи к особенностям формы частотных спектров мощности отдельных ЭРЕ. Проблема состоит в том, что указанные особенности сильно варьируются (изменяются произвольным образом) не только от одной ЭРЕ к другой, но и от одного диктора к другому в пределах одной и той же ЭРЕ и даже в пределах одного диктора в зависимости от времени суток, его эмоционального состояния и других второстепенных факторов речи. Данный эффект в теории обработки речи известен как проблема вариативности устной речи. До настоящего времени она является главным препятствием на пути автоматического формирования речевых баз данных, включая и ФБД как их фундаментальную разновидность. Как следствие, все существующие на данный момент речевые или фонетические базы данных, как в нашей стране, так и за рубежом [11, 12] основываются, как правило, на эвристических процедурах обработки речевого сигнала. В противовес всем им ИТВР предлагает строгий подход к решению проблемы вариативности речи - на основе теоретико-информационного определения самого понятия «фонема». В этом состоит второй довод в подтверждение актуальности темы диссертационной работы.
Радикальным средством для преодоления рассматриваемой проблемы является статистический подход. Наиболее ярким представителем такого подхода является группа методов, объединенных общим понятием скрытых марковских моделей [13] (СММ-методы). Альтернативой СММ-методам могут служить методы на основе многослойных нейросетей. Они реализуют собой детерминистский подход. Ключевой проблемой в этом направлении является проблема в переобучении нейросетей. По сути, данная проблема сводит все направление в тупик: чем больше объем обучающей выборки, тем ниже качество работы нейросетей. В рамках же статистического подхода главная проблема - это проблема точности СММ (об этом см., напр., упомянутую выше работу В.И. Галунова и А.Н. Соловьева за 2004 г.). Особенно актуальной она становится в задачах распознавания из больших словарей. Здесь по каждому отдельному слову для обучения СММ требуются десятки, и даже сотни независимых образцов. Проблема точности СММ резко обостряется на практике еще и малыми выборками наблюдений, а также связанной с ней проблемой неоднородности речевого сигнала (во времени и в пространстве). По сути, мы снова возвращаемся к проблеме вариативности речи. А это тупик. Естественный выход из указанного тупика представляет собой идея применения эталонного словаря ЭРЕ или словаря эталонов. Однако здесь возникает актуальнейшая проблема оптимальности словаря эталонов. Именно на ее преодоление в задаче автоматического определения эталонов ЭРЕ и направлен, главным образом, математический аппарат информационной теории восприятия речи: критерий минимума информационного рассогласования и метод обеляющего фильтра. Это последний, решающий довод в подтверждение актуальности темы диссертации.
Объект и предмет исследования. Исследуется речевой сигнал в задаче формирования из слитной речи словаря эталонов элементарных речевых единиц, образующих звуковой (фонетический) строй разговорной речи.
Цель диссертационного исследования - разработка адаптивного, с настройкой на конкретного диктора, алгоритма формирования фонетической базы данных по конечному фрагменту его устной речи на основе критерия минимума информационного рассогласования и метода обеляющего фильтра для систем фонетического анализа слитной речи. Для достижения этой цели в диссертации решались следующие задачи:
1. Поставлена задача автоматического распознавания элементарных речевых единиц и проанализированы подходы для ее решения.
2. Исследовано влияние нормировки элементарных речевых единиц (ЭРЕ) на величину информационных рассогласований между реализациями каждой фонемы и, как следствие, на эффективность системы ФАР.
3. Исследовано влияние словаря эталонов ЭРЕ на результирующие характеристики системы ФАР.
4. Разработан новый, двухэтапный алгоритм формирования словаря эталонов ЭРЕ на основе критерия минимума информационного рассогласования.
5. Разработан программный блок обработки входных данных для информационной системы ФАР.
6. Исследованы новые подходы к решению задачи формирования фонетической базы данных по группе дикторов.
7. Разработан новый метод сравнительного анализа фонетического состава речи одного диктора относительно другого на основе их объединенного фонетического дерева.
Методы исследования. Для решения поставленных задач в работе использовались методы теории информации, теории вероятностей, теории сигналов, а также информационной теории восприятия речи.
Научная новизна работы состоит в следующем:
1. Разработан новый двухэтапный алгоритм, автоматического формирования ФБД из слитной речи, отличающийся от известного одноэтапного дополнительной процедурой объединения в единый сегмент данных одноименных смежных сегментов речевого сигнала по критерию минимума информационного рассогласования. Благодаря указанному отличию повышается точность последующего авторегрессионного анализа и в след за ней качество формируемой ФБД в теоретико-информационном смысле.
2. Получены экспериментальные оценки эффективности ФАР в зависимости от значений параметров разработанного алгоритма в сравнении с теоретическими оценками. Даны рекомендации в отношении выбора оптимальных значений параметров: порядка авторегрессионной модели речевого сигнала типа ЭРЕ, длины сегмента, порога по величине информационного рассогласования при сегментации (1 этап), а также порога по величине информационного рассогласования при кластеризации (2 этап).
3. Впервые определены экспериментальные оценки выигрыша по эффективности ФАР за счет автоматической нормировки ЭРЕ в разработанном алгоритме; показано, что предложенная нормировка привела к уменьшению вариации величины информационного рассогласования в пределах множества реализаций фонем, за счет чего вероятность перепутывай ия ЭРЕ при их автоматической классификации в асимптотическом случае (при большом объеме выборки) понизилась в среднем на порядок: с 4,5% до 0,5% для контрольной последовательности из десяти наиболее распространенных фонем.
4. Разработан новый метод сравнительного анализа речи, который основан на структурировании словаря эталонных ЭРЕ в виде фонетического дерева одного диктора и его переопределения фонетическим составом другого диктора, используя информационную метрику Кульбака-Лейблера. Показано, что чем сильнее отличается фонетический состав дикторов, тем большее новых «листьев» добавляется в переопределенное фонетическое дерево, что позволяет дать количественные оценки качественных различий фонетических составов.
Практическая ценность работы состоит в том, что разработанный алгоритм и его модификации могут быть применены в современных системах обработки речи, как на основе существующей структуры и состава таких систем, так и путем включения в эти системы в качестве вспомогательных (дополнительных) блоков для обработки и подготовки данных в режиме обучения.
Разработанный алгоритм был использован при создании программного блока обработки речевого сигнала по проекту Российского фонда фундаментальных исследований (РФФИ) № 07-07-12042-офи (ориентированные фундаментальные исследования) «Разработка и создание информационной теории восприятия речи на основе критерия минимума информационного рассогласования» под руководством д.т.н., проф. В.В. Савченко. В составе «Информационной системы фонетического анализа слитной речи» он зарегистрирован в государственном реестре программ для ЭВМ под №2008615442-по заявке 2008614233 от 15.09.2008.
Решением Ученого совета НГЛУ от 25.01.2008 г. результаты диссертационной работы внедрены в учебный процесс для студентов и аспирантов лингвистических специальностей.
Достоверность полученных результатов подтверждается протоколом натурных испытаний лабораторного образца информационной системы, разработанного на основе предложенного алгоритма фонетического анализа речи.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Научной всероссийской конференции «Информационные системы и технологии» (Нижний Новгород, НГТУ им. Р.Е.Алексеева, 2007), на Восьмом международном симпозиуме «Интеллектуальные системы» (Нижний Новгород, НГТУ, 2008), а также на трех (2006 - 2008) научных семинарах кафедры «Математика и информатика» НГЛУ.
Личный вклад автора заключается в разработке нового алгоритма автоматического формирования фонетической базы данных из речевого сигнала. На основе этого алгоритма им же разработана и реализована программная часть подсистемы ввода и обработки входных данных в составе информационной системы фонетического анализа слитной речи, поставлены и проведены экспериментальные исследования алгоритма на речевом сигнале от группы дикторов. Кроме того, в соавторстве с научным руководителем (50%), разработан метод сравнительного анализа фонетического состава речи разных дикторов на основе их объединенного фонетического дерева.
Публикации. Основные результаты, полученные в диссертации, опубликованы в одиннадцати работах, в том числе в шести статьях, среди которых две статьи - в журналах из списка ВАК «Известия вузов России. Радиоэлектроника» и «Системы управления и информационные технологии». Полный список публикаций представлен в списке литературы.
Основные положения, выносимые на защиту:
1. Проблема оптимальности словаря эталонов элементарных речевых единиц является ключевой проблемой для большинства современных методов фонетического анализа речи, таких как метод обеляющего фильтра и другие; их эффективность сильно варьируется при изменении состава обучающей выборки.
2. Использование оптимальных свойств решающей статистики минимума информационного рассогласования в предложенном двухэтапном алгоритме автоматического формирования фонетической базы данных по методу обеляющего фильтра с нормировкой элементарных речевых единиц в значительной мере ослабляет указанную проблему. Как следствие, границы применения алгоритма выходят за рамки гауссовых распределений сигналов.
3. Разработанный алгоритм автоматического формирования фонетической базы данных не только эффективно моделирует человеческий механизм восприятия речи, но и усиливает качественные характеристики, которые используются в основе метода объединенного фонетического дерева.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Модель и алгоритмы анализа и сегментации речевого сигнала2007 год, кандидат технических наук Конев, Антон Александрович
Автоматический анализ, распознавание и синтез тональной речи (на материале вьетнамского языка)1984 год, доктор технических наук Нгуен Ань Туан, 0
Исследование и оптимизация линейной оценки прогнозирования при случайных импульсных искажениях в данных2004 год, кандидат технических наук Шкулев, Александр Анатольевич
Разработка метода направленного перебора альтернатив в задачах классификации объектов на основе теоретико-информационного подхода2010 год, кандидат технических наук Савченко, Андрей Владимирович
Инкорпорирование речевых компонентов в лингвистические обучающие системы2005 год, кандидат филологических наук Ордин, Михаил Юрьевич
Заключение диссертации по теме «Теоретические основы информатики», Карпов, Николай Вячеславович
4.4. Выводы
• Для выявления индивидуальных характеристик разработан новый метод анализа качества речи одного диктора относительно речи другого на базовом, фонетическом уровне.
• Синтезирован алгоритм для решения задачи сравнения речи двух дикторов, в котором один диктор используется в качестве фонетического образца. Множество фонем при этом представляет собой структуру в виде дерева. Для второго вычисляют количество отличных фонем во время переопределения дерева.
• На основе предложенного алгоритма синтезирована экспериментальная установка, с помощью которой исследована работа этого алгоритма на тестовом сигнале из двадцати базовых фонем русского языка. Приведены примеры формирования дерева ФБД для тестового отрезка непрерывной речи.
Заключение
Рассмотренный теоретико-информационный подход в задачах фонетического анализа речи, по-видимому, не имеет серьезных альтернатив ввиду острейшей проблемы вариативности устной речи. Однако сама идея статистического (по ансамблю реализаций) усреднения сигналов наталкивается здесь на ряд принципиальных препятствий. Прежде всего, это особенности речевого механизма человека. У разных людей он сильно разнится по своим параметрам, например, по частотным характеристикам его модели «акустической трубы». Последняя, к тому же, может сильно варьироваться под действием целого ряда факторов: времени суток, эмоционального состояния диктора и т.п. Как результат, даже одноименные речевые метки от одного и того же диктора, разнесенные между собой во времени и в пространстве, могут иметь существенно разные автокорреляционные (статистические) свойства. И здесь логично возникает идея объединения близких друг другу по своему звучанию, однородных в теоретико-информационном смысле элементарных речевых единиц в соответствующие фонемы-кластеры. Границы каждого такого кластера устанавливаются исследователем в зависимости от особенностей решаемых им задач. Это базовое положение информационной теории восприятия речи.
Благодаря проведенным исследованиям в диссертации получены следующие основные результаты:
1. Рассмотрена проблема оптимальности словаря эталонов элементарных речевых единиц в задачах автоматической обработки и распознавания речи. Предложен для ее решения критерий минимума суммы информационных рассогласований, заимствованный из числа базовых положений и элементов информационной теории восприятия речи.
2. На основе критерия минимума информационного рассогласования разработан новый алгоритм оптимизации словаря эталонов с автоматической настройкой по речевым сигналам от отдельных дикторов. Его ключевым звеном служит адаптивный обеляющий фильтр.
3. На основе предложенного алгоритма разработан программный блок автоматической обработки речевого сигнала для информационной системы автоматического выделения фонем из слитной устной речи.
4. С применением программного блока проведены экспериментальные исследования эффективности разработанного алгоритма и оптимизации его параметров.
5. На основе метода переопределенного дерева рассмотрена и решена задача формирования единой фонетической базы данных по группе разных дикторов с целью последующего сравнительного анализа фонетического строя их речи.
На основании полученных результатов сделаны следующие выводы:
1. Проблема оптимальности словаря эталонов является ключевой для большинства современных методов автоматической обработки и распознавания речи, таких МОФ и другие; их эффективность сильно варьируется при изменении состава обучающей выборки;
2. Благодаря критерию МИР и МОФ в составе математического аппарата ИТВР проблема оптимальности эталонов элементарных речевых единиц в задаче автоматического формирования ФБД впервые решена в строгом, теоретико-информационном смысле.
3. Благодаря применению метода обеляющего фильтра с нормировкой ЭРЕ удается в полной мере использовать оптимальные свойства решающей статистики МИР. Как следствие, полученные результаты выходят далеко за рамки гауссовых распределений сигналов;
4. Разработанный алгоритм автоматического формирования ФБД не только эффективно моделирует человеческий механизм восприятия речи, но и усиливает его качественные характеристики.
На основании сделанных выводов даны рекомендации по практическому применению результатов диссертационной работы на практике и их дальнейшему развитию при решении широкого круга актуальных задач как в области теоретической, так и прикладной информатики. Например, это задача разработки речевых баз данных в пределах конкретного национального языка - как от отдельных его носителей, так и их групп, объединенных по их полу, году рождения, месту жительства и прочим признакам, - с автоматическим наполнением и непрерывным развитием (модернизацией) во времени. В этом примере наглядно реализуются все основные преимущества МОФ: высокая чувствительность к рассогласованию данных, способность к эффективной выборочной адаптации, минимум вычислительных затрат и требований к объему запоминающих устройств и другие. Центральная идея ИТВР об информационном центре-эталоне каждого речевого образа приобретает здесь очевидный практический смысл и дополнительное обоснование.
К числу приоритетных направлений для практического применения относится также область современной прикладной лингвистики в части теории и практики преподавания иностранных языков. Разработанная система позволяет существенно расширить арсенал используемых технических и программных средств, особенно для самостоятельной работы учащихся. В подтверждение сказанного можно сослаться на акт о внедрении результатов диссертационной работы в учебный процесс НГЛУ, размещенный в приложении.
Список литературы диссертационного исследования кандидат технических наук Карпов, Николай Вячеславович, 2009 год
1. Савченко В. В. Информационная теории восприятия речи // Известия вузов России. Радиоэлектроника. 2007. - Вып.6.
2. Helmholtz Н. Die Lehre von der Tonempfindungen als physiologisclie Graudlage fur die Theorie der Musik, Braunschweig, 1870.
3. Chiba Т., Kajiama M. The vowel, its nature and structure. Tokyo,! 941.
4. Фанта Г. Акустическая теория речеобразования,- М.: Наука, 1964.
5. Kent R.D at al.(Eds) Papers in Speech Communication: Speech production, Ac.Soc.of America, 1991.
6. Сорокин В. H. Теория речеобразования. М.: Радио и связь, 1985.
7. Фланаган Дж. JT. Анализ, синтез и восприятие речи,- М.: Связь, 1968.
8. Галунов В.И., Соловьев А.Н. Современные проблемы распознавания речи // Информационные технологии и вычислительные системы, 2004, №2.
9. H.Dudley The Vocoder, Bell Labs. Record 17, 1939. Ю.Покровский H. Б. Расчет и измерение разборчивости речи,- М.:1. Связьиздат, 1962.
10. Галунов В.И. и др. Коллекция речевых баз данных,- Труды ХХХШ Международной филологической конференция. СПб., 2005.12. http: /7 www, nuance .com/ ИС Nuance speech recognition, 8.0.
11. Винцюк Т. К. Сравнение ИКДП и EMM - методов распознавания речи // Методы и средства информации речи. Киев, 1991.
12. Солонина А. И., Улахович Д. А., Яковлев J1. А. Алгоритмы и процессы цифровой обработки сигналов / СПб.: БХВ-Петербург, 2002. -464 е.: ил.
13. Кисельман Б. А. Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть: Дис.канд. физ.-мат. наук. 05.13.17- Н.Новгород, 2001.
14. Собакин А. Н. Математические методы исследования фонационно-артикуляционных параметров речи: дис. докт. филол. наук. 10.02.21 -М. 2007. '
15. Хайдер А. Математические модели и комплекс программ для автоматического распознавания дикторов: дис. канд. тех. наук 05.13.08 -СПб. 2004.
16. Макхоул Дж., Русос С., Гиш Г. Векторное квантование при кодировании речи. ТИИЭР.- 1985,- 73 с.
17. Адкин М. Ю. Разработка спектральных и апроксимальных методов идентификации объектов и синтез автоматических регуляторов: Дис.канд. физ.-мат. наук 05.13.01- Обнинск. 1998.
18. Репалов С. А. Разработка математических моделей и рабочих алгоритмов идентификации дикторов по их речи: дис.канд. физ.-мат. наук 05.13.18- Ростов на Дону, 2003.
19. Потапова Р. К. Речь: коммуникация, информация, кибернетика: Учебное пособие: Изд. 2-е доп. М.: Эдиториал УРСС, 2001.
20. Левин Б.Р. Теоретические основы статистической радиотехники. — 3-е изд., перераб. и доп. -М.: Радио и связь, 1989,- 656 е.: ил.
21. Фукунага К. Введение в статистическую теорию распознавания образов.: Пер. с англ. М.: Наука. Главная редакция физико-математической литературы,- 1979,- 368 стр.
22. Саврасов Ю. С. Оптимальные решения. Лекции по методам обработки измерений. -М.: Радио и Связь. 2000. 152 е.: ил.
23. Тихонов В. И. Статистическая радиотехника. М.: Советское радио, -1966,- 678 с.
24. Robinson, Е. A. A Historical Perspective of Spectrum Estimation. Переведено под заглавием «История развития теории спектрального оценивания» / ТИИЭР, Т. 70. №9,- сентябрь 1982.
25. Косарев Ю. А. Естественная форма диалога с ЭВМ. Л.: Машиностроение,- 1989.
26. Русанова О. А. Исследование и разработка методов анализа и оценки качества синтезированной устной речи: дис.канд. тех. наук 05.13.17 -Красноярск. 2004.
27. Picone J. Signal Modeling Techniques in Speech Recognition Proceedings of the IEEE, //vol.81, no 9, pp. 1215-1246, Sept. 1993.
28. Маркел Дж. Д., Грэй А. X. Линейное предсказание речи Пер. с англ.; / Под ред. Ю.Н. Прохорова и B.C. Звездина. М.: Связь, 1980. - 308 е., ил.
29. Герасимов А. В. Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала: дис. канд. физ.-мат. наук 05.13.01. Н.Новгород. 2007.
30. Боровков А. А. Математическая статистика. Оценка параметров, проверка гипотез. М.: Наука,- 1984,- 472 с.
31. Дубров А. М, Мхитарян В. С., Трошин JI. И. Многомерные статистические методы. М.: Финансы и статистика, 1998.
32. Савченко В. В., Акатьев Д. Ю. Теоретико-информационное обоснование метода обеляющего фильтра в задачах автоматической обработки речи // Системы управления и информационные технологии. 2008. - №1 (31). - с. 21-30.
33. Кульбак С. Теория информации и статистика. М.: Наука,- 1967.
34. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. - Т.50 №3. -С. 309-314.
35. Савченко В. В. Теоретико-информационное обоснование гауссовой модели сигналов в задачах автоматической обработки речи // Известия вузов России. Радиоэлектроника. 2008. - Вып.1. - С. 24-33.
36. Деврой JL, Дьерфи JI. Непараметрическое оценивание плотностей: Lx-подход: Пер. с англ. М.: Мир,- 1988.- 408 с.
37. Шкулев А. А. Исследование и оптимизация линейной оценки прогнозирования при случайных импульсных искажениях в данных: Дис.канд. тех. наук 05.13.17. Н.Новгород. 2004.
38. Уидроу Б, Стирнз С. Адаптивная обработка сигналов: Пер. с англ-М.: Радио и связь, 1989. 440 е.: ил.
39. Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание случайных сигналов по критерию минимального информационного рассогласования с переспросом // Известия вузов России. Радиоэлектроника. 2006. - Вып.1. - С. 20-29.
40. Goh Z., Tan К.-С., Tan В. Kalman filtering speech enhancement method based on voiced/unvoiced speech model // IEEE Trans. Speech Audio Proces. 1999. -7. P. 510-525.
41. Gannot S., Burnstein D., Weinstein E. Iterative and sequential Kalman filter-based speech enhancement algorithms // IEEE Trans. Speech Audio Proces. 1998. - 6. - P. 373-385.
42. Кисляков С. В. Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания: дис.канд. тех. наук 05.12.13. СПб. 2004.
43. Кильдишев Г. С., Френкель А. А. Анализ временных рядов и прогнозирование. Серия: Математическая статистика для экономистов,- М.: Статистика,- 1973г.- 104 с.
44. Афанасьев В. Н., Юзбашев М. М. Анализ временных рядов и прогнозирование: Учебник. М.: Экзамен, 2001.
45. Savchenko V.V. Autoregressive Model for Recognition of Speech Signals Based on Theoretical Information Approach // VI International Congress on Mathematical Modeling, N. Novgorod, University of N. Novgorod,- 2004,-P.347.
46. Марпл, С.Л.-мл. Цифровой спектральный анализ и его приложения. -М.: Мир, 1990.
47. Levinson, S.C. Mathematical models for speech technology. / Chichester, England: John Wiley & Sons Ltd. 2005. 26lp.
48. Савченко В. В. Различение случайных сигналов в частотной области. // Радиотехника и электроника. 1997. - Т.42. №4. - С. 426.
49. Карпов Н. В., Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Известия вузов России. Радиоэлектроника.- 2007,- Вып.4,-С. 11-19.
50. Винцюк Т. К. Организация вычислений при распознавании больших словарей // Автоматическое распознавание и синтез речевых сигналов: Сб. науч. тр. Киев, 1989.
51. Мерков А. Б. О статистическом обучении, версия: 20 января 2006. http://www.reco gnition. mccme.ru/pub/RecognitionLab.html/slt.html
52. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. - Т.42. №4. - С.426.бО.Ченцов Н. Н. Статистические решающие правила и оптимальные выводы. М.: Наука, 1972.
53. Мюллер П., Нойман П., Шторм Р. Таблицы по математической статистике. / Пер. с нем. под ред. В.М. Ивановой. М.: Финансы и статистика. - 1982.
54. Савченко В. В. Адаптивные методы спектрального оценивания на основе принципа минимакса энтропии: дис.докт. тех. наук. 05.13.17. Н. Новгород, 1993. - 208 с.
55. Савченко В. В. Принцип минимакса энтропии в задачах статистических решений по ограниченным наблюдениям // Радиотехника и электроника,- 1990. Т.35. №9,- С. 1892 1899.
56. Bahl L. R., Brown P. F., De Souza P. V., Mercer R. L., Picheny M. A. A Method for the construction of acoustic Markov models for words // IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING. Vol. l.N 4. October 1993.
57. Рабинер Л.P. Скрытые марковские модели ' и их применение в избранных приложениях при распознавании речи. ТИИЭР. 1989 т.11 № 2. С. 86 - 120.
58. Ликянюк В. Распознавание речи. Немного истории // http://art.bdk.com.ru/uovor/infasti .htm
59. Федоренко О. Г. Разработка и использование методов повышения эффективности и программно-аппаратных вычислительных средств обработки речевых сигналов: дис.канд. тех. наук. 05.13.17 -Таганрог. 1999.
60. Топровер Г. Л. Базовые единицы слитной речи и их использование в решении задачи свободного естественного языкового человеко-машинного общения: дис.канд. тех. наук. 05.13.01.- М. 1995.
61. Чекмарев, А. Речевые технологии проблемы и перспективы // Компьютерра,- №49 -8 дек,- 1997 г.htip://offline.computerra.ru/1997/226/937/.
62. Bloomfield L. Language. New York: Holt and Co., 1933. русский перевод: Л. Блумфилд. Язык. М., 1968.
63. Аркадьев А. Г. Браверманн Э. М. Обучение машин классификации объектов. -М.: Наука, 1974.
64. Савченко В. В., Карпов Н. В. Анализ фонетического состава речевых сигналов методом переопределенного дерева // Системы управления и информационные технологии, 2.2 (32), 2008. С. 297-303.
65. Савченко В. В. Автоматическое распознавание речи методом дерева на основе информационного (R + 1) -элемента // Известия вузов России. Радиоэлектроника. 2006. - Вып.4. - С. 13-22.
66. Deller J. R., Hansen J. H. L., Proakis J. G. Discrete-Time Processing of Speech Signals, Piscataway (N.J.), IEEE Press. 2000.
67. Нго Куанг Минь, Исследование эффективности адаптивных линейных предсказателей речи для низкоскоростных кодеков: Дис.канд. тех. наук 05.13.17.-М. 1997.
68. Савченко В. В., Пономарев Д. Н. Автоматическое сегментирование речевых сигналов методом обеляющего фильтра // Известия вузов России. Радиоэлектроника. 2008,- Принята к опубликованию.
69. Карпов Н. В. Метод редукции фонетической базы данных для систем автоматического распознавания речи // Актуальные проблемы прикладной лингвистики: Сборник научных статей. Минск: МГЛУ, 2008.-С. 295-298.
70. Карпов Н. В. Адаптация базового словаря для автоматического распознавания речи в автоматизированных системах обучения //
71. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования. Серия: Математическая статистика для экономистов. — М.: Статистика 1979 г. - 254 с.
72. Дружинин Н. К. Математическая статистика в экономике. Введение в математико-статистическую методологию. М. Статистика. 1971 г,-264с.
73. Савченко В. В., Акатьев Д. Ю. Автотестирование качества произношения речи по принципу минимального информационного рассогласования // Современные тенденции компьютеризации процесса изучения иностранных языков: Сборник научных трудов.
74. Луганск: Восточно-украинский национальный университет. 2005. Вып.З. С.205-206.
75. Савченко В. В., Акатьев Д. Ю., Шерстнев С. Н. Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования // Известия вузов. Радиоэлектроника. 2006. - Вып.5. - С. 10-14.
76. Савченко В. В., Карпов Н. В. и др. Информационная система фонетического анализа слитной речи- Программа для ЭВМ. / Свид-во о гос. регистрации № 2008615442 по заявке 2008614233 от 15.09.2008.
77. Дьяконов В. П. MATLAB 6: Учебный курс. СПб.: Питер, 2002.
78. Тимофеев, В. В. С++ как он есть. Самоучитель. М.: ООО «Бином-Пресс», 2004 г. - 336 е.: ил.
79. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. - Т50. №3. - С. 309-314.
80. Савченко В. В., Губочкин И. В. Оптимизация авторегрессионной модели сигналов // Известия вузов России. Радиоэлектроника. 2008. -Вып. 2.системы» / Под редакцией К.А. Пупкова. М.: РУСАКИ, 2008. - С. 423-426.
81. Радзишевский А. Ю. Основы аналогового и цифрового звука. М.: Издательский дом «Вильяме»,-2006.-288 е.: ил.
82. Корнилов, А. Ю. Управление процессом речевой реабилитации с использованием биологической обратной связи: дис.канд. тех. наук. 05.13.01.-Томск. 2005.
83. Серов А. А. Фонематическая таксономия и ее применение для оценки стартовых параметров СММ системами распознавания речи: Дис. кап д. тех. наук. 05.13.05. -М. 2001.
84. Нгуен Ань Туан. Автоматический анализ, распознавание и синтез тональной речи (на материале вьетнамского языка): дис.док. тех. наук 01.01.10.-Москва, 1984.
85. Мандель ИД. Кластерный анализ. М.: Финансы и статистика, 1988.
86. Савченко В. В., Губочкин И. В. Фонетический анализ речи методом переменного дерева // Известия вузов России. Радиоэлектроника. 2008.
87. Савченко В. В., Лукин П. Г. Метод переопределенного словаря в задаче распознавания речевых сигналов // Известия вузов России. Радиоэлектроника. 2006. - Т. 51. №2. С.202-206.
88. Ю1.Миркин, Б. Г. Анализ качественных признаков и структур / Б. Г. Миркин-М.: Статистика, 1980.
89. Когалова Е. А. Роль фонетических средств в формировании культуры устной речи: дис.канд. фил. наук 10.02.05. М. - 2005.
90. Baseline WSJ Acoustic Models for НТК and Sphinx: Training Recipes and Recognition Experiments, Keith Vertanen. Technical Report, Cavendish Laboratory, 2006.
91. Бек Н. Н., Голенко Д. И. Статистические методы оптимизации в экономических исследованиях. Серия: Математическая статистика для экономистов. М.: Статистика. 1971 г. - 136 с.
92. Савченко В. В. Фонема как элемент информационной теории восприятия речи // Известия вузов России. Радиоэлектроника. 2008.
93. Xucdong Huang, Kai-Fu Lee On Speaker-Independent, Speaker-Dependent, and Speaker-Adaptive Speech Recognition // IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING. Vol. 1.1. N2. April- 1993.
94. Соколов А. В., Стеианюк О. M. Методы информационной защиты объектов и компьютерных сетей. М.: ООО «Фирма «Издательство ACT» СПб: ООО «Издательство «Полигон»,- 2000. -272 е.: ил,-(«Шпионские штучки»).
95. Под ред. У. Ли. Методы автоматического распознавания речи: В 2-х книгах. Пер с англ. М. Мир, 1983.
96. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ. Под ред. М.В. Назарова и Ю. Н. Прохорова. М.: Радио и связь,- 1981. -496 е.: ил.
97. Ибрагимов И. А., Хасьминский Р. 3. Асимптотическая теория оценивания. М.: Наука, 1979.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.