Разработка и исследование математических моделей обработки и распознавания речи на основе множественных баз признаков

Леднов, Дмитрий Анатольевич

Разработка и исследование математических моделей обработки и распознавания речи на основе множественных баз признаков тема диссертации и автореферата по ВАК РФ 05.13.16, кандидат технических наук Леднов, Дмитрий Анатольевич

Леднов, Дмитрий Анатольевич
кандидат технических наук
1999

Специальность ВАК РФ05.13.16

Количество страниц 159

Оглавление диссертации кандидат технических наук Леднов, Дмитрий Анатольевич

ОБРАБОТКИ И РАСПОЗНАВАНИЯ РЕЧИ

1.1. Модели предварительной обработки речи в различных прикладных задачах

1.1.1. Предварительные сведения о строении органов речеобразования и их акустическая модель

1.1.2. Предварительные сведения о строении органов слуха и представления об их функционировании

1.1.3. Предварительная обработка сигналов в системах распознавания речи

1.1.3.1. Методы выделения сигнала из шума

1.1.3.2 Методы выделения и анализа огибающей

1.1.3.3. Методы выделения основного тона

1.1.3.4. Методы спектральных оценок речи

1.1.4. Предварительная обработка сигналов в системах определения эмоционального состояния человека по его речи

1.1.5. Предварительная обработка сигналов в системах идентификации диктора по его голосу

1.1.6. Общие черты систем предварительной обработки речевых сигналов

1.2. Модели распознавания речи

1.2.1. Скрытая модель Маркова

1.2.2. Сравнение ИКДП-подхода Винцюка и НММ 55 Выводы

ГЛАВА 2. МОДЕЛИ СИСТЕМ ПРЕДВАРИТЕЛЬНОЙ

ОБРАБОТКИ РЕЧИ

2.1. Постановка задачи предварительной обработки речи

2.2. Предпосылки модели, использующей множество баз признаков для предварительной обработки речи

2.2.1. Модель детектора сигнала

2.2.1.2.Модель детектора сигнала, основанного на

Марковских цепях

2.2.1.2. Модель амплитудного детектора сигнала

2.2.1.3.Модель детектора сигнала на основе изменения спектральных характеристик

2.2.1.4. Алгоритм проверки синхронности работы детекторов

2.2.2. Методы выделения основного тона

2.2.3. Модель спектральных оценок состояний

2.2.4. Модель фонетической сегментации речи (ФС)

Выводы

ГЛАВА 3. МОДЕЛИ РАСПОЗНАВАНИЯ РЕЧИ

3.1. Физическая модель распознавания фонем

3.1.1. Определение понятия Оп-ОГГ-элемента

3.1.2. Модель взаимодействий меяаду Оп-ОГР-элементами

3.1.3. Решающий элемент и результаты численного моделирования

3.2. Учет контекстной зависимости в скрытой модели Маркова

3.2.1. Переопределение состояний для скрытой модели Маркова

3.2.2. Метод формирования матриц переходных вероятностей и множеств состояний

3.2.3. Результаты численного моделирования

3.3. Модель распознавания слитной речи, основанная на множественных базах признаков

3.3.1. Модель формирования марковских матриц для системы распознавания речи ориентированной на фонемы

3.3.2 Модель принятия решения о фонеме в потоке

Введение диссертации (часть автореферата) на тему «Разработка и исследование математических моделей обработки и распознавания речи на основе множественных баз признаков»

Актуальность темы. Стремление человека познать законы своего мышления привело к развитию вычислительной техники, которая по замыслу должна стать, как инструментом, так и объектом наших исследований. Постоянная модернизация и совершенствование этого объекта должны приближать его свойства к свойствам нашего мышления. Настоящий этап развития вычислительной техники связан с необходимостью наделить ее способностью узнавать и анализировать формы окружающего нас мира [67].

Существенная часть этой общей задачи связана с попыткой создать системы, способные распознавать и синтезировать речь, а так же системы способные понимать ими сказанное и услышанное.

Практическая значимость построения таких систем очевидна: во-первых, она состоит в приближении языков программирования, к привычному языку общения; во-вторых, способствует разработке устройств различного класса с речевым дистанционным управлением [63]; в-третьих, позволяет инвалидам с недостатками зрения снять информационную блокаду за счет систем автоматического чтения текста.

Необходимо отметить, что, не смотря на успехи в области распознавания и синтеза речи говорить об удовлетворительном, окончательном решении этих задач преждевременно. Ни одна из существующих сегодня в мире моделей подобного класса не позволяет обеспечить требуемой точности распознавания и уровня привычного звучания речи. Причины этого кроются: во-первых, в недостатке знаний о механизмах работы нашего мозга и органов речеобразования и речевосприятия; во-вторых, в недостаточной развитости вычислительной техники, которая не позволяет реализовывать сложные алгоритмы обработки, чем тормозит их развитие. То есть с одной стороны, недостатки знаний открывают огромное поле для фантазии, а с другой, фантазия ограничена возможностями современного компьютера. 6

Основное внимание настоящей работы сосредоточено на двух задачах: 1) предварительной обработке речи; 2) статистических методах распознавания речи.

Статистические методы распознавания речи начали развиваться в 70-х годах. Использование этих методов привело к созданию наиболее популярных сейчас моделей автоматического распознавания, таких как: скрытые модели Маркова (Hidden Markov's Model (НММ)), подход Винцюка (иерархический, композиционный, динамического программирования подход (ИКДП-подход)), гибридные модели, использующие НММ и искусственные нейронные сети. Базой всех этих методов можно считать блок-схему взаимодействия диктора с автоматической системой распознавания речи (АСР), показанную на рис. 1, которая была введена в работе [32].

Рис. 1

Здесь диктор рассматривается как преобразователь, превращающий мысленный текст в акустический сигнал. Вначале, с помощью акустического процессора сигнал преобразуется в некоторую цепочку (последовательность) символов. Затем, эта последовательность символов анализируется лингвистическим декодером, выход которого является наилучшей оценкой (в вероятностном смысле) мысленного текста диктора. Для анализа текста лингвистический декодер должен содержать модель генерации текста, иначе говоря, модель языка, и модель преобразования фонетического потока в акустические характеристики.

Акустический процессор (АП) рассматривается как составная часть АСР и от системы к системе обладает различным уровнем сложности. Как правило, АП состоит из двух функционально различных систем. Первая часть АП это подсистема предварительной обработки акустического 7 сигнала. Это может быть обычный аналого-цифровой преобразователь, спектроанализатор либо сложное устройство, предназначенное для выделения характеристик акустической волны. Вторая часть - это классификатор, предназначенный для определения символа или множества символов, которые с максимальной вероятностью могут соответствовать полученным, текущим характеристикам волны.

Как показывает практика, от свойств системы предварительной обработки зависит качество распознавания, поскольку эта часть АП определяет характеристики акустической волны с заданной точностью. Однако, в используемой сейчас доминирующей модели, положенной в основу предварительной обработки сигнала, большое внимание уделяется сокращению времени обработки в ущерб точности обработки.

Таким образом, первая задача настоящей диссертации - построение модели подсистемы предварительной обработки, которая обладает точностью определения параметров акустической волны более высокой, чем у доминирующей модели. Заметим, что поскольку подсистемы предварительной обработки входят в состав всех систем обработки речи (синтез речи, идентификация и верификация диктора, компрессия речи, определения эмоционального состояния человека по его речи), то эту задачу можно считать универсальной, а не направленной лишь на распознавание речи. Работа классификатора связана с идеей отображения пространства параметров сигнала на пространство состояний. При этом пространство параметров сегментируется на непересекающиеся области, каждая из которых соответствует одному состоянию. Во многих работах посвященных АСР для сегментации используется «опытный оператор», вследствие чего этот процесс становится не автоматическим и сегментация стационарна, т.е. границы областей в пространстве параметров, соответствующих состояний, являются стабильными.

В качестве второй задачи, данной работы, выдвигается построение модели автоматической сегментации пространства акустических параметров, которая является нестационарной, т.е. зависящей от 8 предыстории (контекста). А так же выявить влияние различных подходов к понятию состояния на свойства АСР. Как сказано выше задача лингвистического декодера (ЛД) состоит в том, чтобы найти некоторое предложение, из тех, на которые система обучалась, которое с наибольшей вероятностью приводит к наблюдаемой последовательности состояний, порожденной акустическим процессором. Для решения этой задачи используется скрытая однородная Марковская модель. Недостатки этой модели хорошо известны. С одной стороны, она позволяет учитывать зависимость вероятности текущего состояния лишь от значения предыдущего состояния, что ограничивает возможности обработки речи. С другой стороны, свойство однородности позволяет интерпретировать различные последовательности состояний, построенные с точностью до перестановок как одинаковые. Однако если первый недостаток является принципиальным свойством цепей Маркова, то второй недостаток можно преодолеть и построить неоднородную модель. Несмотря на такую возможность практически нет работ, исследующих работу неоднородных Марковских моделей в АСР, т.к. это связано: а) с большими затратами памяти на хранение всех переменных неоднородной цепи; б) с большими вычислительными затратами.

В качестве третьей задачи рассмотрим модель ЛД, которая способна учитывать влияние на вероятность текущего состояния не только значения предыдущего состояния, но и некоторой цепочки предыдущих состояний.

Поскольку модели, разработанные для распознавания речи реализуются на вычислительной технике, то в рамках настоящей диссертации обсуждаются только цифровая форма этих моделей. Объект исследований. Объектом исследования являются системы предварительной обработки и автоматического распознавания речи, построенные на основе множественных баз признаков. Цель и задачи работы. Целью диссертационной работы является построение математических моделей предварительной обработки и 9 автоматического распознавания речи. Для достижения этой цели в работе решаются следующие задачи:

1) проектируются и исследуются модели детекторов полезного акустического сигнала на предмет выявления их точностных характеристик;

2) исследуются модели выделения основного тона голоса;

3) исследуются различные методы спектральных оценок речи и методы фонетической сегментации, которая позволяет провести классификацию акустического сегмента по группам: а) пауза; б) тон; в) шум; г) взрывной звук;

4) реализуется обобщенная модель предварительной обработки речи, основанная на синхронизации работы многих составляющих ее частей;

5) строится физическая модель распознавания фонем, которая с одной стороны является полезной при создании систем распознавания речи, а с другой стороны является моделью процесса самоорганизации, и определяется ее способность узнавать фонемы в потоке слитной речи;

6) переопределяются состояния для скрытых моделей Маркова с целью учесть контекстную зависимость в задачах распознавания речи.

7) исследуется иерархическая модель распознавания слитной речи, основанная на множественных базах признаков.

Методы исследования. Для решения поставленных задач используются методы теории случайных процессов (цепи Маркова), методы статистической обработки сигналов, теория цифровой связи, теория дифференциальных уравнений в частных производных и численные методы их интегрирования.

Научная новизна. Научная новизна заключается в предложенных модельных решениях построения процедур предварительной обработки и распознавания слитной речи, которые позволяют, с одной стороны,

10 увеличить точность фонетической сегментации на основе построения множества баз признаков, а с другой стороны, существенно повысить точность узнавания слов.

Основные научные результаты заключаются в следующем:

1) создана и реализована программно, математическая модель детектора полезного сигнала, основанная на синтезе частотного и амплитудного подхода, а также на предположении, что речь является марковским случайным процессом;

2) создана и реализована программно, математическая модель выделения основного тона речи;

3) исследована возможность использования билинейного преобразования Вигнера для получения спектральных оценок речевых фреймов;

4) сконструирована функциональная схема и реализована программно процедура предварительной обработки речи, основанная на множественных базах признаков, позволяющая проводить фонетическую сегментацию и классификацию сегментов по четырем группам: а) пауза: б) шум; в) тон; г) взрывной звук;

5) получена модель обучения и распознавания гласных фонем русского языка, на основе физической модели динамики дипольных элементов (в диссертации, для их обозначения, использовано название Оп-(Ж элементы, в соответствии с нейрофизиологической терминологией). Модель позволяет не только описать процесс распознавания, но и рассматривать процессы самоорганизации Оп-(Ж элементов;

6) получена математическая модель скрытых цепей Маркова с переопределенными состояниями, которая позволяет учитывать контекстные зависимости в речи;

7) разработана модель обучения скрытых цепей Маркова с переопределенными состояниями;

11

8) создана иерархическая модель распознавания слитной речи, основанная на множественных базах признаков. Практическую ценность работы представляют:

1) разработанная универсальная модель предварительной обработки речи и ее программная реализация, которая позволяет обрабатывать речь, не только в системах распознавания, но и в системах: идентификации диктора, определения эмоционального состояния человека, синтеза речи;

2) результаты проведения автоматической фонетической сегментации, показывающие возможность выделения динамических характеристик фонем и классификации сегментов по четырем группам: а) пауза: б) шум; в) тон; г) взрывной звук;

3) разработанная модель обучения скрытых цепей Маркова, которая позволяет автоматизировать процесс обучения системы распознавания и не использовать оператора для выделения спектральных оценок фонем;

4) математическая модель скрытых цепей Маркова, использующая динамические состояния, которая позволяет учитывать контекстные зависимости в речи;

5) иерархическая модель распознавания слитной речи, основанная на множественных базах признаков, включающая в себя модель решающего элемента.

Использование результатов работы. Теоретические и практические результаты диссертационной работы использованы при выполнении госбюджетной работы НИИ МВС при ТРТУ «Теоретические основы и методы построения интеллектуальных роботов» руководитель д.т.н., проф. И.А.Каляев, № Гос. регистрации 01.09.90 003184, внедрены в в/ч 11135 при при выполнении госбюджетной работы по теме 168 № Гос. регистрации 098168. Кроме того, разработанные программные реализации описанных моделей используются в программно-аппаратном комплексе

12 для реабилитации слепых и слабовидящих людей в Международном Центре системных исследований проблем высшего образования и науки. Апробация работы. Основные результаты работы докладывались и обсуждались на научных симпозиумах, научно-технических конференциях и семинарах: RNNS/IEEE Symposium on Neuroinformatics and Neurocomputers, (Rostov-on-Don, Russia, 1992), Межвузовская научно-методическая конференция «Информатизация базового гуманитарного образования в высшей школе» (Сочи, 1995), Fourth International Congress on Sound and Vibration (St. Petersburg. Russia 1996), International Conference Speech and Computer 96 (St. Petersburg. Russia 1996), International Conference Speech and Computer 97 (Cluj-Napoca ,Romania, 1997), International Conference EUROSPEECH*97. (Rhodes, Greece, 1997), XI сессия Российского Акустического Общества «Современные речевые технологии» (Москва 1998), Всероссийская н.-т. конф. с международным участием «Компьютерные технологии в инженерной и управленческой деятельности», (Таганрог, 1999), 2-ая Региональная Конференция «Проблемы муниципального управления. Применение ГИС-технологий», (Таганрог, 1999).

Основные положения, выносимые на защиту. На защиту выносятся следующие положения:

1) модель предварительной обработки речи, основанная на множественных базах признаков;

2) физическая модель распознавания фонем;

3) модель переопределенных состояний для скрытых цепей Маркова с целью учета контекстной зависимости в задачах распознавания речи.

4) иерархическая модель распознавания слитной речи, основанная на множественных базах признаков.

13

Заключение диссертации по теме «Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)», Леднов, Дмитрий Анатольевич

Выводы

1. Используя физическую модель динамики Оп-(Ж элементом (имеющих свое нейрофизиологическое основание) получена модель обучения и распознавания голосовых фонем русского языка, которая позволяет не только описать процесс распознавания, но и моделировать процессы самоорганизации Оп-СЖ элементов;

2. получена математическая модель скрытых цепей Маркова с переопределенными состояниями, которая позволяет учитывать контекстные зависимости в речи;

3. разработана модель обучения скрытых цепей Маркова с переопределенными состояниями;

4. создана модель распознавания слитной речи, основанная на множественных базах признаков.

138

ЗАКЛЮЧЕНИЕ

В работе исследованы вопросы предварительной обработки и распознавания речи. Для предварительной обработки речи рассмотрены модели и алгоритмы касающиеся: 1) детектирования полезного речевого сигнала; 2) выделения основного тона 3) спектральных оценок. Для распознавания речи рассмотрены модели: 1) распознавания голосовых фонем; 2) распознавания раздельной речи; 3) распознавания слитной речи с большим словарем. В результате проведенных исследований получены следующие основные результаты:

1) создана и реализована программно математическая модель детектора полезного сигнала, основанная на синтезе частотного, амплитудного подхода, а также на предположении, что речь является марковским случайным процессом;

2) создана и реализована программно математическая модель выделения основного тона речи;

3) исследована возможность использования билинейного преобразования Вигнера для получения спектральных оценок речевых фреймов;

4) сконструирована функциональная схема и реализована программно процедура предварительной обработки речи, основанная на множественных базах признаков;

5) получена математическая модель скрытых цепей Маркова с переопределенными состояниями, которая позволяет учитывать контекстные зависимости в речи;

6) разработана модель обучения скрытых цепей Маркова;

7) создана иерархическая модель распознавания слитной речи, основанная на множественных базах признаков.

139

Список литературы диссертационного исследования кандидат технических наук Леднов, Дмитрий Анатольевич, 1999 год

1. Прием сигналов при наличии шума //Сб. статей. Пер. с англ., Под ред. Проф. JI.C. Гуткина, Изд. Ин. Лит-ра, Москва 1960.

2. И.А. Большаков Статистические проблемы выделения потока сигналов из шума // Изд-во «Советское радио», 1969.

3. J.-B.Puel and R. Andre-Obrecht. Robast signal prosessing for HMM speech recognition in adverse condition. In Proc. IEEE Int.Conf. on Spoken Language Processing, pages 259-262, Yokohama, Japan, Sep. 1994. ICSLP'94.

4. J.-B.Puel, D. Saint-Joan. Speech Activity Detection: a Fuzzy Expert System. In Proc. Int. Conf. Speech and Computer, pages 79-84, St. Petersburg, Russia, 28-31 oct. 1996. SPECOM'96

5. Э. Камке Справочник по обыкновенным дифференциальным уравнениям, Из. «Наука», М. 1971.

6. А.В. Аграновский, Д.А. Леднов, Б.А.Телеснин Сегментация речи (математическая модель)// Информационные технологии N9, 1998г, стр.24-28.

7. Я.Ш.Вахитов Слух и речь // Конспект лек. По курсу «Электроакустика» (Раздел 2), Ленинград 1973

8. Физиология сенсорных систем. 4.2. В серии «Руководство по физиологии». 1972. Изд-во «Наука», Ленингр. Отд.140

9. Narada Dilp Warakagoda "A Hybrid ANN-HMM ASR system with NN based adaptive preprocessing"// M.Sc. Thesis, Norges Tekniske Hogskole, Institutt for Teleteknikk, Transmisjonsteknikk, May 19, 1996

10. A.H. Собакин Об определении фармантных параметров по речевому сигналу с помощью ЭВМ Акустический журнал АН СССР, в. 18 №1,1972, стр. 106-114.

11. А.Н. Собакин Основной тон и метод его исследования. // XI сессия Рос. Ак. Общ. «Современные речевые технологии», Сб. трудов, Москва, 26-28 января 1999, стр.47-50.

12. H.W. Strube. Determination of the Instant of Glottal Closure from the Speech Wave. JASA, v.56, #5, Nov. 1974, pp. 1625-1629.

13. H. Bourlard and N. Morgan " Continuous speech recognition by connectionist statistical methods" // IEEE Trans. On neural networks, vol. 4, N 6, pp. 893-909, Nov. 1993.

14. Вокодерная телефония. Методы и проблемы // Под редакцией А.А. Пирогова, М.Связь, 1974.

15. Р.В.Хемминг Цифровые фильтры: Пер. с англ./ Под ред. A.M. Трахтмана.-М.: Сов. Радио, 1980.

16. Н.В. Барклаевская, Н.Н. Лизунов, В.В. Фильчаков Алгоритмы фильтрации речевых сигналов//Автом. Распозн. И Синтез реч. Сигналов: Сб. науч. Трудов. Киев 1989

17. Ivan Kopecek Automatic Segmentation into Syllable Segments http:// www.fi.muni.cz/kopecek/

18. Hiroyuki Tsuboi and Other. Speaker-Adaptive Connected Syllable Recognition Based on the Multiple Similarity Method// Proc. Of ICASSP 86, Tokyo 1986

19. J. Makhoul Линейное предсказание. Обзор// ТИИЭР т.63, №4, стр. 2044

20. Biing-Hwang Juang and Kuldip К. Paliwal "Hidden Markov models with first-order equalization for noisy speech recognition" // IEEE Trans. On signal processing, vol. 40, N 9, pp. 2136-2143, Sep. 1992.141

21. Yoshiaki Ohshima Environmental Robustness in Speech Recognition using Physiologically-Motivated Processing// DPh. Thesis, Carnegie Mellon University, Pittsburgh, Pennsylvania 15213

22. Gold B. Computer program for Pitch Extraction.-"JASA", 1962, v.32, N7,pp.916-921

23. Manley HJ. Analysis-Synthesis of cjnnected Speech in Terms of orthogonalised Exponentially Damped Sinusoid.-"JASA", 1963, N4, v.35, pp. 464-474

24. Fu-Hua Liu and other. Signal Processing for Robust Speech Recognition// Proc. of EUROSPEECH'97., Rhodes, Greece, 22-25 Sep., 1997.

25. Л.Рабинер, Б.Голд Теория и применение цифровой обработки сигналов// Изд-во «Мир», Москва 1978

26. D.A.Lednov, A.V.Agranovsky, Variation of the Fundamental Tone Characteristics with the Emotional Changes in Man // Proc. SPECOM'96, St. Petersburg. Russia, Oct. 21-23,1996, pp 186-187

27. D.A.Lednov, A.V.Agranovsky, O.Y.Berg The Research of correlation between pitch and skin galvanic reaction from another at changing of human emotional state. // Proc. of EUROSPEECH'97. , Rhodes, Greece, 22-25 Sep., 1997, pp 1556-1559

28. И.О. Архипов, В.Б.Гитлин Оценка точности выделения основного тона методом GS // XI сессия Рос. Ак. Общ. «Современные речевые технологии», Сб. трудов, Москва, 26-28 января 1999, стр. 38-42

29. М.Е. Hernandez-Diaz Huici and J.V. Lorenzo Ginori Combined algorithmLfor pitch detection of speech signals// Electronics Letters 5 January 1995, Vol. 31, No. 1.

30. F. Jelinek "Continuous speech recognition by statistical methods"// Proc. IEEE, vol. 64, pp. 532-556, Apr. 1976.

31. L.R. Bahl, P.F. Brown, P.V. de Souza, R. L. Mercer, M.A. Picheny, A Method for the construction of acoustic Markov models for words. IEEE TRANSACTOINS ON SPEECH AND AUDIO PROCESSING, vol. 1, no. 4, october 1993.142

32. М.В.Фролов Контроль функционального состояния человека оператора, М.:Наука 1985,

33. М.В.Фролов Дифференцирование степени и знака эмоционального напряжения у человека по изменению интонационной характеристики речи, Физиологические особенности положительных и отрицательных эмоций. М.: Наука 1972 с. 128-132.,

34. М.В.Фролов и др. Частотный спектр речи как показатель степени и характера эмоционального напряжения человека, Журн. высш. нерв.деятельности 1971, Т.21, вып. 1, сс. 104-109

35. Э.А.Нушкиян Информативная значимость просодических средств в синтезе эмоциональной речи, Сб. науч. трудов Автоматическое распознавание и синтез речевых сигналов, Киев 1989.

36. Arnfield, S., Roach, P., Setter, J., Greasley, P., and Horton, D., "Emotional Stress and Speech Tempo Variation", in Proceedings of ESCA-NATO Tutorial and Research Workshop on Speech Under Stress.Lisbon 1995.

37. P. Greasley, C. Sherrard, M. Waterman, J. Setter, P. Roach, S. Arnfield and D. Horton, "The Perception of Emotion in Speech", to appear in XXVI International Congress of Psychology Montreal, 1996.

38. C. Sherrard and P. Greasley, "Lexical valency in emotional speech", to appear in XXVI International Congress of Psychology Montreal, 1996.

39. M. Waterman and P. Greasley "Development of a Qualitative Instrument for Coding Cognitive Antecedents of Emotional Responses" to appear in XXVI International Congress of Psychology Montreal, 1996.

40. Ming-Shih Chen, Pie-Hwa Lin and Hsiao-Chuan Wang, «Speaker Identification Based on a Matrix Quantization Method» IEEE Trans. On Signal Proc., vol. 41, no. 1. Jan. 1993.143

41. S. Furui, «Cepstral analysis technique for automatic speaker verification» IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-29, pp. 254-272, Apr. 1987.

42. D.A.Lednov, A.V.Agranovsky System of the Speaker Identification // Proc. of SPECOM'97, Cluj-Napoca,Romania, Oct 21-23, 1997, pp. 95-97

43. B.H. Сорокин Новые концепции в автоматическом распознавании речи // XI сессия Рос. Ак. Общ. «Современные речевые технологии», Сб. трудов, Москва, 26-28 января 1999, стр.50-57.

44. В.К.Маслов, В.Н. Торопов, У.Ф.Фейзханов "Время-частотные распределения нестационарных гидроакустических сигналов" // НПО ВНИИФТРИ Проблемы изм. параматров гидроак. и гидрофиз. полей и обр. информ., Сб. науч. трудов, Москва 1992

45. L.R. Rabiner and S.E. Levinson "A speaker-independent, syntax-directed, connected word recognition based on hidden Markov models and levelbuilding" // IEEE Trans. Acoustic, Speech and Signal Processing, vol. ASSP-33, pp. 561-573,June 1985.

46. Дж. Турин Лекции о цифровой связи//И: Мир 1972

47. D.G. Forney Алгоритм Витерби, ТИИЭР т. 61, N3, с.12-25

48. D.A. Lednov, B.A.Telesnin, K.A.Teleshin, Hierarchical System of Decoding Devices for the Decision of Problems of Recognition of Speech // 4th Int. Cong, on Sound and Vibration, St. Petersburg. Russia June 24-27, 1996, pp. 1445-1448.

49. D.A. Lednov, A.V.Agranovsky, B.A. Telesnin, Training and Operation of Pulse Decoder Devices for Speech Recognition//Proc. SPECOM'96, St. Petersburg. Russia, Oct. 21-23, 1996, pp. 126-128

50. G. Somjen Sensory coding in the mammalian nervous system. Appleton-Century-Crofts Educational Division Meredith Corporation, New York, 1972

51. M.А. Исакович. Общая акустика. Из-во "Наука", М., 1973.

52. В.Н. Сорокин Теория речеобразования. Из-во "Наука", М., 1985.144

53. А.В. Аграновский, Д.А. Леднов Распознавание речи с использованием протяженных контекстов // Информационные технологии N7, 1997г., стр 21-25

54. Т.К. Винцюк Сравнение ИКДП- и НММ-методов распознавания речи. Сб. Методы и средства информ. речи. Киев 1991.

55. Xuedong Huang, Kai-Fu Lee, On Speaker-Independent, Speaker-Dependent, and Speaker-Adaptive Speech Recognition. IEEE TRANSACTORS ON SPEECH AND AUDIO PROCESSING, vol. 1, no. 2, april 1993.

56. Jang B.H. On the Hidden Markov Model and Dynamics Time Warping for Speech Recognition-A Unified View // ATT Bell Lab. J. 1984, 63, N7, pp. 1213-1260

57. Levinson S.E. Structural Method in Automatic Speech Recognition// Proc. IEEE 1985, 73, N 11, pp. 1625-1650

58. А.А. Харкевич Борьба с помехами, Изд. Второе, Из. «Наука», М. 1965.

59. А.В. Аграновский, Д.А. Леднов Использование речевого интерфейса в программах обучающих иностранным языкам // Тез. докл. межвуз. н.-мет. конф. «Информатизация базового гуманитарного образования в высшей школе», г. Сочи, 29 мая-2 июня 1995г., стр. 33-34.

60. Д.А. Леднов Определение динамических состояний для скрытых моделей Маркова в задачах распознавания речи. // Сб. тез.145

61. DA.Lednov Encoding of simple two-dimentional visual images. RNNS/IEEE Symposium on Neuroinformatics and Neurocomputers, Rostov-on-Don, Russia, Oct 7-10 1992, pp. 1017-1020.

62. H. Ney The use of one-stage dynamic programming algorithm for connected word recognition // IEEE Trans. Acoust., Speech Signal Processing, vol. ASSP-32, pp. 263-272, 1984.

63. H. Ney and A. Noll, Phoneme modeling using continuous mixture densities // in IEEE Proc. 1990 Int. Conf. ASSP, vol. 1, New York, 1988, pp. 437440.

64. Г.Фант Акустическая теория речеобразования. М., «Наука», 1964

65. Д.Л. Фланаган Анализ, синтез и восприятие речи. М., «Связь», 1968

66. AJ.Viterbi, Error bounds for convolutional codes and an asymptotically optimal decoding algorithm, IEEE Trans. Inform. Theory, vol IT-13, pp. 260-269, Apr. 1967.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Леднов, Дмитрий Анатольевич

Математические модели и комплекс программ для автоматической оценки качества речевого сигнала2002 год, кандидат технических наук Николаев, Алексей Николаевич

Разработка алгоритмов для распознавания речи1999 год, кандидат технических наук У Вэньцань

Алгоритмы распознавания речевых команд в управляющих системах2006 год, кандидат технических наук Литвиненко, Сергей Леонидович

Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич

Модели и программная реализация распознавания русской речи на основе морфемного анализа2007 год, кандидат технических наук Карпов, Алексей Анатольевич

Автоматический анализ, распознавание и синтез тональной речи (на материале вьетнамского языка)1984 год, доктор технических наук Нгуен Ань Туан, 0

Модель и алгоритмы анализа и сегментации речевого сигнала2007 год, кандидат технических наук Конев, Антон Александрович

Список литературы диссертационного исследования кандидат технических наук Леднов, Дмитрий Анатольевич, 1999 год