Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Ахмад Хассан Мухаммад
- Специальность ВАК РФ05.13.01
- Количество страниц 157
Оглавление диссертации кандидат технических наук Ахмад Хассан Мухаммад
СПИСОК ИСПОЛЬЗУЕМЫХ СОКРАЩЕНИЙ.
ВВЕДЕНИЕ.:.
ГЛАВА 1. ОБЗОР МЕТОДОВ И СИСТЕМ РАСПОЗНАВАНИЯ
ДИКТОРА.
1Л. Классификация систем определения индивидуальности диктора по голосу.
1Л Л. Идентификация и верификация.
1Л.2. Текстозависимое и текстонезависимое распознавание.
1Л .3. Автоматические и экспертные системы.
1.2. Научная сторона проблемы.
1.2Л. Различительные признаки.
1.2.1.1. Существенно индивидуальные особенности речи и голоса.
1.2.1.2. Индивидуальные характеристики, связанные со строением и функционированием речеобразующего аппарата.
1.2.1.3. Параметризация речевого сигнала.
1.2.2. Способы описания речевого сообщения в целом.
1.2.2.1. Динамическое искажение времени.
1.2.2.2. Использование векторного квантования.
1.2.3. Проблема эталона и его обновление.
1.2.4. Решающие правила.
1.2.5. Шумы, помехи, искажения.
1.3. Критерии эффективности систем распознавания.
1.4. Применение систем распознавания говорящего в промышленности.
1.5. Обзор современных программных продуктов распознавания.
1.5.1. Зарубежные программы, организации, достижения.
1.5.2. Состояние дел в России.
1.6. Основные проблемы создания систем распознавания диктора.
1.7. Выводы к главе 1.
ГЛАВА 2. МЕТОДЫ ПОСТРОЕНИЯ ПРИЗНАКОВЫХ ОПИСАНИЙ В
ЗАДАЧЕ РАСПОЗНАВАНИЯ ГОВОРЯЩЕГО.
2.1. Ввод речи и ее цифровое представление.
2.2. Предварительная обработка и выделение первичных признаков.
2.2.1. Дискретное преобразование Фурье.
2.2.2. Цифровые фильтры.
2.2.3. Использование оконных функций.
2.3. Нормализация уровня сигнала.
2.4. Выделение границ фразы в речевом сигнале.
2.5. Определение высоты тона (частоты основного тона).
2.6. Методы получения признакового описания сигнала.
2.6.1. Спектральные методы.
2.6.2. Коэффициенты линейного предсказания.
2.6.3. Кепстральное описание.
2.7. Выделение наиболее информативных характеристик.
2.7.1. Последовательный прямой поиск.
2.7.2. Последовательный обратный поиск.
2.8. Выводы к главе 2.
ГЛАВА 3. ОСНОВНЫЕ МАТЕМАТИЧЕСКИЕ МОДЕЛИ ПРИНЯТИЯ
РЕШЕНИЙ В ЗАДАЧАХ РАСПОЗНАВАНИЯ ГОВОРЯЩЕГО.
3.1. Системы распознавания дикторов, основанные на сопоставлении с эталонами.
3.2. Мера сходства речевого сигнала с эталоном.
3.2.1. Статистический подход.
3.2.2. Меры сходства.
3.3. Линейное выравнивание времени.
3.4. Алгоритм динамического искажения времени (ДИВ).
3.4.1. Описание алгоритма ДИВ.
3.4.2. Симметричный алгоритм ДИВ.
3.4.3. Алгоритм поиска глобального наименьшего маршрута.
3.4.4. Асимметричный алгоритм ДИВ.
3.4.5. Система идентификации диктора с использованием алгоритма ДИВ.
3.5. Векторное квантование и построение кодовой книги при решении задач идентификации.
3.5.1. Меры искажения.
3.5.2. Алгоритмы построения эталона.
3.5.3. Идентификация по кодовой книге.
3.5.4. Система идентификации диктора с использованием весовых коэффициентов и кодовой книги.
3.6. В ыводы к главе 3.
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ.
4.1. Цели и задачи экспериментов.
4.2. Исследования методов признаковых описаний речевых сигналов в задачах распознавания.
4.2.1. Выбор речевых характеристик
4.2.2. Измерение частоты основного тона.
4.2.3. Выделение наиболее информативных характеристик
4.3. Исследование свойств алгоритма динамического искажения времени.
4.3.1. Выбор метрики расстояния.
4.3.2. Исследование влияния параметра степени искажения ДИВ на качество идентификации.
4.3.3. Исследование методов параметризации речевых сигналов на 118 основе алгоритма ДИВ.
4.4. Результаты исследования идентификации дикторов на основе использования векторного квантования.
4.4.1. Исследование зависимости времени работы алгоритмов идентификации и построения кодовой книги от ее размера.
4.5. Сравнительные результаты тестирования систем идентификации дикторов.
4.6. Выводы к главе 4.
ГЛАВА 5. РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ РЕАЛИЗАЦИИ РАЗРАБОТАННЫХ МОДЕЛЕЙ СИСТЕМ ИДЕНТИФИКАЦИИ.
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Математические модели и комплекс программ для автоматического распознавания дикторов2004 год, кандидат технических наук Адель Саллам Мохамед Хайдер
Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация2010 год, кандидат технических наук Симончик, Константин Константинович
Разработка алгоритмов для распознавания речи1999 год, кандидат технических наук У Вэньцань
Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи2003 год, кандидат физико-математических наук Репалов, Сергей Анатольевич
Исследование и разработка методов обработки речевых сигналов с использованием векторного квантования в системах информационного обмена2003 год, кандидат технических наук Фабричный, Сергей Юрьевич
Введение диссертации (часть автореферата) на тему «Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора»
Актуальность темы. В последние годы отмечается существенный рост интереса к автоматическим системам распознавания диктора по голосу. Потребность в разработке таких систем главным образом диктуется наличием широкого круга практических приложений, где требуется подтвердить или опознать определенную личность. Системы автоматического распознавания могут использоваться для следующих целей:
- Задачи обеспечения безопасности (контроль за физическим доступом в помещения, доступ к базам данных, вычислительным системам и ПК, контроль над транспортными средствам и оружием);
- Задачи криминалистической экспертизы (анализ записей телефонных переговоров и отождествление их с подозреваемым; доказательства при судебных разбирательствах; идентификация «телефонных хулиганов» по записи).
- Задачи управления компьютером, бытовой техникой, различными запорными механизмами и промышленным оборудованием;
- Особый интерес представляет собой использование систем распознавания на телефонных каналах, например, для получения баланса банковского счета, подтверждения денежных транзакций или оплаты услуг. Направление, связанно^ с разработкой и исследованием систем автоматической идентификации и верификации дикторов является в данный момент прогрессирующим, к нему проявляют интерес многие крупные исследовательские и коммерческие организации. И если не сегодня, то в ближайшем будущем такие системы будут востребованы в полной мере.
Точность распознавания в таких системах во многом зависит от выделяемых системой, при создании базы данных диктора, параметров (признаков) речевого сигнала и методов его обработки.
Существующие решения этой задачи в настоящее время не обеспечивают высокую точность распознавания диктора.
В связи с вышесказанным весьма актуальной задачей является разработка и усовершенствование алгоритмов определения параметров речевого сигнала, применяемых в системах распознавания дикторов.
В работе проведен анализ моделей формирования признакового описания речевых сигналов и исследованы различные алгоритмы и методы обработки речевого сигнала в системах распознавания диктора.
Общее содержание диссертационной работы соответствует научному направлению «Распознавание образов и цифровая обработка речевых сигналов».
Цель и задачи диссертационной работы. Целью работы является исследование, разработка и усовершенствование алгоритмов параметризации речевого сигнала, применяемых в задачах распознавания дикторов и разработка системы распознавания дикторов.
Для достижения этой цели в диссертации решались следующие задачи:
1. Анализ особенностей построения систем распознавания дикторов.
2. Анализ и исследование алгоритмов построения различных признаковых описаний речевого сигнала в задачах распознавания дикторов.
3. Разработка методика определения границ фразы в речевом сигнале.
4. Усовершенствование алгоритма определения высоты тона (частота основного тона) голоса в речевом сигнале.
5. Разработать алгоритм выбора наиболее информативных признаковых характеристик речевого сигнала.
6. Разработка учебно-исследовательской системы распознавания дикторов на основе исследованных:и разработанных алгоритмов.
Методы исследования. В диссертационной работе используется аппарат цифровой обработки речевых сигналов (преобразование Фурье, Линейное предсказание, векторное квантование, Ме1-кепстральное описание), теории распознавания образов, теории построения математических моделей и пакет прикладных программ MATLAB.
Научная новизна. Новизной диссертационной работы является разработанные и модифицированные алгоритмы определения параметров речевого сигнала, а также разработанные модели систем распознавания дикторов, базирующихся на основе метода динамического искажения времени (ДИВ) и векторного квантования (ВК) с созданием кодовых книг голоса диктора.
В работе предложено:
1. Модель системы распознавания дикторов на основе ДИВ.
2. Модель системы распознавания дикторов на основе ВК с созданием кодовых книг голоса диктора.
3. Модифицированный алгоритм векторного квантования Ллойда для текстонезависимого распознавания диктора, позволяющий существенно улучшить качество кодовых книг базы эталонов.
4. Разработанная методика определения границ фраз при обработке речевого сигнала, позволяющая сократить время распознавания.
5. Модифицированный алгоритм определения высоты тона в речевом сигнале, основанный на вычисление произведения гармоник спектра и снижении частоты дискретизации.
6. Разработан алгоритм выбора наиболее информативных признаковых характеристик речевого сигнала.
Практическая ценность работы заключается в следующем:
Разработанные и модифицированные конкретные алгоритмы положены в основу создания систем распознавания дикторов.
Разработан пакет программного обеспечения для распознавания дикторов на основе исследованных и разработанных алгоритмов и моделей систем, который может быть полезным инструментом в учебном процессе по направлению «Обработка и распознавания речевых сигналов».
Показана возможность применения приложенных в работе алгоритмов в основу разработки коммерческих систем распознавания диктора и платформ управления бытовой техникой и промышленным оборудованием с помощью голоса. А также, в разработке систем оперативного контроля и управления объектами диспетчеризации с использованием голосовой информации.
- Проведено сравнительное экспериментальное исследование разработанных в диссертации моделей систем распознавания, позволившее выбрать наиболее эффективные модели построения систем распознавания диктора.
Внедрение результатов работы. Результаты, разработанные программные средства и методические материалы диссертационной работы, внедрены и используются в учебном процессе при проведении лабораторных и курсовых работ по курсу «Цифровая обработка сигналов» для студентов специальностей ВлГУ (см. приложение 10). А также, приняты к использованию в проектно-конструкторской деятельности предприятия ООО «КОНТЭЛ» г. Владимира (см. приложение 9).
Апробация работы. Основные положения и результаты работы докладывались и обсуждались на научно-технических конференциях:
• 20-ая Международная научная конференция «Математические методы в технике и технологиях» (ММТТ-20), Ярославль, РФ, 2007г.;
• 8-ая Международная, конференция «Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-8-2007), Йошкар-Ола, РФ, 2007г.;
• Вестник Тамбовского государственного технического университета, Тамбов, РФ, 2007-2008гг., входящий в перечень ведущих рецензируемых ВАК-ом научных журналов и изданий;
• Издательство ВлГУ, 2008г. в рамках инновационной образовательной программы ВлГУ.
Публикации. По теме диссертации опубликовано 9 печатных работ, из них 6 в ведущем рецензируемом научном издании «Вестник ТамбовГТУ» , 2 доклада на международных и всероссийских научно-технических конференциях и 1 учебное пособие в рамках инновационной образовательной программы ВлГУ.
Объем диссертации. Диссертация состоит из введения, пяти глав и заключения, изложенных на 130 страницах и иллюстрированных 32 рисунками и 8 таблицами, а также списка литературы из 83 наименований и 10 приложений.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Модель и алгоритмы анализа и сегментации речевого сигнала2007 год, кандидат технических наук Конев, Антон Александрович
Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания2004 год, кандидат технических наук Кисляков, Сергей Викторович
Разработка методики использования широких фонетических категорий в задачах верификации диктора2010 год, кандидат технических наук Милошенко, Алексей Анатольевич
Адаптивные методы цифровой обработки речевых и тональных сигналов в задачах обнаружения и распознавания2003 год, кандидат технических наук Кузнецов, Михаил Владимирович
Автоматизация процесса верификации абонентов АСУ с речевым управлением2008 год, кандидат технических наук Катков, Олег Николаевич
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Ахмад Хассан Мухаммад
4.6. Выводы к главе 4
1. Исследованы алгоритмы описания речевых сигналов с использованием алгоритмов определения границ фразы и высоты тона.
2. Экспериментально исследован выбор признаковых характеристик речевого сигнала для решения задач распознавания дикторов. Показано, что наилучшие результаты обеспечивает использование Ме1-кепстра БПФ.
3. Исследована эффективность использования алгоритма динамического искажения времени. Показано, что наиболее эффективным является ассиметричный вариант алгоритма.
4. Исследовано функционирование системы распознавания на основе использования алгоритма динамического искажения времени.
5. Исследовано функционирование системы распознавания на основе использования векторного квантования — кластеризации с созданием кодовых книг. Показано, что увеличение количества итераций в алгоритме RLS существенно повышает качество распознавания.
6. Проведено сравнительное исследование разработанных программ распознавания. Показано, что наилучшие результаты распознавания обеспечивает система на,основе ДИВ.
7. Разработанные программные системы, показали в целом высокую эффективность и могут быть рекомендованы как прототипы в учебных целях и для создания более высокоэффективных систем распознавания дикторов.
ГЛАВА 5. РАЗРАБОТАННЫЙ ПРОГРАММНЫЙ ПРОДУКТ ДЛЯ РЕШЕНИЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ДИКТОРОВ
Для реализации разработанных в работе алгоритмов и обеспечения сравнительного исследования моделей систем распознавания дикторов разработан программный комплекс «Speaker Recognition», главный интерфейс которого приведен на рис. 5.1, состоящий из трех частей:
Speaker Recognition
Cirrert cirectary: C:1HASSAN\
Dynamic Time Warping
EnroP Mew Speaker
Tools
Training System
Speaker identification
Testing System r- Clear DTW & Code Sook
Clear Database
Spectools
Info
Help
Quit
Рис.5.1. Главный интерфейс системы Speaker Recognition.
1. Dynamic Time Warping. Программа, предназначена для идентификации дикторов на основе метода динамического искажения времени.
Полное описание работы и пользовательские интерфейсы разработанного программного обеспечения приведены в приложении 6.
2. Code Book. Программа, предназначена для идентификации дикторов на основе метода кластеризации и создания кодовых книг.
Полное описание работы и пользовательские интерфейсы разработанного программного обеспечения приведены в приложении 7.
3. Tools, Программный инструмент для анализа спектрограмм речевого сигнала.
Полное описание работы и пользовательский интерфейс разработанного программного обеспечения приведены в приложении 8.
ЗАКЛЮЧЕНИЕ
Представленная диссертационная работа содержит результаты исследований по разработке методов и алгоритмов обработки речевых сигналов в задачах распознавания диктора.
Основные научные и практические результаты работы можно сформулировать следующим образом:
1. Сформулированы основные задачи совершенствования систем распознавания дикторов.
2. Предложено уделить основное внимание разработке систем распознавания дикторов на основе использования методов ДИВ.
3. Предложена разработанная методика для выделения границ фразы в речевом сигнале.
4. Предложен модифицированный алгоритм для определения основного тона говорящего.
5. Предложен Модифицированный алгоритм векторного квантования Ллойда для текстонезависимой идентификации дикторов.
6. При проведении спектрального анализа предлагается использовать нелинейную частотную шкалу Мела. Применение нелинейной шкалы позволяет согласовать результаты спектрального анализа с психофизиологическими характеристиками слухового аппарата человека. Показано преимущество описания речевого сигнала Мел-кепстральными признаками перед остальными.
7. Разработан £/Ж$-алгоритм выбора наиболее информативных признаковых характеристик.
8. Разработана модель системы идентификации с использованием модели векторного квантования, позволяющая существенно улучшить качество кодовых книг базы эталонов.
9. Проведен анализ свойств алгоритмов ДИВ. Для симметричного алгоритма ДИВ предложен оптимизированный алгоритм поиска минимального наименьшего маршрута.
Ю.Рассмотрена реализация асимметричного алгоритма ДИВ, имеющего ряд преимуществ по сравнению с симметричным.
11 .Разработана модель системы распознавания дикторов с использованием алгоритма ДИВ.
12. Создан комплексный программный продукт на базе Matlab для реализации созданных алгоритмов и моделей систем распознавания.
Разработанные модели^ распознавания могут быть эффективно использованы для различных практических приложений связанных с распознаванием диктора. Дальнейшие исследования в этой области могут быть направлены на создание более эффективных систем распознавания дикторов.
Список литературы диссертационного исследования кандидат технических наук Ахмад Хассан Мухаммад, 2008 год
1. Ariki Y., Tagashira S., Nishijima M. Speaker Recognition and Speaker Normalization by Projection to Speaker Subspace. // ICASSP-96.
2. Bellman R.E. Dynamic Programming, Princeton University Press, 1957.
3. BenZeghiba, M.F., Herve, В., Mariethoz, J. Speaker verification base on user customized password.// (2001).
4. Bimbot F., Blomberg M., Boves L. etc.An overview of the CAVE project research activities in speaker verification.// (2000).
5. Bourlard H. and Bengio S. Hidden Markov Models and other finite state automata for sequence processing.// (2001).
6. Bromba Biometrics Режим доступа: http://www.bromba.eom/faq/biofaqe.htm#ROC
7. Burten D.K. Text Independent Speaker Verification Using Vector Quantization Source Coding // IEEE Trans. ASSP-35.
8. Che.W.Ch, Lin Q., Yuk D-s. Am HMM Approach to Text-prompted Speaker Verification. // ICASSP-96, 673-676.
9. De Lima Araujo, A.M. and Violaro, F., "Formant frequency estimation using a Mel-scale LPC algorithm," ITS '98 Proceedings, Volume: 1, pp. 207 -212, 1998.
10. Doval В., d'Allesandro Ch. Spectral Correlates of Glottal Waveform Models: an Analytical Study.// ICASSP-97, pp. 1295-1299.
11. Fant G. Voice Source Parameters in Continuous Speech. // ICSLP-94, pp. 1451-1454.
12. Franti P., Kivijarvi J. Random swapping technique for improving clustering in unsupervised classification. — Режим доступа:ftp://ftp.cs.joensuu.fi/franti/papers/scia99-l.ps
13. M.Franti P., Kivijarvi J. Randomized local search algorithm for the clustering Problem.//Pattern Analysis an Application, 3(4): 358-369, 2000. Режим доступа: ftp://ftp.cs.joensuu.fi/franti/papers/rls.ps
14. Furui S. An overview of speaker recognition technology. In Proc. ESCA Workshop on Automatic Speaker Recognition Identification and Verification, pages 1-9, 1994.
15. Gray R. M. Vector quantization. // IEEE ASSP Mag., vol. 1, pp. 4-29, April 1984.
16. H. Hoge. European Speech Databases for Telephone Applications.// ICASSP-97, 1771-1775.
17. HeJ A New Codebook Traning Algorithm for NQ-based Speaker Recognition //ICASSP- 97,1091-1094.
18. Higgins A., Porter J., L.Bahler. YOHO Speaker Authentication.// Final Report, ITT Defense Communication Division, 1989. Режим доступа: http://cs.joensuu.fi/pages/tkinnu/research/pdf/IsSpeechClustered.pdf
19. IDIAP Research Institute. Режим доступа: http://www.idiap.ch/
20. Jyh-Shing Roger Jang. Audio Signal Processing and Recognition. National Tsing Hua University. Режим доступа: http://neural.cs.nthu.edu.tw/jang/
21. Kinnunen Т., Franti P. Speaker Discriminative Weighting Method for VQ-based Speaker identification. — Режим доступа: http://cs.joensuu.fi/pages /tkinnu/research/pdf/Discriminative wightingMethod.pdf
22. Kinnunen Т., Karkkainen Т., Franti P. Is speech data clustered? statistical analysis of cepstral features. - Режим доступа: http://cs.joensuu.fi/pages/tkinnu/research/pdf/IsSpeechClustered.pdf
23. Kinnunen Т., Kilpelainen Т., Franti P. Comparison of clustering algorithms in speaker identification", Proc. LASTED Int. Conf. Signal Processing and Communications (SPC): 222-227. Marbella, Spain, 2000.
24. Kohonen Т. The Self Organization Map.// Proc. IEEE, v.78, N9, pp. 14641480.
25. Martin A., Doddington G., Kamm Т., Ordowski, M., and Przybocki, M. The DET curve in assessment of detection task performance.//1997, In Proceedings of the European Conference on Speech Technology, pages 1895-1898, Rhodes.
26. Molau, S., Pitz, M., Schluter, R. and Ney, H., "Computing Mel-frequency cepstralcoefficients on the power spectrum," Acoustics, Speech, and Signal Processing Proceedings, Volume: 1, pp. 73 -76, 2001.
27. Pandit M. and Kittler, J.Feature selection for a DTW-based speaker verification system.// 1999.
28. Ргос. Workshop Automatic Speaker Recognition, Identification, Verification. 1994 (Switzerland).
29. Rabiner L. Juang B.H. Fundamentals of Speech Recognition. N.Y.: Prentice Hall, 1993.
30. Rosenberg A. E, Parthasrathy S. Speaker Bechground Models for Connected Digit Password Speaker Verification. // ICASSP-96, 81-84.
31. Rosenberg A. E., Soong F.K. Evalution of a Vector Quantization Talker Recognition System in Text Independent and Text Dependent Modes.// Computer Speech and Language, v.2, pp. 143-157, 1987.
32. Schmidt M., Gish H. Speaker Identification via Support Vector Classifiers. ICASSP-96,105-109.
33. Shroeter J., Soudhi M. M. Techniques for Estimation Vocal-Tract Shape from Speech Signal. // IEEE Trans. SAP-2 , N1, pp. 133-150, 1994.
34. Stevens, Stanley Smith; Volkman; John; & Newman, Edwin. (1937). A scale for the measurement of the psychological magnitude of pitch. Journal of the Acoustical Society of America, 8 (3), 185-190.
35. Stuart N Wrigley, 1998. Speech Recognition by Dynamic Time Warping -Режим доступа: http://www.dcs.shef.ac.uk/~stu/com326/index.html
36. Tony Robinson. Speech Analysis. Lent Term 1998. — Режим доступа: http://mi.eng.cam.ac.uk/~ajr/SA95/node54.html
37. Umesh, S., Cohen, L. and Nelson, D., "Frequency warping and the Mel scale" IEEE Signal Processing Letters, Volume: 9, Issue: 3, pp. 104 -107, 2002.
38. Wenndt S, Shamsunder S. Bispectrum Features for Robust Speaker Identification // ICASSP-97, 1095-1098.
39. Wong, E. and Sridharan, S. "Comparison of linear prediction cepstrum coefficients and Mel-frequency cepstrum coefficients for language identification," Intelligent Multimedia, Video and Speech Processing Proceedings, pp. 95 -98, 2001.
40. Zhenli Yu, P.c.Ching. Determination of Vocal-tract Shapes from Farmaut Frequencies Based on Perturbation Theory and Interpolation Method // ICASSP-96, pp. 369-372.
41. Ахмад X. M. Введение в цифровую обработку речевых сигналов : учеб. пособие / X. М. Ахмад, В. Ф. Жирков ; Владим. гос. ун-т. Владимир: Изд-во Владим. Гос. ун-та, 2008. - 192 с. - ISBN 5-89368-751-5.
42. Ахмад X. М. Выделение наиболее информативных характеристик речевого сигнала // Вестник ТГТУ, т. 14, №1. — Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835.
43. Ахмад X. М. Оптимизированный алгоритм поиска минимального наименьшего маршрута для симметричного алгоритма ДИВ в задачах распознавания дикторов // Вестник ТГТУ, т. 14, №1. Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835
44. Ахмад X. М. Параметрическое представление речевого сигнала для задачи распознавания спикера. Применение Mel частотных кепстральных коэффициентов // Математические методы в технике и технологиях - ММТТ-20. сб. трудов XX Междунар. науч. конф. в 10 т.
45. Т.6. Секция 12 /под общ. ред. В. С. Балакирева. Ярославль: Изд-во Яросл. гос. техн. ун-та, 2007. - 330с. С 66-68. ISBN 5-230-20703-5.
46. Ахмад X. М. Система идентификации говорящего методом создания кодовых книг образцов речи // Вестник ТГТУ, т. 14, №1. — Тамбов, Изд-во ТГТУ 2008. С. 19-31. ISSN 0136-5835
47. Ахмад Х.М. Обнаружение начала и конца речи в сигнале с использованием его магнитуды // Вестник ТГТУ, т. 13, №2А. — Тамбов, Изд-во ТГТУ 2007. С 449-451. ISSN 0136-5835
48. Ахмад Х.М. Определение высоты тона методом произведения гармоник спектра речевого сигнала // Вестник ТГТУ, т. 13, №3. Тамбов, Изд-во ТГТУ 2007. С 712-714. ISSN 0136-5835
49. Ахмад Х.М. Сравнительное исследование эффективности различных методов кепстрального описания речевых сигналов в задачах распознавания // Вестник ТГТУ, т. 13, №4. Тамбов, Изд-во ТГТУ 2007. С 887-891. ISSN 0136-5835
50. Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сигналов: пер. с англ. / Под ред. И.Б. Фоменко. — М.: Связь, 1980.-248с.
51. Винцюк Т.К. Анализ, радпознавание и интерпретация речевых сигналов. Киев. -"Наукова думка", 1987. 264с.
52. Галунов В.И. Режим доступа: http://www.auditech.ru/article/verobz.doc.
53. Гольденберг JI. М, Матюшкин Б. Д., Поляк М. Н. Цифровая обработка сигналов //- М.: Радио и связь, 1990. 256 е.: ил. ISBN 5-256-00678-9
54. Горелик А. Д., Гуревич И. Б., Скрипкин В. А. Современное состояние проблемы распознавания. М. радио и связь, 1985. - с. 161.
55. Горелик А. Л., Скрипкин В. А. Методы распознавания: Учеб. пособие для вузов. -3-е изд., перераб. и доп. М.: Высш. шк., 1989. - 232 с.
56. Доддингтон. Дж. Р. Распознавание дикторов: Идентификация людей по голосу // ТИИЭР, 1985,т.73,№11,с. 129-145.
57. Каппелини В., А. Дж. Константинидис, П. Эмилиани. Цифровые фильтры и их применение // Пер. с англ. — М.: Энергоатомиздат, 1983.
58. Косарев Ю. А. Естественная форма диалога с ЭВМ // Л: Машиностроение, 1989.
59. Кухарев Г.А. Биометрические системы: Методы и средства идентификации личности человека. — СПб.: Политехника, 2001. 240 с. ISBN 5-7325-0623-3.
60. Людовик Е.К., Шинкаж А.Г. Мера общности происхождения реализаций речевого сигнала // Распознавание образов (изображений и речи). -Киев: ИКАНУССР, 1980, -с.56-65.
61. Макхоул Дж. Векторное квантование при кодировании речи // -ТИИЭР, 1985,т.73, №11,с. 19-60.
62. Маркел Дж. Д. Грэй А. X Линейное предсказание речи. Пер. с англ. ЛТод ред. Ю.Н. Прохорова М Связь, 1980.
63. Марпл.-мл. С.Л. Цифровой спектральный анализ и его приложения: Пер. с англ.-М.: Мир.- 1990.
64. Плотников В.Н., Суханов В. А., Жигулевцев Ю. Н. Речевой диалог в системах управления. Москва, Изд-во "Машиностроение", 1988.
65. Рабинер JI.P, Гоулд Б. Теория и применение цифровой обработки сигналов // Москва, Изд-во "Мир", 1978. 848 с.
66. Рабинер JI.P, Шафер Р,В. Цифровая обработка речевых сигналов // Москва, Изд-во "Радио и связь", 1981.-496 с.
67. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу // Москва, Изд-во "Радио и связь", стр. 1-224.
68. Рамишвили Г.С. Речевой сигнал и индивидуальность голоса. // Изд-во "МЕЦНИЕРЕБА", Тбилиси, 1976, стр. 1-183.
69. Речевые технологии. Режим доступа: http://speech-soft.m/index.php?a=inf&inf=view&id inf=l 181023460 .
70. С. Протасов. Pick-by-Voice — технология третьего тысячелетия. // Журнал «Склад и техника» №2/2006. — Режим доступа: http://www.sitmag.ru/
71. Секунов Н. Ю. Обработка звука на PC. Т СПб.: БХВ-Петербург, 2001. ISBN 5-94157-037-6
72. Сергиенко А. Б. Цифровая обработка сигналов. СПБ.: Питер, 2003. -604с.: ил. ISBN 5-318-00666-3.
73. Системы распознавания русской речи в са11-центрах и IVR-системах . CONNECT! Мир Связи. Компьютеры и системы. Ноябрь, 2004. Режим доступа: http://www.connect.ru/article.asp?id=5188
74. Солонина А. И., Улахович Д. А., Арбузов СМ. и др. Основы Цифровой обработки сигналов / СПБ.: Петербург, 2003. -576 с. ISBN: 5-94157-388.
75. Технология VoiceCom. Центр речевых технологий (ЦРТ), РФ. — Режим доступа: http://speechpro.ru/rus/company/acomp/
76. Хэмминг Р. В. Цифровые фильтры // Пер. с англ. — М.: Сов. Радио, 1980.
77. Центр Речевых Технологий. — Режим доступа: http://www.mobiledevice.ru/russograf-VoiceCom-Software-raspoznavanie-slitnoi-russkoi-rechi.aspx .
78. Центр речевых технологий. Российские речевые технологии. Новые успехи и новые достижения. Режим доступа: http://www.bdi.spb.ru/arch/75/75 41 .pdf.
79. Вычисление параметров реч. сигнала
80. Mel — частотные коэффициенты (MFC)1. Переходы через нуль (ZC)1. Регистрация (Training)1. Идентификация (Testing)
81. Матрица признаков (Образцы)1. DTW1. Матрица признаков (Новые)
82. Результаты (Принятое решение)1. Алгоритмы обучения
83. Создание кодовой книги спикера (ККС)
84. Создание основной ККС и вычисление весовых коэффициентовкнига
85. Алгоритм вычисл, Весовых коэф.1. Алгоритмы тестирования
86. Высказывание (Реч. сигнал) для тестирования1. HPF1. Сегментация1. Вычисление КК
87. Матрица весовых коэффициентов22.
88. Алгоритм сходства (Подобия)о 11. Выбор max1. Идентификация1. К>
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.