Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Соловьева, Елена Сергеевна
- Специальность ВАК РФ05.13.01
- Количество страниц 149
Оглавление диссертации кандидат технических наук Соловьева, Елена Сергеевна
Список и обозначение аббревиатур.
Введение
Цель работы.
Научная новизна.
Практическая значимость работы.
Основные результаты работы.
Достоверность полученных результатов.
Апробации работы.
Глава 1. Голосовая биометрия.
1.1. Состояние и перспективы голосовой биометрии.
1.2. Области использования голосовой биометрии.
1.3. Коммерческие системы для решения задач голосовой биометрии.
1.3.1. Коммерческие системы идентификации диктора и определения акцента .*.
1.3.2. Коммерческие системы детектирования стресса.
1.3.3. Оценка технологии голосовых анализаторов стресса.
1.4. Модели речеобразования.
1.4.1. Линейная моде л ь.
1.4.2. Нелинейная модель.
1.5. Основные подходы к идентификации диктора.
1.6. Основные подходы к определению акцента.
1.7. Основные подходы к определению антропометрических данных.
1.7.1. Определение роста.
1.7.2. Определение пола.
1.8. Основные методы исследования эмоциональной речи.
1.8.1. Субъективные методы.
1.8.2. Объективные методы.
Выводы
Глава 2. Алгоритмы для решения задач голосовой биометрии.
2.1. Идентификация диктора на основе технологии MFCC и VQ.
2.1.1. Вычисление MFCC векторов.
2.1.2. Алгоритм квантования векторов.
2.2. Определение национальных особенностей диктора на основе скрытых моделей Маркова.
2.3. Определение антропометрических характеристик диктора.
2.3.1. Определение пола.
2.3.2. Алгоритм определение роста.
2.4. Определение психоэмоционального состояния.
2.4.1. Алгоритмы определения основного тона и его характеристик.
2.4.2. Джитгер и шиммер.
2.4.3. Расчет Формант.
2.4.4. Нелинейный оператор ТЕО.
2.4.5. Однофакторный дисперсионный анализ ANOVA.
Выводы
Глава 3. Программно-аппаратный комплекс для решения задач голосовой биометрии.
3.1. Назначение программно-аппаратного комплекса.
3.1.1. Функциональное назначение.
3.1.2. Основные компоненты системы.
3.1.3. Основные функции.
3.1.4. Формат файлов.
3.2. Общая схема программно-аппаратного комплекса.
3.3. Спецификация программных модулей системы.
3.4. Условия использования программно-аппаратного комплекса.
3.4.1. Климатические условия эксплуатации.
3.4.2. Минимальный состав технических средств.
3.4.3. Минимальный состав программных средств.
3.4.4. Верификация и валидация системы.
3.4.5. Инструментальные средства разработки и документирования.
Выводы
Глава 4. Применение программно-аппаратного комплекса для решения задач голосовой биометрии.
4.1. Расчет характеристик голосового тракта с помощью Simulink.
4.2. Идентификация диктора.
4.2.1. Идентификация диктора на основе формантных частот.
4.2.2. Идентификация диктора на основе MFCC и VQ.
4.3. Определение национальных особенностей диктора.
4.3.1. Классификация акцента на основе формантного анализа.
4.3.2. Определение национальных особенностей диктора на основе Скрытых Моделей Маркова.
4.4. Определение антропометрических характеристик диктора.
4.4.1. Определение пола дикторов.
4.4.2. Определение роста диктора на основе расчета акустических характеристик голосового тракта.
4.4.3. Автоматическое определение роста диктора.
4.4.4. Оценка точности работы модуля антропометрии.
4.5. Определение психоэмоционального состояния.
4.5.1. Определение психоэмоционального состояния на основе расчета основного тона.
4.5.2. Определения психоэмоционального состояния с помощью классификатора с несколькими входными параметрами.
4.6. Автоматическая экспертная оценка записи.
Выводы
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Исследование мультимодальных алгоритмов биометрической идентификации на основе методов цифровой обработки речевых сигналов и изображений2022 год, кандидат наук Стефаниди Антон Федорович
Выявление голосовых признаков индивидуальной информативности для использования в речевых системах управления доступом2001 год, кандидат технических наук Во Ван Кханг
Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума2017 год, кандидат наук Калашников, Дмитрий Михайлович
Методы и алгоритмы обработки электрофизиологических сигналов для автоматического распознавания стадий сна2009 год, кандидат технических наук Дорошенков, Леонид Георгиевич
Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи2003 год, кандидат физико-математических наук Репалов, Сергей Анатольевич
Введение диссертации (часть автореферата) на тему «Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии»
БИОМЕТРИЯ - это наука об идентификации или верификации личности по физиологическим или поведенческим отличительным характеристикам. К физиологическим биометрическим параметрам относятся отпечатки пальцев, геометрия лица, кисти руки, радужной оболочки, сетчатки глаза, геометрия рисунка вен. Физиологические параметры обычно измеряются в определенный момент времени. Поведенческие биометрические параметры, например подпись и голос, представляют собой последовательность действий и длятся в течение определенного периода времени [1].
Долгое время все, что было связано с биометрией, отличалось сложностью и дороговизной. В последнее время спрос на биометрические продукты, в первую очередь в связи с развитием электронной коммерции, постоянно и весьма интенсивно растет. Это объясняется тем, что с точки зрения пользователя гораздо удобнее предъявить себя самого, чем что-то запоминать. В настоящее время на рынке появились относительно недорогие программно-аппаратные продукты, ориентированные в основном на распознавание отпечатков пальцев. Рост спроса на биометрические технологии также связан с решениями правительств ведущих государств о применении биометрических технологий в паспортно-визовых документах, что направило в эту область крупные финансовые и материальные ресурсы.
Наибольшее распространение получили системы идентификации по отпечаткам пальцев, однако в последние годы наблюдается повышенный интерес к голосовой биометрии. Это связано с такими преимуществами голосовой биометрии перед остальными подходами как: использование стандартного оборудования (обычного микрофона, телефона, ПК), бесконтактность, возможность получения дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности).
Одно из самых перспективных применений голосовой биометрии — использование для проверки идентичности человека перед разрешением доступа к защищенному имуществу (например, счет в банке, авторизация действия или восстановление пароля). Второе применение - получение дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности). Данное применение является востребованным в области криминалистики, когда нужно идентифицировать звонящего человека, не зарегистрированного в базе данных, или оценить его психоэмоциональное состояние.
Основным недостатком систем идентификации по голосу является использование характеристик речи, которые подвержены влиянию психоэмоционального состояния человека, что снижает процент правильной идентификации. Кроме того, существующие в настоящее время системы не обеспечивают набором методик расчета характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния. Таким образом, разработка интегрированного программно-аппаратного комплекса для решения задач голосовой биометрии является актуальной темой.
Цель работы
Целью данной диссертационной работы является разработка методов и алгоритмов для обработки и анализа записей речевого сигнала с целью выявления индивидуальных характеристик голосового тракта диктора для решения основных задач голосовой биометрии, таких как идентификация диктора, определение его акцента/диалекта, антропометрических характеристик и психоэмоционального состояния.
Научная новизна
Научная новизна полученных результатов состоит в теоретическом обосновании, экспериментальном обеспечении и разработке эффективных алгоритмов и методов анализа и классификации речевого сигнала для решения задач голосовой биометрии.
В ходе выполнения диссертационной работы получены следующие научные результаты.
1. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.
2. С помощью однофакторного дисперсионного анализа выявлен эффективный набор речевых характеристик для определения психоэмоционального состояния диктора.
3. Предложен оптимальный набор параметров классификатора психоэмоционального состояния на основе многослойного перцептрона.
4. Предложен алгоритм для определения пола диктора, использующий значения Q10 (квантиль 10%) по гистограмме частоты основного тона (ЧОТ).
5. Разработанный программно-аппаратный комплекс обеспечивает, как ручную расстановку меток фонем, так и автоматическую на основе метода Learning Vector Quantization (LVQ).
6. Для определения роста разработан алгоритм на основе Mel frequency cepstral coefficients (MFCC векторов), квадратичной регрессии и сингулярного разложения. Определены фонемы гласных, дающие точность, достаточную для оценки роста.
Практическая значимость работы
1. Предложенные методики сбора речевых баз данных и предобработки записей речевого сигнала позволяют выделять значимые участки речи и могут быть использованы для решения задач голосовой биометрии.
2. Разработанный программно-аппаратный комплекс для регистрации, обработки и анализа речевого сигнала может быть использован для идентификации человека, а также определения его антропометрические характеристики, акцента/диалекта и психоэмоционального состояние.
Основные результаты работы
1. Проведенный анализ существующих систем и методов для решения задач голосовой биометрии показал, что недостатком существующих российских систем идентификации является чувствительность к психоэмоциональному состоянию диктора, из-за использования основного тона в качестве метода формирования векторов признаков.
2. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.
3. Предложен эффективный набор речевых характеристик и оптимальный набор параметров классификаторов, обеспечивающий надежное использование системы для идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.
4. Показана невозможность использования формантного анализа и нейросетевых классификаторов в задачах классификации акцента и идентификации дикторов, так как 2-х слойные сети эффективны на небольших (до 40-50 человек) выборках. Однако, затем процент правильной классификации снижается до 40-50%.
5. В результате проведенных исследований реализован программно-аппаратный комплекс с использованием полученных в диссертационной работе методов и алгоритмов, позволяющий решать задачи голосовой биометрии.
6. Проведено тестирование разработанных методов и алгоритмов на доступных базах. а. При идентификации диктора на базе данных из 528 человек, состоящей из звуковых записей, записанных с помощью одного и того же оборудования и в одинаковых акустических условиях, точность составила 99,6 %. Удалось увеличить точность на 7-17% по сравнению с системами, использующими характеристик речи, которые подвержены влиянию психоэмоционального состояния человека. б. При определении акцента/диалекта диктора ошибка тестирования классификатора составила от 18% до 33 %, при чем процент ошибки уменьшается с увеличением количества дикторов в обучающей выборке. в. Точность определения пола по микрофонным записям составила 97.49% на базе из 199 дикторов. г. В результате исследования был определён эффективный набор речевых характеристик, изменяющихся в зависимости от психоэмоционального состояния, выявлен оптимальный набор параметров классификатора на основе многослойного перцептрона. Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой выборки - 83.3% и 80%.
Рис. 1. Программно-аппаратный комплекс для решения задач голосовой биометрии
Достоверность полученных результатов
Достоверность полученных результатов подтверждается тестированием программы на доступных базах данных, подтвердившим надежность разработанных методов и алгоритмов.
Апробации работы
Основные положения и результаты диссертационной работы были представлены и обсуждены:
• на V-й Международной НТК «Электроника и информатика-2005», Москва, МИЭТ, 23-25 ноября 2005;
• на XIII, XIV, XV всероссийских межвузовских НТК студентов и аспирантов «Микроэлектроника и информатика» (Москва, 2006. 2007, 2008);
• на Всероссийском молодежном научно-инновационном конкурсе -конференции «Электроника - 2006» (Москва, 2006);
• на VII Международной НТК «Физика и радиоэлектроника в медицине и экологии - ФРЭМЭ 2006» (Владимир, 2006);
• на конкурсе молодежных инновационных предпринимательских проектов «День науки Зеленоград», (Москва, 2006 - 2007);
• на XX съезде Физиологического общества им. И.П. Павлова (Москва, 2007);
• The 4th Russian-Bavarian Conference on Bio-Medical Engineering, 2008, Moscow.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Модель голосообразования и анализ речевого сигнала в норме и при патологии2007 год, кандидат технических наук Квасов, Алексей Николаевич
Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация2010 год, кандидат технических наук Симончик, Константин Константинович
Технология голосовой идентификации личности на основе проекционных методов анализа многомерных данных2015 год, кандидат наук Малинин, Петр Владимирович
Моделирование и разработка комплекса программ идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса2009 год, кандидат технических наук Малков, Максим Александрович
Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть2001 год, кандидат технических наук Кисельман, Бронеслав Арнольдович
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Соловьева, Елена Сергеевна
Выводы
Из четвертой главы можно сделать следующие выводы.
1. В результате проведенного исследования можно сделать вывод, что формантный анализ и 2-х слойные сети хорошо работают в задачах классификации акцента и идентификации диктора на небольших (до 30-40 человек) выборках. Однако, затем процент правильной классификации снижается до 40-50%.
2. Точность идентификации при использовании метода MFCC и VQ составила 99,6 % на базе данных в 528 дикторов. Такая точность была достигнута благодаря использованию базы данных, записанной с помощью одного и того же оборудования и в одинаковых аккустических условиях без постороннего шума.
3. При определении акцента/диалекта диктора с помощью СММ ошибка тестирования классификатора составила от 18% до 33 %, при чем процент ошибки уменьшается с увеличением количества дикторов в обучающей выборке.
4. При использовании квантиль 10% по гистограмме ЧОТ точность определения пола по микрофонным записям составила 97.49% на базе из 199 дикторов.
5. Наименьшая ошибка определения роста получена для гласных «у» и «е», при этом распределение точек на графике близко к диагональному. При использовании комбинации гласных или их всех одновременно ошибка выше, а распределение имеет более ярко выраженный «горизонтальный» вид.
6. Определено, что использование только линейных характеристик речевого сигнала (ЧОТ и ее дисперсии) не дает результата, достаточного для идентификации психоэмоционального состояния диктора. В связи с этим было решено использовать также нелинейные характеристики.
7. В результате исследования был определён эффективный набор речевых характеристик, изменяющихся в зависимости от психоэмоционального состояния, выявлен оптимальный набор параметров классификатора на основе многослойного перцептрона. Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой выборки - 83.3% и 80%.
Заключение
Проведенный анализ существующих систем и методов для решения задач голосовой биометрии показал, что, как правило, для идентификации диктора по голосу используют характеристики речи, которые подвержены влиянию психоэмоционального состояния человека, что снижает процент правильной идентификации. Кроме того, в настоящее время не существует коммерческих программно-аппаратных систем, обеспечивающих набор методик для расчета характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния.
В ходе выполнения диссертационной работы разработана методика сбора и предобработки баз данных с целью выявления значимых характеристик речевого сигнала для решения задач голосовой биометрии.
Предложено математическое описание расчета и классификации характеристик голосового тракта. Предложен эффективный набор речевых характеристик и оптимальный набор параметров классификаторов, что обеспечивает надежное использование системы для идентификации диктора, определения его акцента, антропометрических характеристик и психоэмоционального состояния.
На основе разработанных алгоритмов и методов реализован программно-аппаратный комплекс, предназначенный для сбора, обработки и хранения речевых сигналов, а также оценки антропометрических, психоэмоциональных и национальных особенностей диктора по фонограмме голоса.
Итогами тестирования программы на доступных базах данных были подтверждены преимущества разработанных методов и алгоритмов и были получены следующие результаты:
1. Форматный анализ и 2-х слойные сети хорошо работают в задачах классификации акцента и идентификации диктора на небольших (до 30-40 человек) выборках. Однако, затем процент правильной классификации снижается до 40-50%.
2. Точность идентификации при использовании метода MFCC и VQ составила
99,6 % на базе данных в 528 дикторов. Такая точность была достигнута благодаря использованию базы данных, записанной с помощью одного и того же оборудования и в одинаковых акустических условиях без постороннего шума.
3. При определении акцента/диалекта диктора с помощью СММ ошибка тестирования классификатора составила от 18% до 33 %, при чем процент ошибки уменьшается с увеличением количества дикторов в обучающей выборке.
4. Точность определения пола по микрофонным записям составила 97.49% на базе из 199 дикторов.
5. Наименьшая ошибка определения роста получена для гласных «у» и «е», при этом распределение точек на графике близко к диагональному. При использовании комбинации гласных или их всех одновременно ошибка выше, а распределение имеет более ярко выраженный «горизонтальный» вид.
6. В результате исследования был определён эффективный набор речевых характеристик, изменяющихся в зависимости от психоэмоционального состояния, выявлен оптимальный набор параметров классификатора на основе многослойного перцептрона. Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой выборки - 83.3% и 80%.
Список литературы диссертационного исследования кандидат технических наук Соловьева, Елена Сергеевна, 2008 год
1. Болл Руд М., Коннел Джонатан X., Панкантн Шарат, Ратха Налипи К., Сеньор Эндрю У. Руководство по биометрии Москва: Техносфера, 2007. 368с.
2. The Biometric Consortium. http://\vmv.biomctrics.ore/rcscarch.httn.
3. Кухарев Г. А. Биометрические системы: Методы и средства идентификации личности человека. СПб.: Политехника, 2001. - 240 с.
4. Lippold O, Physiological Tremor, Scientific American, Volume 224, Number 3, March 1971.
5. National Institute of Truth Verification, www.cvsal .com.
6. US Patent 2005/0131692.-2005.18. www.nemesysco.com.19. US Patent 6638217.-2003.
7. Eriksson A. Charlatanry and fraud — an increasing problem for forensic phonetics? 2006.
8. Sommers M, Evaluating Voice-Based Measures for Detecting Deception The Journal of Credibility Assessment and Witness Psychology 2006, Vol. 7, No. 2, 99-107.
9. Hopkins C, Evaluation of Voice Stress Analysis Technology, 2005.
10. Fant G. (1960), Acoustic Theory of Speech Production, The Hagues:Mounton.
11. Engwall O. (2004). From real-time MRI to 3D tongue movements. Proc ICSLP 2004 pdf.
12. Teager H, Teager S. Evidence for Nonlinear Production Mechanisms in Vocal Tract // Speech Production and Speech Modeling v.55, pp.241-261, 1990.
13. Беловол E.B. Проявление свойств темперамента в акустических характеристиках речи: Автореф. канд. дис. — М.: Союз, 1999.
14. Justiphone. http.7/www.i 11 idiу.оrel.ru.
15. Фролов M.B. (1987) Контроль эмоционального состояния человека-оператора, Москва, "Наука".
16. Fernandez R, "A Computational Model for the Automatic Recognition of Affect in Speech", Massachusetts Institute Of Technology, February 2004.
17. Dellaert F, Polzin T, Waibel A. Recognizing emotion in speech. In: The International conference on spoken language processing (ICSLP 1996), Philadelphia, PA, 1996. p. 1970-3.
18. The newsletter of The Acoustical Society of America, ECHOES, Volume 12, Number 4, Fall 2002, Voice Quality: What Is Most Characteristic About "You" in Speech, by Ingo R. Titze and Brad H. Story.
19. Zissman M. and Berling K., Automatic Language Identification, In Speech Communication, vol.35, pp.115-124, 2001.
20. Huang. Rongqing / Hansen, John H. L. (2005): "Advances in word based dialect/accent classification", In INTERSPEECH-2005, 2241-2244.34. www.ruscorpora.ru.35. http://corpus.leeds.ac.uk/serge/frqlist.
21. Lass, N.J. Brown, W.S. (1978) 'Correlational study of speaker's height, weight, body surfaceareas, and speaking fundamental frequencies', Journal of the Acoustic Society of America, 63: 1218-20.
22. Lass, N.J., Barry, P.J. Reed, R.A., Walsh, J.M. and Amuso, T.A. (1979) 'The effect of temporal speech alterations of speaker height and weight identification', Language and Speech, 22: 163-71.
23. Lass, N, J, Hendricks, C.A. Iturriaga, N.A. (1980b) 'The consistency of listener judgements in speaker height in speaker height and weight identification', Journal of Phonetics, 8: 43948.
24. Lass, N.J. Kelley, D.T. Cunningham, C.M. and Sheridan, K.J. (1980c) 'A comparative study of speaker height and weight identification from voiced and whispered speech', Journal of Phonetics, 8: 195-205.
25. Lass, N.J. Phillips, J.K. and Bruchey, C.A. (1980d) 'The effect offiltered speech on speaker height and weight identification', Journal of Phonetics, 8: 91-100.
26. D. Timothy Ives, David R. R. Smith, and Roy D. Patterson Discrimination of speaker size from syllable phrases, J. Acoust. Soc. Am., Vol. 118, No. 6, December 2005, Pages: 38163822.
27. David R. R. Smith, Roy D. Patterson, and Richard Turner The processing and perception of size information in speech sounds, J. Acoust. Soc. Am., Vol. 117, No. 1, January 2005, Pages: 305-318.
28. Fitch W and Giedd J, Morphology and development of the human vocal tract: A study using magnetic resonance imaging, J. Acoust. Soc, Amer., 106(3): 1511-1522, 1999.
29. Dusan S, Estimation of Speaker's Height and Vocal Tract Length from Speech Signal, INTERSPEECH-2005, 1989-1992.
30. Брандт 3., Анализ данных, Статистические и вычислиетльные методы для найчных работников и инженеров: Пер. с англ. М.; Мир, ООО «Издательство ACT», 2003 -686 с.
31. Галяшина Е. И. (2002) Основы судебного речеведения.
32. Banse R., Scherer К. Acoustic profiles in vocal emotion expression // Journal of Personality and Social Psychology, 70(3), 1996.
33. Wundt W. Outlines of Psychology// Scholarly Press, 1999.
34. Schlosberg H. Three dimensions of emotion // Psychological Review, 61(2), 1954.
35. Osgood C., Suci G., Tannenbaum, P. The measurement of meaning // University of Illinois Press, Urbana, USA, 1957.
36. Watson D., Tellegen A. Toward a consensual structure of mood // Psychological Bulletin, 1985.
37. Covvie R. Cornelius R. Describing the emotional states expressed in speech // Speech Communication, v 40, № 1-2, 2003.
38. Plutchik R. The psychology and biology of emotion // N.: Haryer.Collins, 1994.
39. Jovicic S.T., Rajkovic M., Dordevic M., Kasic Z. Perceptual and statistical analysis of emotional speech in man-computer communication // SPECOM'2006, Saint-Petersburg.
40. Терёхина Ю.А. Многомерное шкалирование в психологии // Психологический журнал, т.4,№1, 1993.
41. Uldall Е. Attitudinal meanings conveyed by intonation contours // Language and Speech, 1960.
42. Kwang-Dong J. Oh-Wook K. Speech Emotion Recognition for affective Human-Robot Interaction // SPECOM'2006, St.Petersburg.
43. Zhou G., Hansen H.L., Kaiser J.F. Nonlinear Feature Based Classification of Speech under Stress // IEEE Transactions on Speech & Audio Processing, v. 9, № 2, pp. 201-216, 2001.
44. Todor Dimitrov Ganchev, Speaker Recognition, Wire Communications Laboratory Department of Computer and Electrical Engineering University of Patras Greece, Dissertation number: 169, November 2005.
45. Atal, B.S., Hanauer, S.L. (1971) Speech Analysis and Synthesis by Linear Prediction of the
46. Speech Wave. In Journal of the Acoustical Society of America. Vol. 50. No. 2, pp. 637-655.
47. Hermansky, H. 1990. Perceptual Linear Predictive (PLP) Analysis for Speech. In Journal of the Acoustical Society of America. Vol. 87. No.4, pp. 1738-1752.
48. W. Sintupinyo, P. Dubey, S. Sae-tang, V., Acahriyakulporn, C. Wutiwiwatchai, and C. Tanprasert, "LPC-based Thai Speaker Identification using DTW", Proceedings of 1999 NSTDA Annual Conference, Thailand, p.238-246, March-April 1999. (in Thai).
49. C. Wutiwiwatchai, V. Achariyakulporn, and C. Tanprasert, "Text-dependent Speaker Identification using LPC and DTW for Thai Language", 1999 IEEE 10th Region Conference (TENCON'99), Vol. 1, September 1999.
50. T. Kohonen, Self-Organizing Maps, Springer Verlag, 2001, 501 p.
51. Ashish, J., Harris, J. (2004). "Speaker Identification using MFCC and HMM based techniques", EEL 6586 project Term report, MIL, University of Florida, April 25, 2004.
52. Baum, L.E., Petrie, T. (1966). Statistical Inference for Probabilistic Function of Finite State Markov Chains. In Annals of Mathematical Statistics. Vol. 377, pp. 1554-1563.
53. Baum, L.E. (1972). An inequality and associated maximization technique in statistical estimation for probabilistic function of Markov processes. Vol. 3, pp. 1-8.
54. Vincent Wan and Steve Renals, Speaker Verification using Sequence Discriminant Support Vector Machines, IEEE Transactions on Speech and Audio Processing, Volume 13, no. 2, pages 203-210, March 2005.
55. Chai Wutiwiwatchai, Sutat Sae-tang, and Chularat Tanprasert, Thai Text-Dependent Speaker Identification by ANN with Two Different Time Normalization Techniques, NLPNN'99, 2542.
56. Becchetti, C. and L.P.Ricotti, Speech Recognition, John Wiley & Sons Ltd., 1999.
57. V. Mantha, R. Duncan, Y. Wu, and J. Zhao, Implementation and analysis of speech recognition front-ends, ECE4773/Digital Signal Processing, December 12, 1998.
58. Todor Dimitrov Ganchev, Speaker Recognition, Wire Communication Laboratory Department of Computer and Electrical Engineering University of Patras Greece, Dissertation number: 169, November 2005, 198 p.
59. T. Kohonen, Self-Organizing Maps, Springer Verlag, 2001, 501 p.
60. Linde, Y., Buzo, A. and Gray, R.M., An algorithm for vector quantizer design. IEEE Trans. Commun. v28. 84-95.
61. R. Huang and J. H. L. Hansen, "Dialect/Accent Classification via Boosted Word Modeling" in ICASSP, Philadelphia, USA, March, 2005.
62. C. J. Leggetter and P.C. Woodland, Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models, in Computer Speech and Language, vol. 9, pp. 171-185, 1995.
63. M. J. F. Gales and P.C. Woodland, Mean and Variance Adaptation within the MLLR Framework, in Computer Speech and Language, vol. 10, pp. 249-264, 1996.
64. Schroder M. Speech and emotion research: An overview of research frameworks and a dimensional approach to emotional speech synthesis // PhD thesis, PHONUS 7, Research Report of the Institute of Phonetics, Saarland University, 2003.
65. Boersma P. Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound // Proc. Institute of Phonetic Sciences, 1993.
66. Xi Li, Jidong Tao, Michael T. J. Stress and emotion classification using jitter and shimmer features // ICASSP 2007.
67. Соловьева E.C. Идентификация и верификация диктора по голосу // Всероссийский молодежный научно-инновационный конкурс конференция «Электроника - 2006». Тезисы докладов конференции. - М.: МИЭТ, 2006. - С. 96.
68. Секунов Н.Ю. Обработка звука на PC, Издательство «БХВ-Петербург», 2001.
69. Кинтцель Т. Программирование звука на ПК, Издательство ДМК Пресс, 2005.
70. Teager Н, Teager S., "Evidence for Nonlinear Production Mechanisms in Vocal Tract", in Speech Production and Speech Modeling, NATO Advanced Study Institute, Vol.55, Bonas, France, (Boston: Kluwer Academic Pub.), pp.241-261, 1990.
71. Kaiser J.F., "Some Useful Properties of Teager's Energy Operator," IEEE ICASSP-93, Vol. 3, pp. 149-152, 1993.
72. Чистович JI.A., Венцов А.И., Гранстрем М.П. и др. Физиология речи. Восприятие речи человеком. М.: Наука, 1976, стр. 388.88. http://pascal.kuw.tu-berlin.de/emodb/docu/. •
73. Соловьева Е.С., Конышев В.А. Анализ стресса по речевому сигналу // V Международная НТК «Электроника и информатика-2005». Тезисы докладов. М.: МИЭТ, 2005.-С. Ш.90. http://accent.gmu.edu/.
74. Соловьева Е.С., Тананыкин А.А. Модуль идентификации личности по голосу // XIV Всероссийская межвузовская НТК студентов и аспирантов «Микроэлектроника и информатика 2007». Тезисы докладов. - М.: МИЭТ, 2007. - С. 363.
75. Соловьева Е.С. Классификация акцента с помощью нейронных сетей // XIII всероссийская межвузовская НТК студентов и аспирантов: «Микроэлектроника и информатика 2006». Тезисы докладов. - М.: МИЭТ, 2006. - С. 327.
76. Соловьева Е.С., Конышев В.А., Селищев С.В. Использование основного тона и формантного анализа в задачах голосовой биометрии // Медицинская техника. 2007. -№1. - С. 32-37.
77. Соловьева Е.С., Тарасов Р.Ю. Оценка психоэмоционального состояния человека по голосу // XX съезд Физиологического общества им. И.П. Павлова. Тезисы докладов. -М.: Издательский дом «Русский врач», 2007. С. 427.
78. Лоусон Ч., Хенсон Р., Численное решение задач метода наименьших квадратов, Издательство «Наука», 1986, 232 стр.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.