Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Симончик, Константин Константинович
- Специальность ВАК РФ05.13.18
- Количество страниц 187
Оглавление диссертации кандидат технических наук Симончик, Константин Константинович
ПЕРЕЧЕНЬ СОКРАЩЕНИЙ.
ВВЕДЕНИЕ.
НАУЧНЫЕ ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ:.
СТРУКТУРА И ОБЪЕМ РАБОТЫ.
ГЛАВА 1. ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ И СИСТЕМ ВЕРИФИКАЦИИ ПО ГОЛОСУ.
1.1. Задача сравнения голосов дикторов.
1.1.1. Формализация задачи.
1.1.2. Виды задач определения диктора по голосу.
1.1.3. Основные модули систем сравнения голосов дикторов.:.
1.2. Критерии эффективности систем верификации.
1.2.1. Национальный институт стандартов и технологий США.
1.2.2. Меры эффективности.
1.2.3. Результаты автоматического распознавания дикторов N 1ST.
1.3. Обзор существующих систем верификации по голосу.
1.3.1. «PhonoBase» - система автоматизированного учёта и поиска фонограмм.
1.3.2. «Трал М» - Система автоматизации фоноучетов и экспресс-исследований фонограмм речи.
1.3.3. Система «Голос».
1.3.4. Система идентификации дикторов.
1.3.5. Система «Speaker Identification System».
1.3.6. Система «Nuance SpeechSecure™».
1.4. Основные проблемы верификации дикторов.
1.5. Перспективы использования систем сравнения голосов дикюров
1.6. Выводы.
ГЛАВА 2. ПРЕДОБРАБОТКА СИГНАЛА И ВЫДЕЛЕНИЕ ХАРАКТЕРИСТИК РЕЧИ.
2.1. Ввод речи и ее цифровое представление.
2.2. Предварительная обработка и выделение первичных приз1 iakob
2.2.1. Дискретное преобразование Фурье.
2.2.2. Цифровые фильтры.
2.2.3. Использование оконных функций.
2.2.4. Нормализация уровня сигнала.
2.3. Выделение индивидуальных характеристик речевого сигнала.
2.3.1. Спектральные методы.
2.3.2. Коэффициенты линейного предсказания.'.
2.3.3. Кепстральное описание.
2.3.4. Идентификация на основании сравнения спектральных характеристик.
2.3.5. Идентификация на основании статистик основного тона.
2.3.6. Использование информации различных лингвистических уровней.
2.4. Комплекс алгоритмов предобработки речевого сигнала.
2.4.1. Схема модуля предобработки речевого сигнала.
2.4.2. Алгоритм детектирования щелчков.
2.4.3. Алгоритм детектирования гудков.
2.4.4. Алгоритм детектирования перегрузов.
2.4.5. Алгоритм детектирования музыкальных сигналов.
2.4.6. Алгоритм детектирования речевого сигнала.
2.5. Выводы.
ГЛАВА 3. СИСТЕМА ВЕРИФИКАЦИИ ДИКТОРА С ИСПОЛЬЗОВАНИЕМ СГР И MOB.
3.1. Математический аппарат СГР и MOB.
3.1.1. Математический аппарат модели Гауссовых смесей.
3.1.2. Обучение модели Гауссовых смесей.
3.1.3. Оценка метода, основанного на построении модели Гауссовых смесей.
3.1.4. Метод «Собственных Каналов» компенсации канальных искаэюений.
3.1.5. Введение понятия Собственного Канала.
3.1.6. Задачи МП-оценок в Собственных Каналах.
3.1.7. Метод опорных векторов.
3.2. Метод текстонезависимой верификации по голосу на основе использования СГР и MOB.>.Л
3.2.1. Выделитель речевых характеристик.
3.2.2. Создание СГР модели гипотезы диктора.
3.2.3. Модуль классификации методом опорных векторов.
3.2.4. Зависимость результатов верификации от языка.
3.3. Разработка методики обучения системы текстонезависимой системы верификации по голосу.
3.3.1. Создание универсальной фоновой модели.
3.3.2. Расчет матрицы компенсации канальных искажений.
3.3.3. Выбор множества опорных векторов.
3.3.4. Методика обучения системы текстонезависимой системы верификации по голосу.
3.4. ВЫВОДЫ.
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ.
4.1. Описание речевых баз данных для разработки, отладки и исследования системы верификации по голосу.
4.1.1. Условия сбора речевых баз данных для различных типов каналов
4.1.2. Общие характеристики речевой базы данных, записанной в различных типах каналов.
4.2. Оптимизация параметров системы верификации по голосу.
4.2.1. Влияние количества опорных векторов на качество системы верификации на базе INCAS.
4.2.2. Влияние количества опорных векторов на качество системы верификации на базе LASVM.
4.2.3. Оценка влияния предобработки на качество верификации.
4.2.4. Выбор параметров системы верификации по голосу для тест ирования.
4.3. Оценка надежности cpabhei1ия фонограмм голосов лиц в зависимости от длительности ф01ЮГРАММ.
4.4. 0це1ika надежности кросс-канального сравнения фонограмм голосов лиц.
4.5. Оценка надежности сравнения фонограмм, принадлежащих одному каналу связи.
4.6. Исследование качества работы алгоритмов предобработки сигнала.
4.6.1. Исследование алгоритма детектирования щелчков.
4.6.2. Исследование алгоритма детектирования гудков.
4.6.3. Исследование алгоритма детектирования перегрузов.
4.7. Выводы.
Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи2003 год, кандидат физико-математических наук Репалов, Сергей Анатольевич
Исследование и разработка алгоритмов параметризации речевых сигналов в системе распознавания диктора2008 год, кандидат технических наук Ахмад Хассан Мухаммад
Математические модели и комплекс программ для автоматического распознавания дикторов2004 год, кандидат технических наук Адель Саллам Мохамед Хайдер
Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов2006 год, кандидат технических наук Юрков, Павел Юрьевич
Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии2008 год, кандидат технических наук Соловьева, Елена Сергеевна
Введение диссертации (часть автореферата) на тему «Метод и алгоритмы автоматической текстонезависимой верификации дикторов и их программная реализация»
Актуальность темы. В настоящий момент область речевых технологий является одной из наиболее динамично развивающихся областей прикладной науки. Это связано с наличием большого числа актуальных задач, связанных с обработкой речи человека. В последние два десятилетия, в связи с бурным ростом компьютерных технологий, произошел прорыв в области автоматической обработки речевого сигнала. Как оказалось, многие задачи из области речевых технологий представляют интерес как для бизнес-структур, так и для правительственных организаций. Действительно, практически для все основные прикладные задачи этой области имеют выход как на чисто коммерческое, так и па специальное (связанное с обеспечением безопасности граждан) применение. Например, система автоматического выделения ключевых слов может использоваться как для индексирования речевых баз данных, так и для поиска в телефонном канале определенных слов и фраз; система идентификации диктора применяется как для контроля доступа пользователей к сервисам частных компаний, так и для выявления преступника по голосу. Поддержка речевых технологий из разных источников привела к развитию собственно автоматических методов, развивающихся и уже активно используемых настоящее время. Тем не менее, в виду сложности и комплексного характера задач, возникающих в процессе обработки естественного речевого сигнала, эти задачи далеки от того, чтобы можно было бы считать их решенными как в практическом, так и в научном плане.
Системы верификации дикторов по голосу относятся к множеству биометрических систем и, как следствие, области их применения пересекаются. Достоинством систем распознавания диктора по голосу является то, что такие биометрические системы чаще всего не требуют дополнительного оборудования и могут быть реализованы с использованием телефонных сетей или устройств ввода-вывода разных типов (микрофонов). Области применения таких систем различны:
- Автоматическая идентификация подозреваемого в телефонном канале. Подобная система позволяет проводить постоянный мониторинг телефонных переговоров (как в телефонном канале, так и для 1Р-телефонии) без присутствия оператора и сигнализировать об обнаружении диктора с голосом, похожим на голос подозреваемого в одном из каналов для дальнейших оперативных мероприятий (запись разговора, определение местоположения говорящих т.п.).
- Обработка речевых баз данных. Система идентификации диктора может выделить все вхождения голоса диктора в произвольной речевой базе данных. В таком случае система освобождает оператора от прослушивания всего звукового массива и предоставляет ему набор наиболее вероятных речевых сегментов, что в значительной степени удешевляет и ускоряет процесс поиска по речевым базам данных.
- Криминалистические исследования. Технология автоматического распознавания диктора по голосу уже сейчас используется в современных лабораториях криминалистических исследований как средство анализа фонограмм подозреваемых.
- Системы контроля доступа. Такие системы могут обеспечить дополнительный контроль доступа как к физическим объектам, так и к удаленным ресурсам в компьютерных сетях.
Задачей автоматической верификации дикторов можно считать создание модели, алгоритмов и, наконец, программного модуля, основанных на такой математической модели, которая позволила бы приблизиться к результатам, достигаемым человеком и, возможно, улучшить их. Данная диссертация посвящена описанию тех подходов, которые обеспечивают наилучшие результаты автоматической текстонезависимой идентификации дикторов и имеют хорошо просматриваемые перспективы дальнейшего развития. Так, ближайшие несколько лет модели с использованием смесей гауссовых распределений (СГР) и метод опорных векторов (MOB) остаются доминирующими при моделировании голоса диктора в задаче текстонезависимой верификации. На основании этого анализа разрабатывается и исследуется система верификации дикторов с использованием СГР и MOB подхода.
Целью диссертационной работы является разработка и исследование методов и алгоритмов текстонезависимой верификации дикторов по голосу, разработка программных средств текстонезависимой верификации дикторов, устойчиво работающей в различных каналах, связи.
В соответствии с указанной целью в работе сформулированы и решены следующие задачи:
1. Выполнен обзор методов, алгоритмов и систем текстонезависимой ч верификации дикторов по голосу.
2: Разработаны: метод и алгоритмы! построения систем верификации с использованием СГР-МОВ подхода.
3. Проведено экспериментальное исследование разработанной системы верификации дикторов и выполнен подбор параметров программных модулей системы с целью минимизации равновероятной ошибки пропуска/отклонения (EER).
Предмет и методы исследования. Предметом исследования1 является текстонезависимая система верификации по голосу. При решении поставленных задач использовался аппарат математического моделирования, численных методов, математической статистики, теории цифровой обработки сигналов, теории случайных процессов, теории распознавания образов.
Научная новизна работы представлена следующими положениями:
1. Предложен метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.
2. Предложен комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях.
3. Разработана методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и МОВ.
Научные положения, выносимые на защиту:
1. Метод текстонезависимой верификации по голосу, использующий компенсацию канальных искажений (метод «собственных каналов») и классификатор на основе метода опорных векторов.
2. Комплекс алгоритмов предобработки речевого сигнала, позволяющий повысить качество работы системы верификации в условиях различного рода помех: импульсных, мультитональных, музыкальных, а также при нелинейных амплитудных искажениях.
3. Методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и МОВ.
Практическая значимость работы заключается в реализации предложенных методов и алгоритмов в виде комплекса программ системы текстонезависимой верификации, устойчиво работающего в различных каналах связи, включающего программные модули предобработки речевого сигнала. Также предложены программные реализации методики обучения системы, в том числе и для адаптации системы для работы с фонограммами, записанными в специфических каналах связи.
Достоверность результатов исследования подтверждается корректным использованием математического аппарата, результатами экспериментальных исследований на программных моделях и результатами испытаний реальной системы, при создании которой использовались предложенные методы и алгоритмы.
Внедрение результатов. Результаты работы использовались при проведении в ООО «Центр Речевых Технологий» 2 ОКР и производстве 3 коммерческих продуктов. Работа поддержана программой фонда содействия развитию малых форм предприятий в научно-технической сфере "Участник молодежного движения Научно-Инновационного Конкурса" 2007 года.
Апробация результатов исследования. Основные положения и результаты работы изложены в следующих документах:
1. Отчет по выполнению опытно-конструкторской работы «Разработка и создание автоматизированной фоноскопической системы поиска и учета лиц, представляющих оперативный интерес для правоохранительных органов, в том числе с учетом состояний наркотического опьянения», шифр «Невод-07», № гос. контракта 9/1/2818, 2009 г.
2. Отчет по . выполнению опытно-конструкторской работы «Разработка аппаратно-программного комплекса по идентификации лиц, говорящих: на разных языках (цыганском, таджикском и др.) и представляющих оперативный интерес для правоохранительных органов»; шифр «Этнос-06», 2008 г.
Основные положения и результаты работы докладывались и обсуждались на ряде конференций, в число которых входят следующие:
1. 7-я Международная конференция "Распознавание образов и анализ изображений: новые информационные технологии". Санкт-Петербург, 18-23 октября 2004.
2. Технологии Microsoft в теории и практике программирования. Санкт-Петербург, 1-2 марта 2005
3. VIII Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 27-29 июня 2005
4. 59-я научно-техническая конференция профессорско-преподавательского состава СПбГЭТУ "ЛЭТИ" . Санкт-Петербург 24 января-31 февраля 2006
5. IX Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 27-29 июня 2006
6. 60 научно-техническая конференция профессорско-преподавательского состава СПбГЭТУ "ЛЭТИ" .Санкт-Петербург 30 января-7 февраля 2007
7. Технологии Microsoft в теории и практике программирования. Санкт-Петербург, 13-14 марта 2007
8. X Международная конференция по мягким вычислениям и измерениям. Санкт-Петербург, 25-28 июня 2007
9. 10-я Международная научно-техническая конференция и выставка "Цифровая обработка сигналов и ее применение". Москва, 28-30 марта 2008.
10. 12-я Международная научно-техническая конференция и выставка "Цифровая обработка сигналов и ее применение". Москва, 31 марта — 2 апреля 2010.
Публикации. По теме диссертации опубликовано 14 работ, их них 5 статей опубликованы в журналах, рекомендованных Высшей аттестационной комиссией, и 9 работ в материалах научно-технических конференций.
Структура и объем работы.
Диссертация состоит из введения, пяти глав, заключения, списка литературы, включающего 85 наименований. Основная часть работы изложена на 175 страницах машинописного текста. Работа содержит 50 рисунков и 20 таблиц.
Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК
Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени2000 год, доктор технических наук Гитлин, Валерий Борисович
Автоматизация процесса верификации абонентов АСУ с речевым управлением2008 год, кандидат технических наук Катков, Олег Николаевич
Алгоритмы и программные средства автоматического текстонезависимого распознавания личностей по голосу2015 год, кандидат наук Шулипа Андрей Константинович
Выявление голосовых признаков индивидуальной информативности для использования в речевых системах управления доступом2001 год, кандидат технических наук Во Ван Кханг
Разработка методики использования широких фонетических категорий в задачах верификации диктора2010 год, кандидат технических наук Милошенко, Алексей Анатольевич
Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Симончик, Константин Константинович
4.7. Выводы
В данной главе приведены результаты экспериментальных исследований влияния параметров системы верификации СГР-МОВ на качество работы. В качестве критерия качества работы системы использовалась ошибка равновероятного пропуска/отклонения EER. Так, показано, что при достижении количества опорных векторов равного 120 наступает насыщение ошибки EER для метода обучения INCAS и 1200 для метода LASVM -дальнейшее её падение даже при малых длительностях речевого сигнала прекращается.
Установлено, что применение всех разработанных алгоритмов предобработки улучшает качество верификации. Максимальная эффективность работы комплекса алгоритмов предобработки достигает на сильно зашумленных сигналах, что часто встречается на практике.
Данные исследования позволили определить оптимальные с точки зрения показателя качества EER параметры системы.
В целом же реализованная программная система верификации СГР-МОВ показывает уровень ошибки EER меньший, чем у таких систем как «Трал М» компании «Центр Речевых Технологий» (по всем тестовым базам) и сравнимый с уровнем ошибки системы «PhonoBase» компании «Целевые Технологии».
Заключение
Представленная диссертационная работа содержит результаты исследований по разработке системы текстонезависимой верификации дикторов по голосу.
Основные научные и практические результаты работы можно сформулировать следующим образом:
• Проведен обзор современных существующих систем идентификации/верификации по голосу как отечественных, так и зарубежных производителей. Предложено уделить основное внимание разработке текстонезависимых систем распознавания дикторов на основе использования СГР и метода опорных векторов.
• Предложен метод текстонезависимой верификации по голосу, совмещающий метод компенсации канальных искажений (метод «собственных каналов») и метод опорных векторов.
• Предложен комплекс алгоритмов предобработки речевого сигнала с целью повышения качества работы системы верификации.
• Разработана методика обучения системы текстонезависимой верификации по голосу на основе использования СГР и MOB.
• Разработано и введено в эксплуатацию программное обеспечение текстонезависимой системы верификации по голосу с использованием СГР-МОВ подхода.
• Проведено экспериментальное исследование разработанной системы верификации дикторов и выполнен подбор параметров программных модулей системы с целью минимизации равновероятной ошибки пропуска/отклонения (EER).
Разработанная модель системы распознавания дикторов может быть эффективно использована для различных практических приложений. Реализованная программная архитектура позволяет сделать данную систему расширяемой для работы на фонограммах, записанных в условиях специфических канальных помех и искажений, а также для верификации дикторов, говорящих на различных языках.
Список литературы диссертационного исследования кандидат технических наук Симончик, Константин Константинович, 2010 год
1. Андреев С. В., "Программное обеспечение для создания и использования фонетических баз данных", в сборнике статей "Речевая и музыкальная информатика" /Рос. АН ВЦ отв. редактор В .Я. Чучупал, М.: 1992, с. 81-96
2. Винцюк Т.К., Анализ, распознавание и интерпретация речевых сигналов. Киев. "Наукова думка", 1987.
3. Воробьев В.И., Трибун В.Г., Теория и практика вейвлет преобразования. Военный институт, Санкт-Петербург, 1999.
4. Геппенер В.В., Симончик К.К., Разработка систем автоматической верификации дикторов с использованием нейронных сетей, журнал «Нейрокомпьютеры: разработка и применение», Радиотехника, 2006, №7.
5. Геппенер В.В., Хайдер A.C., Методы принятия решений в задачах распознавания дикторов" Материалы 59-ой научно-технической конференции СПбНТО РЭС им. А.С Попова, изд-во СПбГЭТУ "ЛЭТИ", 2004г., с. 25-26.
6. Гольденберг Л. М., Матюшкин Б. Д., Поляк М. Н. Цифровая обработка сигналов // М.: Радио и связь, 1990.
7. Горелик А. Л., Скрипкин В. А. Методы распознавания: Учеб. пособие для вузов. -3-е изд., перераб. и доп. М.: Высш. шк., 1989. - 232 с.
8. Иванов И.Л. Экспертное исследование параметров распределения ЧОТ. электронный ресурс] http://illidiy.orel.ru/Pub/publ7.htm
9. Каппелини В., А. Дж. Константинидис, П. Эмилиани. Цифровые фильтры и их применение // Пер. с англ. М.: Энергоатомиздат, 1983.
10. Маркел Дж. Д. Грэй А. X Линейное предсказание речи. Пер. с англ./Под ред. Ю. Н. Прохорова — М Связь, 1980.
11. Марпл.-мл. С.JI. Цифровой спектральный анализ и его приложения: Пер. с англ.- М.: Мир.- 1990.
12. Нужный A.C., Шумский С.А., Байесова аппроксимация многомерных данных с помощью вейвлетов, М.: МИФИ, «Нейроинформатика-2003», 2003.
13. Рабинер J1.P, Гоулд Б. Теория и применение цифровой обработки сигналов.// Москва, Изд-во "Мир", 1978.
14. Рабинер J1.P, Шафер Р.В. Цифровая обработка речевых сигналов // Москва, Изд-во "Радио и связь", 1981.
15. С Рамишивили Г.С., Чикоидзе Г.Б. Криминалистическое исследование фонограмм речи и идентификация личности говорящего. Тбилиси, Изд. Мецниереба, 1991.
16. Сергиенко А. Б. Цифровая обработка сигналов. СПБ.: Питер, 2002.
17. Симончик К.К., Разработка встроенной системы автоматической верификации дикторов по голосу, Доклады 10-й Международной конференции «Цифровая обработка сигналов и ее применение», Инсвязьиздат, Выпуск Х-1, Москва, 2008, том 1, стр. 245-248.
18. Солонина А. И., Улахович Д. А., Арбузов С. М. и др. Основы Цифровой обработки сигналов / СПБ.: Петербург, 2003.
19. Фланаган Д.Л., Анализ, синтез и восприятие речи. М.: Связь, 1968. -396 с.
20. Хайдер A.C., Сравнение методов параметризация речевых сигналов при решении задачи распознавания дикторов. // Известия СПбГЭТУ "ЛЭТИ", серия "Информатика, управление и компьютерные технологии" вып. 1,2004, с.36-42.
21. Хэмминг Р. В. Цифровые фильтры // Пер. с англ. М.: Сов. Радио, 1980.
22. Andrews W. D., М. A. Kohler and J. P. Campbell, Phonetic Speaker Recognition, Eurospeech, ISCA, Aalborg, Denmark, 2001, pp. 2517 2520.
23. Andrews W., Kohler M., Campbell J., Godfrey J., Hemandez-Cordero J., "Gender dependent phonetic refraction for speaker recognition", ICASSP, vol. l,p. 149-152, 2002
24. Aronowitz H., Burshtein D. and Amir A., "A session-GMM generative model using test utterance Gaussian mixture modeling for speaker verification," in Proc. ICASSP 2005, Philadelphia, PA, Mar. 2005.
25. Atal B.S., "Automatic speaker recognition based on pitch contours", JASA, vol. 52, pp. 1687-1697, 1972
26. Baum L. E., An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes, Inequalities 3 (19n), 1-8.
27. Bourlard H. and Morgan N. Connectionist speech recognition: a hybrid approach. Kluwer, Dordrecht, 1994
28. Burges C. J. C., "A tutorial on suport vector machines for pattern recognition," Data Mining and Knowledge Discovery, vol. 2, no. 2, pp. 1-47, 1998.
29. Campbell J., Reynolds D., Dunn R., "Fusing high- and low-level features for speaker recognition", Eurospeech ISCA, Geneva Switzerland, 2003
30. Carey M., Parris E. and Bridle J., "A speaker verification system using alpha-nets," in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP '91), vol. 1, pp. 397-400, Toronto, Canada, May 1991.
31. Carey M.J., Parris E.S., Lloyd-Thomas FI., and Bennet S., "Robust prosodic features for speaker identification", Proc. ICSLP-96, Philadelphia, Nov. 1996
32. Dempster A. P., Laird N. M. and D. B. Rubin, Maximum-Likelihood from Incomplete Data via the EM algorithm, Journal of the Royal Statistical Society B (1977), 1-38.
33. Do M., "Fast Approximation of Kullback-Leibler Dis-tance for Dependence Trees and Hidden Markov Models," IEEE Signal Processing Letters, pp. 115118,2003.
34. Doddington G., "Speaker recognition based on idiolectical differences between speakers", Eurospeech, ISCA, Aalborg, Denmark, 2001, pp.2517-2520
35. Doddington G., Some Experiments on Idiolectal Differences among Speakers, 2000.
36. Doddington, G., et al., "The NIST speaker recognition evaluation -Overview, methodology, systems, results, perspective", Speech Communication 31 (2000), pp. 225-254
37. Gales M., "Cluster adaptive training for speech recognition," in Int. Con. Speech Language Processing '98, vol. 5, Sydney, Australia, Nov. 30-Dec.4, 1998, pp. 1783-1786.
38. Hecht R.M., Tishby N. Extraction of Relevant Speech Features Using the Information Bottleneck Method // Proceedings of Interspeech'2005, Lisbon, Portugal, Sept. 4-8, 2005. P. 353-356.
39. Jin Q., Navratil J., Reynolds D., Cambell J., Andrews W., "Combining cross-stream and time dimensions in phonetic speaker recognition", ICASSP 2003
40. Klusacek D., Navratil J., Reynolds D., Campbell J., "Conditional pronunciation modeling in speaker detection", ICASSP 2003
41. Koolwaaij J, Automatic speaker verification in telephony: a probabilistic approach PhD thesis, University of Nijmegen, 2001
42. Koolwaaij J. W. and Boves, L. (1997). On the independence of digits in connected digit strings. In Proceedings of the European Conference on Speech Technology, pages 2351-2354, Rhodes.
43. Kuhn R., Junqua J., Ngyuen P. and Niedzielski N., "Rapid speaker adaptation in eigenvoice space," IEEE Trans, on speech and audio processing, vol. 8, no. 6, pp. 695-707, 2000
44. Kuhn R., Nguyen P., Junqua J.-c., Goldwasser L., Niedzielski N., Fincke S., Field K. and Contolini M., "Eigenvoices for speaker adaptation," in Int. Con! Speech Language Processing '98, vol. 5, Sydney, Australia, Nov. 30-Dec. 4,1998, pp. 1771-1774.
45. Li Q., A fast, sequential decoding algorithm with application to speaker verification, Multimedia Communications Research Laboratory, Bell Labs, Lucent Technologies, 1999.
46. Lucey S. and Chen T., "Improved speaker verification through probabilistic subspace adaptation," in Proc. Eurospeech, Geneva, Switzerland, Sept. 2003.
47. Markel J.D., Gray Jr. A.H. Linear prediction of speech. Berlin: Springer, 1976.- 198 p.
48. Martin A. and Przybocki, M., "The NIST 1999 Speaker Recognition Evaluatioon An Overview", Digital Signal Processing, Vol. 10, Num. 1-3. January/April/July 2000, pp. 1 -18
49. Mason J. and Yu K. (1996). Performance factors in speaker recognition. In Proceedings of the COST-250 workshop on Application of Speaker Recognition Techniques in Telephony, pages 1-5, Vigo.
50. Nguyen P., Wellekens C. and Junqua J.-C., "Maximum likelihood Eigenspace and MLLR for speech recognition in noisy environments," in Proc. Eurospeech '99, vol. 6, Budapest, Hungary, Sept. 1999, pp. 2519-2522.
51. Pekhovsky T., Oparin I., "Eigen Channel Method for Text-Independent Russian Speaker Verification", in Proc. of The XII International Conference "Speech and Computer" SpeCom'08, Moscow, Russia, 2008. pp. 385-390.
52. Pekhovsky T., Oparin I., "Maximum Likelihood Estimations for Session-Independent Speaker Modeling", in Proc. of The XIII International Conference "Speech and Computer" SpeCom'09, St.-Petersburg, Russia, 2009. pp. 267-270.
53. Peskin B., Navratil J., Abramson J., Jones D., Klusacek D., Reynolds D.A., and Xiang B., "Using prosodic and conversational features for high-performnace speaker recognition: Report from JHU WS'02", ICASSP, 2003
54. Przybocki M., Martin A. NIST Speaker Recognition Evaluation Chronicles // Proceedings of the Speaker and Language Recognition Workshop, Odyssey-2004, Toledo, Spain, May 31- June 3, 2004. P. 15-22.
55. Przybocki M., Martin, A. NIST's Assessment of Text Independent Speaker Recognition Performance // COST 275 Workshop Thee Advent of Biometrics on the Internet. P. 25-32.
56. Rabiner L. R. and Juang B. H. (1986). An introduction to hidden Markov models. IEEE Transactions on Acoustics, Speech, and Signal Processing, 4-15.
57. Rabiner L., Juang B.H., Fundamentals of Speech Recognition. Prentice Hall, 1995.
58. Reynolds D. A., Channel Robust Speaker Verification via Feature Mapping, in Proc. IEEE ICASSP, 2003, pp. 53.56.
59. Reynolds D.A. and Rose R.C., Robust text-independent speaker identification using Gaussian mixture speaker models, IEEE Trans. Speech Audio Process. 3 (1995), pp. 72-83.
60. Reynolds D.A., "A Gaussian Mixture Modeling Approach to Text-Independent Speaker Identification." Ph.D. thesis, Georgia Institute of Technology, September 1992.
61. Reynolds D.A., Quatieri, T.F. and Dunn R.B. (2000). Speaker verification using adapted Gaussian mixture models. Digital Signal Processing, 10:19-41.
62. Robinson Tony. Speech Analysis. Lent Term 1998, http://mi.eng.cam.ac.uk/~ajr/SA95/node54.html
63. Rosenberg A. E. and Parthasarathy S. (1996). Speaker background models for connected digit password speaker verification. In Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, pages 81-84, Atlanta.
64. Solomonoff A., Campbell W. and Boardman I., "Ad-vances in Channel Compensation For SVM Speaker Recognition," in ICASSP, vol. 1,2005, pp. 629-632.
65. SuperSID: Exploiting High-Level Information for High-Performance Speaker Recognition // The Center for Language and Speech processing, 2002 Summer Workshop. электронный ресурс] -http://www.clsp.jhu.edu/ws2002/groups/supersid/
66. Thyes О., Kuhn R., Nguyen P. and Junqua J.-c., Speaker Identification and Verification using Eigenvoices, International Conference on Spoken Language Processing (ICSLP) (Beijing, China), Oct. 2000.
67. Tishby N., Pereira F., Bialek W. The Information Bottleneck Method // Proceedings of 37th annual Allerton Conference on Communication, Control and Computing, 1999.
68. Van Leeuwen D. A. Speaker Adaptation in the NTST Speaker Recognition Evaluation 2004 // Proceedings of Interspeech'2005, Lisbon, Portugal, Sept. 48, 2005. P. 1981-1984.
69. Vapnik V. N., The Nature of Statistical Learning Theory, Springer, 1995.
70. Viterbi A.J., Error bounds for convolutional codes and asymptotically optimum decoding algorithm, IEEE Transactions on Information Theory 13, April 1967.
71. Young S. etal., editors (1997). The НТК Book. Cambridge University, Cambridge
72. Zilca R. D., Navratil J., Ramaswamy G. N. Depitch and the role of fundamental frequency in speaker recognition // Proceedings of Internat. Conf. Acoust. Speech Signal Process., 2003. Vol. IT, P. 81-84.
73. Al-Shoshan A.I. "Speech and Music Classification and Separation: A Review", 2006,Department of Computer Science, College of Computer,Qassim University, Saudi Arabia;
74. Barbedo J.G.A., Lopes A. "A Robust and Computationally Efficient Speech/Music Discriminator", 2006, Department of Communications, FEEC, Campinas, SP, Brazil;
75. Carey M.J. Parris E.S. Lloyd-Thomas H. "A comparison of features for speech, music discrimination", 1996, Ensigma Ltd, U.K.;
76. Dixon S. "Onset detection revisited", 2006,Austrian Research Institute for Artificial Intelligence, Austria;
77. Scheirer E., Slaney M. "Construction and evaluation of a robust multifeature speech/music discriminator", 1997,Interval Research Corp., CA, USA;
78. Widmer G., Seyerlehner K., Pohle T., Schedl M. "Automatic music detection in television productions", 2007,Dept. of Computational Perception Johannes Kepler University Linz, Austria and Austrian Research Institute for AI, Vienna;
79. N. Dehak and G. Chollet, "Support Vector GMMs for Speaker Verification," in IEEE Odyssey, San Juan, Puerto Rico, 2006.
80. W. Campbell, D. Sturim, D. Reynolds, and A. Solomonoff, "SVM Based Speaker Verification using a GMM Supervector Kernel and NAP Variability Compensation," in ICASSP, vol. 1,2006, pp. 97-100.
81. P. Moreno, P. Ho, and N. Vasconcelos, "A Generative Model Based Kernel for SVM Classification in Multimedia Applications," in NIPS, 2003.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.