Алгоритмы и программные средства автоматического текстонезависимого распознавания личностей по голосу тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Шулипа Андрей Константинович

  • Шулипа Андрей Константинович
  • кандидат науккандидат наук
  • 2015, ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»
  • Специальность ВАК РФ05.13.11
  • Количество страниц 154
Шулипа Андрей Константинович. Алгоритмы и программные средства автоматического текстонезависимого распознавания личностей по голосу: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики». 2015. 154 с.

Оглавление диссертации кандидат наук Шулипа Андрей Константинович

Оглавление

Глава 1. Аналитический обзор методов автоматического текстонезависимого распознавания дикторов

1.1. Анализ предметной области. Краткое описание основных компонент,

составляющих системы распознавания дикторов

1.2. Задача распознавания дикторов 18 1.3 Структура систем распознавания дикторов 22 1.4. Статистическое моделирование

1.4.1 Гауссовские смеси. Основные понятия

1.4.2 Универсальная фоновая СГР модель. Обучение универсальной фоновой модели

1.4.3 Получение СГР модели на речевых данных целевого диктора. MAP адаптация

1.5 Оценка эффективности систем автоматической распознавания дикторов по голосу

1.6 Методы компенсации влияния искажений речевого сигнала на эффективность работы системы распознавания дикторов

1.6.1 Нормализация в пространстве признаков

1.6.2 Компенсация в модельном пространстве

1.6.3 Пространство выходных оценок

1.7 Метод совместного факторного анализа

1.7.1 Оценка факторов вариативности. Построение СГР модели диктора с учетом компенсации эффектов канала

1.7.2 Оценка матриц базисных векторов подпространств вариативности в модели факторного анализа

1.8 Реализация распознавания дикторов на основе метода полной изменчивости

1.8.1 Построение модели диктора в пространстве полной изменчивости

1.8.2 Повышение точности распознавания ТУ метода с использованием линейного дискриминантного анализа

1.8.3 Верификация дикторов при использовании СГР моделей в пространстве полной изменчивости

1.9 Вероятностный линейный дискриминативный анализ

1.9.1 Особенности вероятностного линейного дискриминантного анализа

1.9.2 Описание генеративной модели

1.9.3 Оценка величины функции правдоподобия

1.9.4 Принятие решения

1.9.5 Оценка параметров PLDA модели на базе обучения

Глава 2. Алгоритмы и программные средства повышения точности систем распознавания дикторов при работе в реальных условиях

2.1 Этапы работы системы распознавания дикторов, описание основных

модулей

2.1.1 Выделение речевых сегментов на фонограмме

2.1.2 Извлечение признаков на речевых сегментах

2.1.3 Построение и сравнение моделей голосов дикторов

2.1.4 Принятие решения объединение выходных оценок классификаторов

2.2 Подготовка базовой системы распознавания

2.2.1 Обучение параметров универсальной фоновой модели

2.2.2 Программные средства построения универсальной фоновой модели104

2.3 Выводы

Глава 3. Алгоритмы и программные средства повышения робастности систем распознавания дикторов при работе в реальных условиях

3.1 Алгоритм компенсации внутридикторской вариативности на уровне

речевых признаков на основе гистограммной нормализации

3

3.1.1 Описание алгоритма компенсации внутридикторской вариативности на уровне речевых признаков на основе гистограммной нормализации

3.1.2 Экспериментальное исследование алгоритма гистограммной нормализации речевых признаков

3.1.3 Программная реализация алгоритма гистограммной нормализации

3.1.4 Выводы

3.2 Алгоритм компенсации внутридикторской вариативности на уровне выходных оценок на основе смеси моделей PLDA

3.2.1 Описание алгоритма распознавания диктора на основе смеси моделей PLDA

3.2.2 Экспериментальное исследование предложенного алгоритма

3.2.3 Программная реализация алгоритма смешивания РЬЭА систем

3.2.4 Выводы

3.3 Алгоритм компенсации внутридикторской вариативности на модельном уровне на основе мультисессионной модели диктора с использованием параметров качества речевого сигнала

3.3.1 Описание алгоритма формирования мультисессионной модели

3.3.2 Экспериментальное исследование разработанного алгоритма

3.3.3 Программная реализация алгоритма построения модели диктора по нескольким произнесениям с учетом параметров качества

3.3.4 Выводы 146 Заключение

Список терминов и условных обозначений

Диктор Личность, представляющая образец речи

Обучение Оценка параметров

СГР Смесь гауссовых распределений - линейная комбинация гауссовых функций, используемая для аппроксимации различного рода экспериментальных распределений компонент акустического пространства

Сессия Образец речи диктора

Тестовое произнесение Речевой материал, полученный от неизвестного диктора

Эталонная модель Модель голоса, построенная на образце речи известного диктора

DCF (Detection Cost Function) Функция стоимости детектирования

EM (Expectation Maximization) Метод максимизации ожидания

EER (Equal Error Rate) Уровень равной ошибки или точка совпадения вероятностей ошибок первого (ошибочный пропуск) и второго рода (ложное опознавание)

FA (False Acceptance) Ошибка принятия чужого диктора за своего (ложное опознавание)

FR (False Rejection) Ошибка принятия своего диктора за чужого (ошибочный пропуск)

GMM (Gaussian Mixture Model) Модель смесей гауссовых распределений (СГР)

HTD (Heavy-Tailed Distribution) Тяжелохвостое распределение

JFA (Joint Factor Analysis) Совместный факторный анализ

LDA (Linear Discriminant Analysis) Линейный дискриминантный анализ

LFCC (Linear Frequency Cepstral Coefficients) Линейно-частотные кепстральные коэффициенты

LPCC (Linear Prediction Cepstral Coefficients) Кепстральные коэффициенты линейного предсказания

MAP (Maximum A Posteriori Probability) Критерий максимума апостериорной вероятности

SVM (Support Vector Machine) Метод опорных векторов

TV (Total Variability) method Метод полной изменчивости

UBM (Universal Background Model) Универсальная фоновая модель (УФС)

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Алгоритмы и программные средства автоматического текстонезависимого распознавания личностей по голосу»

Введение

Актуальность проблемы. Современный этап развития науки и техники характеризуется проникновением речевых технологий в самые различные области научно-технической, народно-хозяйственной и социальной деятельности общества. Так, речевой интерфейс является одним из важнейших компонентов человеко-машинного интерфейса. При построении современных речевых интерфейсов актуальной является реализация концепции персонализации, когда машина должна автоматически определять личность общающегося с ней человека и подстраиваться под него. Это обеспечивает более надежное распознавание речи, команд и действий известного машине человека, более комфортный синтез речи на основе известных предпочтений конкретного пользователя. В последнее время для целей персонализации все активнее начинают применяться методы голосовой биометрии, т.е. автоматического распознавания личности по характеристикам его голоса (распознавания диктора).

Актуальность данного научного направления подтверждается проведением Национальным институтом стандартов и технологий США (National Institute of Standards and Technology, NIST) раз в два года на протяжении последних 20 лет крупномасштабных оцениваний систем распознавания дикторов, в которых участвуют ведущие компании (IBM, Microsoft, Nuance, ООО «ЦРТ» и др.), университеты (MIT, John Hopkins University и др.) и лаборатории (SRI, Idiap, CRIM и др.) мира. Лучшие технические решения затем используются для удовлетворения растущих требований не только речевых интерфейсов, но и других приложений в государственном и коммерческом секторах, начиная от систем логического и физического доступа до сложных систем безопасности национального масштаба. Актуальность проблемы также подтверждается большим количеством докладов на проходящей раз в два года специализированной международной конференции Odyssey: Speaker and Language Recognition

Workshop, и других международных конференциях, крупнейшими из которых являются ежегодные конференции Interspeech и Specom, публикациями в таких международных журналах как IEEE Transactions on Signal Processing, IEEE Transactions on Acoustics, Speech and Signal Processing, Journal of Speech, Language, and Hearing Research.

В России наиболее заметные результаты в области распознавания дикторов получены в Санкт-Петербургском государственном университете (В.И. Галунов), Институте проблем передачи информации РАН (В.Н. Сорокин), Московском государственном лингвистическом университете (Р.К. Потапова), Санкт-Петербургском институте информатики и автоматизации РАН (А.Л. Ронжин), ООО «ЦРТ» (Т.С. Пеховский, К.К. Симончик, М.В. Хитров). За рубежом наиболее значимые результаты получены такими учеными как D.A. Reynolds, P.J. Kenny, T. Kinnunen, H. Li.

Однако характеристики систем распознавания дикторов еще далеки от совершенства и требуется искать новые научные подходы и технические решения. Задача распознавания личностей по голосу (дикторов) сводится к оценке сходства между людьми, используя характерные особенности их голосов. Наиболее сложным является случай, когда диктор произносит произвольный, заранее не известный, текст - так называемое текстонезависимое распознавание диктора. Сложность данной задачи обусловлена высокой степенью изменчивости речевого сигнала, которая проявляется влиянием как внешних, так и внутренних факторов. Внутренние источники изменчивости (вариативности), влияющие на речевой сигнал, связаны с физиологическими особенностями человека. Данный тип изменчивости речевого сигнала проявляется у говорящего при изменении эмоционального состояния, степени голосового усилия, стиля речи, состояния здоровья и т.д. Внешние источники изменчивости связаны с влиянием факторов, вызывающих искажение речевого сигнала, которые проявляются при передаче речевых данных по каналам связи, возникновении

реверберационных эффектов при отражении звуковых волн от разного рода препятствий, наложении фонового шума и т.д.

В диссертации решается проблема компенсации перечисленных эффектов, связанных с изменчивостью речевого сигнала, при решении задачи автоматического текстонезависимого распознавания дикторов.

Цель диссертационной работы заключается в разработке методов, моделей, алгоритмов и программных средств, которые позволяют повысить эффективность работы систем автоматического текстонезависимого распознавания личностей по голосу в условиях воздействия факторов вариативности на речевой сигнал, полученный в реальных условиях.

Для достижения данной цели были поставлены и решены следующие задачи:

1. Исследование современных подходов к решению задачи распознавания дикторов, методов статистического моделирования, алгоритмов компенсации эффектов рассогласования при различии условий обучения и применения систем распознавания дикторов.

2. Разработка и реализация алгоритмов оценки параметров статистических моделей речевых данных.

3. Проведение экспериментальных исследований для подтверждения полученных результатов и сравнение с мировыми аналогами.

Объектом исследования в данной работе являются системы распознавания личности по голосу.

Предметом исследования являются методы, модели, алгоритмы и программные средства распознавания личности по голосу при рассогласовании условий обучения и применения систем распознавания личности.

Научная новизна

1. Разработан алгоритм построения универсальной фоновой модели, позволяющий повысить точность системы распознавания дикторов.

2. Разработан алгоритм гистограммной нормализации речевых признаков, позволяющий повысить робастность системы распознавания дикторов и отличающийся приведением формы распределения каждой компоненты вектора речевых признаков к стандартному нормальному распределению.

3. Разработан алгоритм формирования мультисессионной модели, позволяющий повысить робастность системы распознавания дикторов и отличающийся построением обобщенной модели на основе нескольких произнесений диктора с использованием параметров качества речевого сигнала.

4. Разработан алгоритм построения обобщенного решения, позволяющий повысить робастность системы распознавания дикторов и отличающийся комбинированием классификаторов PLDA.

5. Разработаны программные средства, включающие в себя набор модулей на основе предложенных алгоритмов, позволившие повысить точность и робастность систем распознавания дикторов.

Основные положения, выносимые на защиту

1. Алгоритм оценки параметров универсальной фоновой модели, позволяющий повысить точность системы распознавания дикторов.

2. Алгоритм гистограммной нормализации речевых признаков, позволяющий повысить робастность системы распознавания дикторов и отличающийся приведением формы распределения каждой компоненты вектора речевых признаков к стандартному нормальному распределению.

3. Алгоритм формирования мультисессионной модели, позволяющий повысить робастность системы распознавания дикторов и отличающийся построением обобщенной модели на основе нескольких произнесений диктора с использованием параметров качества речевого сигнала.

4. Алгоритм построения обобщенного решения, позволяющий повысить робастность системы распознавания дикторов и отличающийся комбинированием классификаторов PLDA.

5. Программные средства, включающие в себя набор модулей на основе предложенных алгоритмов, позволившие повысить точность и робастность систем распознавания дикторов.

Методы исследования в работе использованы методы дискретной математики, теории вероятностей, математической статистики, цифровой обработки сигналов и теории алгоритмов.

Достоверность научных положений, выводов и практических рекомендаций, полученных в диссертационной работе, подтверждается корректным обоснованием постановок задач, точной формулировкой критериев, компьютерным моделированием, результатами экспертной оценки, а также их внедрением на практике.

Практическая ценность Результаты, полученные в ходе выполнения работы, используются на практике для распознавания дикторов в речевых интерфейсах, системах логического и физического доступа, системах безопасности различного уровня.

Внедрение результатов работы. Результаты диссертационной работы использованы при выполнении следующих научно-исследовательских работ: НИР в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 20072013 годы», мероприятие 1.4 «Проведение проблемно-ориентированных поисковых исследований и создание научно-технического задела по перспективным технологиям в области информационно-телекоммуникационных систем» (госконтракт № 02.514.11.4128 «Исследования и разработки средств автоматической идентификации личности по голосовым признакам в естественной речи» с Минобрнауки РФ, 2009-2010), НИР "Разработка и создание аппаратно-программного комплекса по распознаванию лиц, говорящих на разных языках (цыганском, таджикском и др.) и представляющих оперативный интерес для правоохранительных органов" (ГР в ЦИТиС №1200852914, 2008), НИР «Поиск новых методов акустического исследования фонограмм устной речи,

в том числе иноязычной устной речи» (в/ч 68240, 2011). Также результаты работы были внедрены в различные коммерческие продукты компании ООО "ЦРТ".

Апробация результатов работы. Основные положения диссертационной работы докладывались на научно-методических конференциях: 13th Annual Conference of the International Speech Communication Association (USA, Portland, 2012), 14th Annual Conference of the International Speech Communication Association (France, Lyon, 2013), NIST 2012 Speaker Recognition Evaluation Workshop (USA, Orlando, 2012), 15th Annual Conference of the International Speech Communication Association (Singapore, 2014), IEEE International Conference on Acoustics, Speech, and Signal Processing (Italy, Florence, 2014), 12th IEEE International Conference on Advanced Video and Signal-based Surveillance (Germany, Karlsruhe, 2015).

Личный вклад автора. Автором лично были разработаны программные средства, проведены исследования и реализованы алгоритмы по обучению параметров универсальной фоновой модели (universal background model, UBM), матриц базисных векторов модели вероятностного дискриминативного анализа и факторного анализа, оптимальному объединению выходных оценок набора систем распознавания и калибровки. Подготовка основных публикаций проводилась с соавторами.

Публикации. По теме диссертации было опубликовано 11 научных работ, из них 7 статей опубликованы в журналах базы данных Scopus и 4 статей опубликованы в журналах из перечня ВАК.

Содержание основных разделов и структура диссертации. Диссертационная работа состоит из введения, трех глав, заключения и списка литературы (59 наименований). Материал изложен на 153 страницах и включает 15 таблиц и 30 рисунков.

Глава 1. Аналитический обзор методов автоматического текстонезависимого распознавания дикторов

1.1. Анализ предметной области. Краткое описание основных компонент, составляющих системы распознавания дикторов.

В настоящее время существует множество различных подходов к построению систем автоматического текстонезависимого распознавания дикторов. Но, в не зависимости от используемых методов, во всех системах реализуется выполнение следующих этапов: детектирование речи, извлечение акустических признаков, построение статистической модели эталонного и тестового произнесений, сравнение моделей, обработка результата сравнений и принятие решения (см. рис. 1.1, 1.2).

Для всех систем характерен этап предобработки входного речевого сигнала с целью удаления неречевых участков и извлечения акустических признаков, содержащих в себе информацию об особенностях голоса диктора (рис. 1.1).

аудиосигнал

расчет акустических признаков

выделение речевых

сегментов *

речевые признаки параметриза ция речевых данных

настроики алгоритмов

модель голоса диктора

Рисунок 1.1 - Схема построение голосовой модели диктора

Как показывают многочисленные исследования в области автоматического распознавания дикторов, наиболее эффективными оказались кепстральные признаки, построенные по линейной шкале частот (LFCC) или логарифмической-мел шкале (MFCC) [1, 2, 3]. Различие между

этими способами извлечения акустических признаков состоит в выборе структуры для последовательности треугольных фильтров. При использовании линейной шкалы производится анализ энергии спектра, извлеченной треугольными фильтрами с равноудаленными центрами на всем рассматриваемом диапазоне частот. В случае мел шкалы за счет нелинейности появляется эффект детализации энергетических особенностей речевого сигнала в области спектра низких частот, поскольку расстояние между центрами треугольных фильтров нелинейно возрастает по мере увеличения частоты из рассматриваемого диапазона частот.

Выделение участков речевой активности входного сигнала может производиться при помощи алгоритмов, основанных как на распознавании речи, так и анализе энергии сигнала на локализованных во времени сегментах [4]. В первом случае применение распознавания речи дает возможность произвести детектирование речевого сигнала с высоким качеством, поскольку сводится к минимуму ложное срабатывание на неречевых данных и ложное отбрасывание речевых данных за счет точного определения границ речевых сегментов на произнесении. Недостатком данного способа детектирования речи является языкозависимость, способность работы в сильно ограниченном диапазоне условий по уровню внешнего шума, реверберации, качеству речи и т.д. Как показывают результаты исследований [5], для получения удовлетворительных результатов достаточно использовать второй способ, основанный на энергетическом анализе сигнала. Такой метод выделения речи не требует сложных настроек, его эффективность не зависит от языка и, как показывают результаты экспериментов, способен поддерживать качество выделения речи в широком диапазоне условий. Его недостатком является то, что шумовые эффекты неречевого происхождения, присутствующие во входном сигнале, с энергией, превышающей пороговое значение, детектируются как речевые. Для их исключения требуется увеличение порога отсечки по энергии, что неизбежно приводит к потерям речевых данных.

Согласно результатам исследований, приведенным в [3, 6, 52], все современные системы распознавания диктора применяют статистическое моделирование распределений акустических признаков посредством смесей гауссовских распределений (СГР). Выбор смеси гауссовских распределений в качестве инструмента моделирования обусловлен их способностью с высокой точностью обеспечить параметрическое представление распределения входных данных. Для оценки параметров (для обучения) СГР используется эффективный алгоритм, который отличается быстрой сходимостью к точному решению и не требует больших вычислительных затрат [7]. Как правило, оценка параметров СГР моделей дикторов осуществляется путем адаптации параметров от универсальной фоновой модели, представляющей собой гауссовскую смесь, обученную на большом объеме речевых данных. Данный подход позволяет получить СГР модель голоса диктора, используя априорную информацию из фоновой модели, что упрощает оценку параметров. Кроме этого, универсальная фоновая модель выполняет роль модели "чужого диктора" при использовании критерия Неймана Пирсона [8].

Как было показано в [8], наиболее информативными, с точки зрения задачи распознавания дикторов, параметрами смеси являются центры компонент - гауссоид, входящих в смесь. Попытки учитывать остальные параметры - ковариации и коэффициенты смешивания, - приводят к увеличению вычислительных затрат при сравнении голосовых моделей эталонного и тестового произнесений без улучшения качества распознавания дикторов. Принимая во внимание данное обстоятельство, наиболее целесообразным для параметризации голосовых моделей является использование математических ожиданий входящих в смесь. Для этого производят объединение центров гауссоид в вектор, именуемый "супервектор" [9], который в дальнейшем рассматривается как модель голоса диктора. Применение данного представления для модели голоса позволяет использовать для классификации [10] дискриминативный подход,

основанный на машинах опорных векторов, а также произвести оценку факторов вариативности речевого сигнала для их компенсации на модельном уровне, используя метод совместного факторного анализа [11].

Разработка метода совместного факторного анализа позволила создать математическое описание влияния факторов вариативности различной природы на СГР модель голоса диктора. Приведенный в [11] алгоритм дает возможность выполнить оценку факторов междикторской и внутридикторской вариативности, а также определить факторы вариативности, вызванные особенностями канала передачи речевых данных. В конечном счете, это позволяет произвести оценку параметров СГР модели диктора, учитывая только вклад факторов междикторской вариативности, тем самым исключая влияние иных факторов, не связанных с особенностями голоса диктора.

Следующим шагом в развитии систем распознавания дикторов стал переход от представления СГР модели речевых данных в высокоразмерном пространстве "супервекторов" к их представлению в низкоразмерном пространстве полной изменчивости [6]. Согласно данному подходу производится анализ главных компонент "супервектора", формируется базис пространства и определяется положение точки в новом базисе, соответствующее СГР модели голоса. Описанный способ представления речевых данных дает возможность не только существенно сократить число параметров, необходимых для описания СГР модели, но и улучшить эффективность распознавания дикторов [12].

Дальнейшим этапом развития нового подхода стало применение метода вероятностного линейного дискриминативного анализа для создания генеративной модели и оценки факторов вариативности [13, 14, 54, 58]. В первоначальной версии метода, предложенной в [13], предполагалось использование сложной схемы с привлечением дополнительных параметров, требующих оценивания. Это привело к тому, что, несмотря на эффективность метода, для его использования на практике необходимо

сокращение вычислительных затрат. Решение проблемы сокращения вычислительной сложности при сохранении точности идентификации было найдено и приведено в работе [3]. Предложенный способ основан на применении линейного дискриминативного анализа для определения факторов вариативности в упрощенной форме, используя лишь гауссовские распределения в качестве априорных распределений на скрытые параметры генеративной модели голоса диктора в пространстве полной изменчивости. Важным элементом данного метода стало применение отбеливания [3] входных данных. Приведенный в работе [3] алгоритм является базовым, применяемым в коммерческих системах автоматического распознавания дикторов, который доказал свою эффективность по результатам тестов, проводимых в рамках конкурса по оцениванию систем распознавания дикторов (speaker recognition evaluation, SRE), организованного национальным институтом стандартов и технологий США NIST (National Institute of Standards and Technology, NIST) [5].

Помимо обучения системы распознавания дикторов, от которого зависит качество параметризации голосовой модели, важным этапом является настройка классификатора на выходе системы для принятия решений - калибровка системы распознавания [15]. Суть данной операции сводится к определению порога принятия решения в зависимости от качества входных данных, получению вероятностной интерпретации ошибки принятого решения и т.д. (рис.1.2).

При наличии нескольких систем распознавания дикторов возможно оптимальное объединение их решений [15], что позволяет улучшить качество общего решения по сравнению с качеством каждой системы в отдельности. Как правило, данное слияние систем осуществляется посредством линейной комбинации выходов каждой системы с коэффициентами, определенными исходя из оптимизации функции стоимости [16]. Естественно предположить, что наибольшего эффекта при слиянии систем можно добиться при условии слабой корреляции между ними.

модель эталонного произнесения

модель тестового произнесения

вероятность совпадения дикторов на тестовом и эталонном произнесениях

параметры калибровки, априорные данные

Рисунок 1.2 - Схема принятия решения в системе распознавания

дикторов

В приведенном анализе предметной области дано краткое описание основных компонент, составляющих системы распознавания дикторов. Содержится информация о методах, применяемых для реализации каждой компоненты, даны ссылки на литературные источники. Далее будет дано более подробное описание используемых методов, приведены результаты исследований и сделаны выводы об их эффективности для задачи распознавания дикторов.

1.2. Задача распознавания дикторов

Под задачей распознавания дикторов понимается задача определения принадлежности голоса на речевых данных к заданному диктору. В зависимости от постановки данная задача разделяется на два типа.

Идентификация диктора сводится к установлению личности говорящего на произнесении, используя в качестве ответа набор дикторов. Если ответ исчерпывается данным набором то задача идентификации -

закрытая. В противном случае, когда возможен вариант ответа не представленный в наборе, - открытая задача идентификации. Согласно формулировке открытой задачи идентификации необходимо, помимо выбора среди представленных моделей дикторов, принять решение о том, существует ли среди них правильный вариант.

Схематичное представление задачи идентификации дикторов на закрытом множестве показано на рис.1.2.1. Задача сводится к принятию решения, кому из множества N кандидатов принадлежит спорная фонограмма. При этом предполагается, что среди них обязательно присутствует правильный ответ.

Рисунок 1.2.1 - Структурная схема идентификации дикторов на

закрытом множестве

Эффективность работы системы идентификации на закрытом множестве существенно зависит как от N числа моделей дикторов, представленных на выбор, так и от того, насколько голоса дикторов, соответствующие указанным моделям, похожи друг на друга. Наиболее сложный случай возникает при необходимости выполнения идентификации на большом числе моделей, построенных для дикторов с похожими характеристиками голоса. Ошибка идентификации на закрытом множестве

характеризуется числом правильных ответов системы по отношению к общему числу попыток.

Для принятия решения в задаче идентификации голосов на закрытом множестве используется критерий максимального аргумента:

¡¿ = а^тах Р^Х) (1.1.1)

где 5 - все множество моделей дикторов-кандидатов на идентификацию по голосу;

- диктор-кандидат с номером ¿; X - набор речевых признаков, соответствующих входному произнесению, для которого нужно получить ответ о принадлежности к какому-либо из представленных дикторов;

id - индекс, соответствующий модели диктора, для которой выполняется критерий (1.1.1), является идентификатором диктора, чей голос присутствует на тестовом произнесении;

В случае идентификации на открытом множестве схема аналогична показанной на рис. 1.2.1, но при этом возникает дополнительная голосовая модель, которая выполняет роль модели голосов всех дикторов, не представленных среди кандидатов на выбор. Эффективность такой системы оценивается по ошибке, которая имеет две составляющие: ошибку идентификации на закрытом множестве и ошибку допуска в систему диктора, не представленного среди кандидатов для выбора.

Верификация диктора, в отличие от идентификации, предполагает бинарное решение, которое заключается в ответе на вопрос, принадлежат произнесения одному и тому же диктору или нет. На практике традиционно рассматривается вариант, когда диктор, чей голос присутствует на одном из произнесений, является известным. Процесс получения образца голоса этого диктора и расчета голосовой статистической модели является процессом регистрации диктора в системе распознавания. Далее устанавливается соответствие голосовой модели зарегистрированного диктора с речевыми

данными на других тестовых произнесениях, на которых диктор неизвестен см. рис.1.2.2.

Рисунок 1.2.2 - Структурная схема верификации

На выходе системы близость модели голоса эталонного диктора и речевых данных тестового произнесения характеризуется параметром Л, который сравнивается с некоторым пороговым значением в. В случае, если Л превышает пороговое значение, то принимается решение, что диктор на тестовом произнесении тот же, что и на голосовой модели. В противном случае эта гипотеза отвергается. Поскольку система не дает возможность произвести идеальное разделение дикторов по голосу, каждый ответ характеризуется дополнительно вероятностями ошибок ложного принятия и ложного пропуска.

В зависимости от известности произносимого диктором текста, системы распознавания дикторов разделяются на текстозависимые и текстонезависимые.

В текстозависимом режиме для получения положительного решения на выходе системы при сравнении эталонной модели голоса диктора и тестового произнесения требуется не только реальное совпадение голосов дикторов на тестовом и эталонном произнесениях, но и контекста. Типичные примеры использования данных систем связаны с приложениями, в которых для распознавания диктора необходимо произнесение голосовой парольной фразы. На практике обычно парольная фраза может быть как фиксированной,

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Шулипа Андрей Константинович, 2015 год

Список литературы

1. Zhou X. et al. Linear versus mel frequency cepstral coefficients for speaker recognition. // Proc. ASRU / ed. Nahamoo D., Picheny M. 2011. P. 559-564.

2. Yu D. et al. A Minimum Mean-Square-Error Noise Reduction Algorithm on Mel-Frequency Cepstra for Robust Speech Recognition // Proc. ICASSP. 2008. P.123-128.

3. Garcia-Romero D., Espy-Wilson C.Y. Analysis of i-vector Length Normalization in Speaker Recognition Systems. // Proc. INTERSPEECH. 2011. P. 249-252.

4. Ramirez J. et al. Efficient voice activity detection algorithms using long-term speech information // Speech Commun. 2004. Vol. 42. P. 3-4.

5. Козлов А.В. и др. Система идентификации дикторов по голосу для конкурса NIST 2012 // Труды СПИИРАН. 2013. Т. 25. №2. С. 350-370.

6. Dehak N. et al. Support vector machines versus fast scoring in the low-dimensional total variability space for speaker verification. // Proc. INTERSPEECH. 2009. P. 1559-1562.

7. Dempster A.P., Laird N.M., Rubin D.B. Maximum likelihood from incomplete data via the EM algorithm // J. R. Stat. Soc. Ser. B. 1977. Vol. 39. № 1. P. 138.

8. Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker verification using Adapted Gaussian mixture models // Digital Signal Processing. 2000. P. 1347-1352.

9. Campbell W.M., Sturim D.E., Reynolds D.A. Support vector machines using GMM supervectors for speaker verification // IEEE Signal Process. Lett. 2006. Vol. 13. P. 308-311.

10. Dehak N. et al. Support vector machines and joint factor analysis for speaker verification // Proc. ICASSP 2009. Taiwan, TW, 2009. P. 267-272.

11. Kenny P. Joint factor analysis of speaker and session variability: Theory and algorithms // Tech report. 2005. P. 27-45.

12. Kinnunen T., Li H. An overview of text-independent speaker recognition: from features to supervectors // Speech Communication, 2009. P. 12-40.

13. Kenny P. Bayesian Speaker Verification with Heavy-Tailed Priors // Proc. Odyssey-10. 2010.

14. Matejka P. et al. Full-covariance UBM and heavy-tailed PLDA in i-vector speaker verification. // Proc. ICASSP. 2011. P. 4828-4831.

15. Brummer N., VilHers E. de. The BOSARIS Toolkit: Theory, Algorithms and Code for Surviving the New DCF // CoRR. 2013. Vol. abs/1304.2865.

16. Rastoceanu F., Lazar M. Score fusion methods for text-independent speaker verification applications // Proc. 6th Conference on Speech Technology and Human-Computer Dialogue (SpeD). 2011. P. 1-6.

17. Lawson A.D. et al. Survey and evaluation of acoustic features for speaker recognition. // Proc. ICASSP. 2011. P. 5444-5447.

18. Kinnunen T., Li H. An Overview of Text-independent Speaker Recognition: From Features to Supervectors // Speech Commun. 2010. Vol. 52. № 1. P. 1240.

19. Beigi H. Speaker Recognition: Advancements and Challenges // New Trends and Developments in Biometrics / ed. Yang J. - InTech, 2012.

20. Burges C.J.C. A tutorial on support vector machines for pattern recognition // Data Min. Knowl. Discov. 1998. Vol. 2. P. 121-167.

21. Reynolds D.A. Channel robust speaker verification via feature mapping //. Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing. 2003. Vol. 2. P. II - 53-56.

22. Белых И.Н. и др. Система идентификации дикторов по голосу для конкурса NIST SRE 2010 // Информатика и ee применения. 2012.Т.6. №1. C. 91-98.

23. Pelecanos J., Sridharan S. Feature Warping for Robust Speaker Verification // Proc. A Speaker Odyssey - The Speaker Recognition Workshop. Crete, Greece: International Speech Communication Association (ISCA). 2001. P. 213-218.

24. Dehak N. et al. Front-End Factor Analysis for Speaker Verification. // IEEE Trans. Audio Speech Lang. Process. 2011. Vol. 19. № 4. P. 788-798.

25. Vogt R., Baker B., Sridharan S. Factor analysis subspace estimation for speaker verification with short utterances. // Proc. INTERSPEECH. 2008. P. 853-856.

26. Martin A.F., Greenberg C.S. The NIST 2010 speaker recognition evaluation. // Proc. INTERSPEECH. 2010. P. 2726-2729.

27. Prince S.J.D. Probabilistic Linear Discriminant Analysis for Inferences About Identity // Proc. IEEE 11th International Conference on Computer Vision ICCV. 2007. P. 1-8.

28. Bishop C.M. Pattern Recognition and Machine Learning (Information Science and Statistics).- Springer-Verlag New York, Inc., 2006. - 738 p.

29. Reynolds D.A., Rose R.C. Robust text-independent speaker identification using Gaussian mixture speaker models. // IEEE Trans. Speech Audio Process. 1995. Vol. 3, № 1. P. 72-83.

30. Матвеев Ю.Н., Очин Е.Ф. Нелинейное преобразование видеосигнала на основе алгоритма скользя-щей эквализации гистограмм // Изв Вузов СССР Радиоэлектроника. 1985. №1. С. 81-82.

31. Матвеев Ю.Н., Очин Е.Ф. Выполнение операции скользящего выравнивания гистограммы в матричном процессоре // Автометрия. 1988. №1. С. 14-17.

32. Матвеев Ю.Н., Очин Е.Ф., Кучеренко К.И. Устройство для скользящей эквализации гистограмм. - Авт. свид. СССР. 1989. № кл. G 06 F 15/36, 15/62.

33. Springer Handbook of Speech Processing / ed. Benesty J., Sondhi M.M., Huang Y. Berlin: Springer, 2008.

34. Xiang B. et al. Short-Time Gaussianization for Robust Speaker Verification // Proc. ICASSP. 2002. P. 681-684.

35. Матвеев Ю.Н., Очин Е.Ф. Структура устройства модификации гистограмм изображений // Тезисы Докладов II Всесоюзной Конференции «Методы и средства обработки сложной графической информации» -Горький ГГУ. 1985. 320 с.

36. Ramirez J., Gorriz J.M. Recent Advances in Robust Speech Recognition Technology. - Bentham Science Publishers, 2011. - 1567 p.

37. Kenny P. et al. A Study of Interspeaker Variability in Speaker Verification // IEEE Trans. On. Audio Speech Lang. Process. 2008. Vol. 16. № 5. P. 980-988.

38. The NIST Year 2012 Speaker Recognition Evaluation Plan. [Электронный ресурс]. Режим доступа http: //www.nist.gov/itl/iad/mig/upload/NIST_SRE 12_evalplan-v 17-r1.pdf (дата обращения: 14.09.2015)

39. The NIST Year 2008 Speaker Recognition Evaluation Plan [Электронный ресурс]. Режим доступа http://www.itl.nist.gov/iad/mig/tests/sre/2008/sre08_evalplan_release4.pdf (дата обращения: 14.09.2015)

40. The NIST Year 2010 Speaker Recognition Evaluation Plan [Электронный ресурс]. Режим доступа http: //www.nist.gov/itl/iad/mig/upload/NIST_SRE 10_evalplan-r6 .pdf (дата обращения: 14.09.2015).

41. Vogt R., Sridharan S. Explicit Modelling of Session Variability for Speaker Verification // Comput Speech Lang. 2008. Vol. 22. № 1. P. 17-38.

42. Dehak N. et al. A channel-blind system for speaker verification. // Proc. ICASSP, 2011. P. 4536-4539.

43. Senoussaoui M. et al. Mixture of PLDA Models in i-vector Space for Gender-Independent Speaker Recognition. // Proc. INTERSPEECH, 2011. P. 25-28.

44. Senoussaoui M. et al. An i-vector Extractor Suitable for Speaker Recognition with both Microphone and Telephone Speech // Proc. INTERSPEECH, 2011. P. 157-162.

45. Мерков А.Б. Распознавание образов. Введение в методы статистического обучения. - Едиториал УРСС. 2011. 256 c.

46. Отчет о выполнении НИОКР «Исследование математических основ создания группы алгоритмов, предназначенных для принятия

высокоэффективного обобщенного решения об идентификации по двум и более модальностям». - СПб ООО «ЦРТ-Инновации». 2012. 227 с.

47. Отчет о выполнении НИОКР «Разработка алгоритмов и программного обеспечения автоматической сегментации сигнала по принципу речь/шум/пауза, алгоритмов и программного обеспечения оценки качества фонограмм для последующей отбраковки». - СПб ООО «ЦРТ-Инновации». 2012. 284 с.

48. Отчет о выполнении НИОКР «Разработка методики редукции размерности голосовой модели в пространстве акустических признаков с целью уменьшения объема потребляемой памяти до 10 Кбайт без существенной потери качества идентификации». - СПб ООО «ЦРТ-Инновации». 2012. 128 c.

49. Burget L. et al. Analysis of Feature Extraction and Channel Compensation in a GMM Speaker Recognition System // Trans Audio Speech Lang Proc. 2007. Vol. 15. № 7. P. 1979-1986.

50. Kenny P. et al. Joint Factor Analysis Versus Eigenchannels in Speaker Recognition // Audio Speech Lang. Process. IEEE Trans. On. 2007. Vol. 15. № 4. P. 1435-1447.

51. Ignatov P., Stolbov M., Aleinik S. Semi-Automated Technique for Noisy Recording Enhancement Using an Independent Reference Recording // Proc. Audio Engineering Society Conference: 46th International Conference: Audio Forensics (Denver, CO, USA, June 14-16), 2012, С. 2-3, http: //www.aes. org/e-l ib/browse.cfm? elib=16342.

52. Матвеев Ю.Н., Шулипа А.К. Анализ возможности применения методов машинного обучения на основе многообразий в задачах распознавания дикторов // Известия вузов. Приборостроение. - 2014. - №2(57). - С.70-76.

53. Матвеев Ю.Н., Шулипа А.К. Гистограммная нормализация речевых признаков // Научно-технический вестник информационных технологий, механики и оптики. - 2012. - №6(82). - C. 85-88.

54. Supervized Mixture of PLDA Models for Cross-Channel Speaker Verification / K. Simonchik, T. Pekhovsky, A. Shulipa, A. Afanasyev // Proc. Interspeech, Portland, USA, Sep. 2012. P. 1684-1687.

55. Effective Estimation of a Multi-Session Speaker Model Using Information on Signal Parameters / K. Simonchik, T. Pekhovsky, A. Shulipa // Proc. Interspeech, Lion, France, Aug. 2013. P. 1604-1608.

56. RBM-PLDA subsystem for the NIST i-Vector Challenge / S. Novoselov, T. Pekhovsky, K. Simonchik, A. Shulipa // Proc. Interspeech, Singapore, Sept. 2014. P. 378-382.

57. Bayesian Analysis Of Similarity Matrices For Speaker Diarization/ A. Sholokhov, T. Pekhovsky, O. Kudashev, A. Shulipa, T. Kinnunen // Proc. ICASSP, Florence, Italy, May 2014. P. 106-109.

58. Text-Dependent GMM-JFA System For Password Based Speaker Verification / S. Novoselov, T. Pekhovsky, A. Shulipa, A. Sholokhov // Proc. ICASSP, Florence, Italy, May 2014. P. 729-733.

59. PLDA - based System for Text-Prompted Password Speaker Verification / S. Novoselov, T. Pekhovsky, A. Shulipa, O. Kudashev // Proc. AVSS, Karlsruhe, Germany, August 2015.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.