Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат физико-математических наук Репалов, Сергей Анатольевич

  • Репалов, Сергей Анатольевич
  • кандидат физико-математических науккандидат физико-математических наук
  • 2003, Ростов-на-Дону
  • Специальность ВАК РФ05.13.18
  • Количество страниц 143
Репалов, Сергей Анатольевич. Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи: дис. кандидат физико-математических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Ростов-на-Дону. 2003. 143 с.

Оглавление диссертации кандидат физико-математических наук Репалов, Сергей Анатольевич

Принятые обозначения и сокращения.

Введение.

1 Обзор и анализ методов идентификации дикторов по их речи.

1.1 Обзор методов предобработки и представления речевого сигнала используемых для решения задачи идентификации дикторов.

1.1.1 Математическое описание сигнала.

1.1.2 Спектральное представление (дискретное преобразование Фурье).

1.1.3 Коэффициенты линейного предсказания (КЛП).

1.1.3.1 Автокорреляционный метод.

1.1.3.2 Ковариационный метод.

1.1.4 Гомоморфная обработка речи. Кепстральное представление.

1.1.5 Психоакустика. Мел-, Барк- шкалы.

1.1.6 Мел-спектры.

1.1.7 Формантные характеристики.

1.2 Обзор и анализ математической модели и методов решения задачи идентификации диктора.

1.2.1 Методы идентификации диктора по произвольному тексту.^Т^ГЗО

1.2.1.1 Векторное квантование (ВК).

1.2.1.2 Гауссовы смеси.

1.2.1.3 Методы нормализации характеристик.

1.3 Недостатки и направление их разрешения.

1.4 Постановка задачи исследования.

Выводы.

2 Построение пространства формантных наборов и математической модели голоса диктора, использующей формантные наборы.

2.1 Построение пространства формантных наборов.

2.2 Построение метрики для сравнения формантных наборов.

2.3 Нахождение центральных формантных наборов, для последовательностей специального вида.

2.4 Построение методов работы с множествами формантных наборов.

2.4.1 Методы нахождения расстояний между множествами формантных наборов

2.4.2 Первый метод вычисления подмножества.

2.4.3 Второй метод вычисления подмножества.

Выводы.

3 Построение математических моделей голоса диктора и робастных алгоритмов текстонезависимой идентификации дикторов.

3.1 Математические модели индивидуальности голоса диктора, не учитывающие динамических характеристик.

3.1.1 Первый метод тестонезависимой идентификации дикторов по их речи.

3.1.2 Второй метод тестонезависимой идентификации дикторов по их речи.

3.2 Математическая модель индивидуальности голоса диктора учитывающая динамические характеристики.

3.3 Третий метод тестонезависимой идентификации дикторов по их речи.

Выводы.

4 Практическая реализация и анализ разработанных методов.

4.1 Описание алгоритмов вычисления расстояния.

4.2 Сравнение временных характеристик алгоритмов вычисления расстояния.

4.3 Описание программной реализации.

4.4 Сравнение робастности описанных и стандартных методов текстонезависимой идентификации дикторов.

Выводы.

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи»

Актуальность темы идентификации личности по голосу высока, поскольку она оказывается востребованной во многих областях человеческой деятельности. Подтверждением этого является тот факт, что на различных конференциях посвященных акустике и вопросам обработки речи доклады, посвященные вопросам идентификации и верификации дикторов часто выделяются в отдельные секции. Например, на конференции International conference on Acoustics, Speech and Signal Processing (ICASSP) в 2000-м году были представлены 20 докладов, разбитые на две секции. К 2003 году их число увеличилось до 35, а число секций до четырех. Аналогичная картина наблюдается и на других конференциях, например на Eurospeech, международных научных конференциях «Информатизация и информационная безопасность правоохранительных органов».

Возрастающий интерес к задаче идентификации личности по голосу связан как с успехами, достигнутыми в последнее время, так и с большим спектром практических применений данной задачи. Работа крупнейших научных лабораторий и компаний мира, таких как IBM TJ. Watson Research Center, AT&T, Oregon Graduate Institute, MIT Lincoln Laboratory, Philips и т.д., позволила за последние десятилетия перейти от теоретических разработок и лабораторных систем к практическим приложениям обработки речи (управление голосом, диктовка, обеспечение персонализированного доступа) с приемлемыми характеристиками.

Среди направлений практических применений можно выделить такие сферы, как криминалистическая экспертиза фонограмм устной речи с целью установления личности произнесшей записанную на них речь. Это направление, широко используемое в правоохранительных органах, является наиболее проработанным как с практической, так и с теоретической точки зрения. Однако часто, при обработке зашумленных или искаженных записей эксперты вынуждены отказываться от проведения экспертизы. Обусловлено это тем, что до сих пор не разработаны теоретические основы выделения робастных параметров речевого сигнала и методы их обработки.

Системы автоматической идентификации личности по голосу, построенные в последнее десятилетие, достигают значений вероятности ошибок, позволяющих использовать их в практических приложениях. Системы верификации личности по голосу часто используются в банковских приложениях, при доступе клиента к информации своего банковского счета по телефонной линии. При этом, от пользователя требуют произнесения заранее оговоренной парольной фразы. Системы текстонезависимой идентификации диктора могут использоваться в системах речевого командного интерфейса как для постоянного подтверждения того факта, что команды отдает лицо, имеющее на это право, так и для выделения из непрерывного потока речи команд сказанных заданным диктором. Тем не менее, величина ошибок первого и второго рода даже у лучших систем находится на уровне 10% [20]. Из сказанного вытекает, что задача дальнейшего увеличения точности работы систем текстонезависимой идентификации дикторов является весьма актуальной. При этом, как показывают исследования [36], [33], [31] одной из основных причин ошибок является как аддитивный шум, так и мультипликативный шум, привносимый каналом передачи речевого сигнала.

Существуют и достаточно давно известны различные робастные характеристики речевого сигналаю, но они практически не используются в задачах автоматической и автоматизированной обработки речевого сигнала по причине сложности их обработки. Известно, что характеристики лежащие на просодическом и микропросодическом уровне не подвержены влиянию различных шумов канала передачи, и их учет при принятии решения позволяет значительно повышать точность принимаемого решения [38], [29], [6], [3] и [14]. Все это обуславливает наличие перспективных путей по созданию математических моделей идентификации дикторов по их речи на основе робастных характеристик речевого сигнала, использующих как статистические, так и динамические характеристики речевого сигнала.

Таким образом, налицо потребность в новых математических моделях идентификации дикторов по их речи, позволяющих разрабатывать робастные алгоритмы текстонезависиомой идентификации дикторов, на основе робастных характеристик речевого сигнала.

Областью исследования является разработка новых математических основ обработки робастных характеристик речевого сигнала, и математических методов моделирования в теории распознавания речевых образов.

Предметом исследования являются математические основы методов обработки робастных характеристик речевого сигнала, а так же математические модели, методы и робастные алгоритмы идентификации дикторов по их речи, использующие робастные характеристики речевого сигнала.

Цель исследования состоит в разработке математической модели голоса диктора, позволяющей строить алгоритмы текстонезависимой идентификации повышенной точности, в условиях использования зашумленных или поврежденных записей речи дикторов

Научная задача, исследования состоит в разработке математических основ обработки робастных характеристик речевого сигнала и разработке методов теории распознавания образов, использующих робастные характеристики речевого сигнала.

Математический аппарат исследования. В работе использовалась теория метрических пространств, теория цифровой обработки сигналов, теория распознавания образов и элементы теории вероятностей и математической статистики.

Границы исследования. В исследовании рассматриваются математические основы обработки робастных характеристик речевого сигнала и методы распознавания образов, использующие эти характеристики речевого сигнала.

Научная новизна работы определяется тем, что впервые разработан и исследован математический аппарат обработки робастных характеристик речевого сигнала. На основании разработанного аппарата, построены методы распознавания образов, использующие робастные характеристики речевого сигнала.

Практическая ценность и реализация. Результаты проведенных исследований нашли непосредственное применение при создании систем текстонезависимой идентификации дикторов по их речи.

Основные результаты исследований использованы в учебном процессе в Саровском государственном физико-техническом институте (г. Саров), при выполнении хозрасчетных работ "Индус" и "Чарли-Р", а так же в работе выполняемой СКНЦ ВШ в рамках региональной научно-технической программы.

Результаты исследования могут найти применение при построении систем обработки речевых сообщений, например, в системах распознавания речи и голосовых команд, в системах тексозависимой и текстонезависимой идентификации дикторов и в системах верификации дикторов.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на X международной научной конференции «Информатизация правоохранительных систем» (Москва, 2001), на XI сессии Российского акустического общества (Москва, 2001), на международной конференции Speech and Communications

Москва, 2001), на международной научной конференции «Интеллектуальные и многопроцессорные системы- 2001» (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2001), на XI международной научной конференции «Информатизация и информационная безопасность правоохранительных органов» (Москва,2002), на международной конференции International A ssociation for Forensic Phonetics and E uropean Network of Forensic Science Institution (Москва, 2002). Полученные автором результаты изложены в 9 научных статьях и 20 тезисах докладов. Авторство, новизна и полезность принципиальных технических решений защищены патентом РФ.

На защиту выносятся следующие основные положения:

1. Метод выделения робастных характеристик речевого сигнала - форматных наборов.

2. Способ введения метрики в пространстве формантных наборов.

3. Математические модели индивидуальности голоса диктора, основанные на формантных наборах.

4. Сходящийся, итерационный алгоритм формирования параметров математической модели голоса диктора.

5. Методы тестонезависимой идентификации дикторов по их речи, использующие построенные математические модели индивидуальности голоса диктора.

Краткое описание работы. Работа состоит из введения, четырех глав и заключения.

В первой главе рассматриваются тенденции развития и проблематики задачи текстонезависимой идентификации дикторов по их речи. Анализируются различные преобразования исходного речевого сигнала в последовательность векторов признаков, формантные характеристики речевого сигнала. Выявляется свойство робастности формантных характеристик. Отмечается, что существующие методы текстонезависимой идентификации требуют использования векторов параметров из ' линейного или евклидового пространства, что существенным образом сужает применимость этих методов в условиях использования зашумленного речевого сигнала. Далее в главе исследуются различные методы преодоления неробастности используемых векторов параметров на более высоких уровнях, за счет усложнения методов принятия решений. Анализируются различные пути решения проблемы. Обосновывается необходимость развития математического аппарата и методов работы с робастными характеристиками. Формулируются задачи исследования, состоящие в развитии математического аппарата для работы с формантными наборами и создании методов текстонезависимой идентификации дикторов и их исследовании на реальных данных.

Во второй главе представлен новый метод выделения формантных характеристик, состоящий в аппроксимации спектра мощности речевого сигнала суммой функций специального вида, определяется пространство формантных наборов. Доказывается, что оно является метрическим и в явном виде строится метрика. Рассматриваются некоторые задачи общей теории распознавания образов и предлагается ряд методов, позволяющих использовать пространство формантных наборов в качестве пространства наблюдений при решении задач распознавания образов. При этом получены результаты, служащие математической основой методологии использования формантных наборов в теории распознавания образов.

В третьей главе рассмотрены вопросы построения математических моделей индивидуальности голоса диктора. Показана взаимосвязь разрабатываемых моделей и задачи распознавания образов из области искусственного интеллекта. На основании установленной взаимосвязи, а также используя результаты второй главы, производится формальное построение двух методов текстонезависимой идентификации дикторов^ Предлагается метод учета соседних формантных наборов во временной области путем перехода от последовательности формантных наборов к последовательности целых чисел. Рассматриваются подпоследовательности одинаковой длины, получаемые из последовательности целых чисел. Анализируются вопросы построения плотности распределения вероятности. Разрабатывается метод текстонезависимой идентификации дикторов, учитывающий как статистические, так и динамические характеристики речевого сигнала.

Четвертая глава посвящена описанию практической реализации разработанных методов текстонезависимой идентификации дикторов. В ней рассматриваются различные методы вычисления расстояния между формантными наборами. Производится сравнение временных характеристик построенных алгоритмов вычисления расстояния между формантными наборами. Показывается, что при плохой реализации алгоритма увеличение времени вычисления расстояния, по сравнению с наилучшей из предложенных, может достигать 120 раз. Для практической проверки свойства робастности, производится сравнение точности работы построенных методов с существующим методом, основанным на гауссовых смесях. Описывается методика проведения тестирования. На реальных данных производится оценка соотношения ошибок первого и второго рода при различных значениях соотношения сигнал/шум. Показывается, что третий из построенных методов при соотношении сигнал/шум хуже 30 дБ, показывает точность, значительно превосходящую точность существующих методов, в том числе широко используемого метода, основанного на гауссовых смесях.

В заключении обобщены итоги и результаты проведенных исследований.

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Репалов, Сергей Анатольевич

Выводы

В данной главе описаны вопросы практической реализации разработанных методов текстонезависимой идентификации дикторов. Рассмотрены различные методы вычисления расстояния между формантными наборами. Производится сравнение временных характеристик построенных алгоритмов вычисления расстояния между формантными наборами. Показывается, что при неудачной реализации алгоритма увеличение времени вычисления расстояния может достигать 120 раз.

Для практической проверки свойства робастности, производится сравнение точности работы построенных методов с существующим методом, основанным на гауссовых смесях. Описывается методика проведения тестирования. Определяются понятия ошибок первого и второго рода для данного тестирования. Производится теоретическая оценка вероятности совершения ошибок первого и второго рода при случайном принятии решения об идентификации. Затем на реальных данных произведена оценка соотношения ошибок первого и второго рода при различных значениях соотношения сигнал/шум. Показано, что третий из построенных методов при соотношении сигнал/шум хуже 30 дБ, показывает точность, значительно превосходящую точность остальных методов, в том числе широко используемого метода основанного на гауссовых смесях. При значениях сигнал/шум лучше 30 дБ третий метод оказывается не менее, чем в 1,5 раза лучше, чем другие рассматриваемые методы, в том числе метод, основанный на гауссовых смесях.

На основании экспериментальных данных производится оценка некоторых параметров третьей модели текстонезависимой идентификации дикторов. Результатом является тот факт, что для точной идентификации важен учет как статистических, так и динамических характеристик речевого сигнала.

Заключение

Диссертация посвящена исследованию математических основ обработки робастных характеристик речевого сигнала, построению методов распознавания образов и робастных методов текстонезависимой идентификации дикторов. В процессе проведения диссертационного исследования были решены все поставленные задачи.

В процессе решения первой частной задачи было построено робастное преобразование речевого сигнала. В основу разработанного метода были положены процедуры преобразования Фурье и аппроксимации функции суммой функций. Решение этой задачи позволило в дальнейшем строить робастные методы, основываясь на том факте, что при их построении используются робастные характеристики речевого сигнала.

При решении второй частной задачи введены математические объекты, соответствующие формантным наборам и пространство формантных наборов. При исследовании свойств построенного пространства доказаны теоремы, общим результатом которых является тот факт, что построенное пространство является метрическим. В явном виде построена метрика, основанная на вычислении минимальной по всем перестановкам суммы расстояний между сопоставленными формантами. Данный факт дает мощный инструмент для работы с формантными наборами.

В процессе решения третьей задачи построены различные методы работы с формантными пространствами. В частности, построены методы вычислении расстояния между множествами формантных наборов. Построены методы минимизирующие расстояние от исходного множества до формируемого подмножества, что позволяет сформировать подмножество формантных наборов. Так как построенные методы имеют итерационный характер, то для каждого из них доказана сходимость. Отмечен тот факт, что построенное пространство и методы работы с ним могут использоваться не только в задаче текстонезависимой идентификации дикторов по их речи, но и в решении любой задачи обработки речевой информации, требующей использования робастных характеристик речевого сигнала.

Решение четвертой задачи является обобщением материала, полученного в результате решения предыдущих трех задач. На основании этих результатов делается вывод о наиболее предпочтительных моделях индивидуальности голоса диктора, построенных на использовании робастных характеристик. Сделано предположение о том, что для разных дикторов характерны различные последовательности формантных наборов. Для учета взаимосвязи между соседними формантными наборами во временной области предложен метод перехода от последовательности формантных наборов к последовательности целых чисел. Рассмотрены подпоследовательности одинаковой длины, получаемые из последовательности целых чисел. Проанализированы вопросы построения плотности распределения вероятности. Показано, что при практических реализациях нецелесообразно вводить какие-либо параметрические плотности вероятности. Наилучшим выходом является хранение всех подпоследовательностей с эмпирическими вероятностями их появления.

Разработаны две модели индивидуальности голоса диктора:

- основанные на учете статистических характеристик речевого сигнала,

- основанные на учете динамических характеристик речевого сигнала.

В результате решения пятой задачи разработаны три метода текстонезависимой идентификации дикторов по их речи. Первые два метода используют одинаковые характеристики индивидуальности голоса диктора и, как следствие, одинаковое решающее правило. Различие между методами заключается в процедуре формирования параметров модели по эмпирическим данным. Как первый, так и второй методы основаны на использовании статистических характеристик речевого сигнала, без учета их взаимосвязи во времени. Третий метод основан на учете как статистических так и динамических характеристик речевого сигнала. Для этого определено два пространства наблюдений, решающее правило, его параметры и методы формирования параметров решающего правила по эмпирическим (обучающим) данным.

Наконец, при решении шестой задачи произведена оценка точности работы существующих и построенных в пятой главе методов и алгоритмов текстонезависимой идентификации дикторов. Описана методика проведения тестирования. На основании результатов проведенного тестирования продемонстрировано превосходство построенных методов при использовании зашумленных речевых сигналов. Показано, что третий из построенных методов при соотношении сигнал/шум хуже 30 дБ показывает точность, значительно превосходящую точность остальных методов, в том числе широко используемого метода основанного на гауссовых смесях. При значениях сигнал/шум лучше 30 дБ третий метод оказывается не менее, чем в 1.5 раза лучше, чем другие рассматриваемые методы, в том числе метод, основанный на гауссовых смесях.

Список литературы диссертационного исследования кандидат физико-математических наук Репалов, Сергей Анатольевич, 2003 год

1. Agranovsky A.V., Lednov D.A., Potapenko A.M., Repalov S.A. Segmenting a signal containing a conversation of several speakers into monologue constituents. // Proceedings of SPECOM-2001, pp 139-142

2. Andre Adami, Radu Mihaescu, Douglas Reynolds, John Godfrey MODELING PROSODIC DYNAMICS FOR SPEAKER RECOGNITION, In proc. of International conference on Acoustics, Speech and Signal Processing 2003, Vol. 4, pp. 788-791,2003

3. Auckenthaler R., Carey M., Lloyd-Thomas H. Scorenormalization for text-independent speaker verification systems. Digital Signal Processing, 10(l-3):42-54, January/April/Jul у 2000.

4. Auckenthaler R., Parris E.S., Carey M.J. Improving a GMM Speaker Verication System by Phonetic Weighting // In proc. of International conference on Acoustics, Speech and Signal Processing 1999, Vol. l,pp. 1440-1443,1999.

5. Bottou L., Bengio Y. Convergence properties of the k-means algorithms. Advances in Neural Information Processing Systems 7, pages 585-592. The MIT Press, Cambridge, MA, 1995.

6. Brimberg J., Chen R., Chen D. Accelerating convergence in the Fermat-Weber location problem, Open Research Letters 22 (1998), pp. 151-157

7. Campbell J.P. Speaker Recognition: A Tutorial, Proceedings of the IEEE, Vol. 85, No. 9, pp. 1437-1462, September 1997,

8. Campbell W.M., Assaleh K.T. Polynomial Classier Techniques for Speaker Verication // In proc. of International conference on Acoustics, Speech and Signal Processing 1999, Vol. l,pp. 1448-1451, 1999.

9. Demirekler M., Haydar A. Feature Selection Using Genetics-Based Algorithm and Its Application to Speaker Identication // In proc. of International conference on Acoustics, Speech and Signal Processing 1999, Vol. 1, pp. 1332-1335, 1999.

10. Dempster, A.P., Laird, N.M., and Rubin, D.B. (1977), Maximum likelihood from incomplete data via the EM algorithm, J. of Royal Statistical Society, B39, 1-38.

11. Dunn R.B., Quatieri T.F., Reynolds D.A., Campbell J.P. Speaker Recognition from Coded Speech In Matched and Mismatched Conditions // In Proc. of Odyssey'Ol, Crete, Greece, pp. 522-525,2001.

12. E. Weiszfeld Sur le point pour lequel la somme des distances de n points donnés est minimum, Tôhoku Math. J. 43 (1937), pp. 355-386

13. Fine S., Navratil J., Gopinath R. A hybrid gmm/svm approach to speaker identification, In proc. of International conference on Acoustics, Speech and Signal Processing 2001, Vol. 1, pp. 351-354, 2001.

14. Furui S. Recent advances in speaker recognition, Pattern Recognition Leters, Vol. 18, pp. 859-872, 1997.

15. G.R. Doddington, M.A. Przybocki, A.F. Martin, D.A. Reynolds The NIST speaker recognition evaluation: Overview, methodology, systems, results, perspective. Speech Communication, vol. 31, pp. 225-254

16. Ganesh Ramaswamy, Jiri Navratil, Upendra Chaudhari, Ran Zilca The IBM system for the NIST-2002 cellular speaker verification evaluation, In proc. of International conference on Acoustics, Speech and Signal Processing 2003, vol. 2, pp. 61-64, 2003

17. Garcia A.A., Mammone R.J. Channel-Robust Speaker Identication using Modied-Mean Cepstral Mean Normalization with Frequency Warping // In proc. of International conference on Acoustics, Speech and Signal Processing 1999, Vol. 1, pp. 1444-1447, 1999.

18. Harry Hollien, Forensic voice identification. Academic Press, 2002

19. He J., Liu L., Palm G, A new codebook training algorithm for VQ-based speaker recognition, IEEE Proc. of International Conference on Acoustics, Speech and Signal Processing , 1997, vol. 2, pp. 1091-1094, Munich, Germany.

20. Hermansky H. Perceptual linear predictive (PLP) analysis for speech, J. Acoust. Soc. Am., pp. 1738-1752, 1990.

21. Hermansky H., Morgan N. Rasta processing of speech. IEEE Transactions on Speech and Audio Processing, special issue on Robust Speech Recognition, 2(4):578~589, Oct. 1994.

22. Hermansky H., Morgan N., Bayya A., Kohn P. Compensation for the effect of the commu-trum nication channel in auditory-like analysis of speech (RASTA-PLP), Proc. of Eurospeech '91, pp. 1367-1371, Genova, Italy, 1991.

23. Homayoon A.D., Beigi S.M., Maes S.H. Speaker, Channel and Environment Change Detection, World Automation Congress (WAC), ISSCI 98, Anchorage, Alaska, May 1822, 1998.

24. V. Efimenko Voice Changer Impact on the Speaker Identification Potential // In Proc Of Specom 2001, pp 197-200, Moscov, 2001.

25. Jiri Navratil, Qin Jin, Walter Andrews, Joseph Campbell PHONETIC SPEAKER RECOGNITION USING MAXIMUM-LIKELIHOOD BINARY-DECISION TREE MODELS, In proc. of International conference on Acoustics, Speech and Signal Processing 2003, Vol. 4, pp. 796-799,2003

26. Jordan M.I., Xu L. Convergence results for the EM approach to mixtures-of-experts architectures, Neural Networks, 8,1409-1431,1995.

27. L. Besacier, S. Grassi, A. Dufaux, M. Ansorge, F. Pellandini GSM speech coding and speaker recognition, In proc. of International conference on Acoustics, Speech and Signal Processing 2000, Vol. 2, pp. 1085-1088,2000

28. L.D. Wilcox, F.R. Chen, D. Kimber, V. Balasubramanian Segmentation of Speech Using Speaker Identification, Proceedings of International Conference on Acoustics, Speech and Signal Processing vol. SI, IEEE, Adelaide, Australia, April 1994, pp. 161-164.

29. Marcos Faundez-Zanuy A combination between VQ and covariance matrices for speaker recognition, In proc. of International conference on Acoustics, Speech and Signal Processing 2001, vol. l,pp. 1251-1254, 2001

30. McLaughlin J., R eynolds D.A., G leason T. A S tudy o f C omputation S peed-UPS o f t he GMM-UBM Speaker Recognition System, In Proc. of Eurospeech '99, Vol. 3, pp. 12151218,1999.

31. Navratil J., Chaudhari U.V., Ramaswamy G.N. Speaker Verification Using Target and Background Dependent Linear Transforms and Multi-system Fusion, In Proc/ of EUROSPEECH 2001, pp. 1389-1392.

32. Nicholas W. D. Evans, John S. Mason, Roland Auckenthaler, Robert Stapert Assessment Of Speaker Verification Degradation Due To Packet Loss In The Context Of Wireless Mobile Devices, Cost 275 Workshop: The Advent of Biometrics on the Internet, 2002.

33. Quatieri T.F., Dunn R.B., Reynolds D.A., Campbell J.P., Singer E. Speaker Recognition using G.729 Speech Codec Parameters, In Proc. of ICASSP 2000, Vol. 2, pp. 952-955, 2000.

34. R.M. Gray, D.L. Neuhoff Quantization, IEEE Transactions on information theory, vol. 44, No. 6, October 1998, pp. 1-63

35. Reynolds D.A. Speaker Identification and Verification Using Gaussian Mixture Models, Speech Communication, Vol. 17, pp. 91-108, Aug 1995.

36. Reynolds D.A. Comparison of background normalization methods for text-independent speaker verification, In Proc. Of Eurospeech 97, Vol. 2, pp. 963 966, 1997.

37. Sivakumaran P., Ariyaeeinia A. The use of sub-band cepstrum in speaker verification, In proc. of International conference on Acoustics, Speech and Signal Processing 2000, Vol. 2, pp. 1073-1076, 2000.

38. Sonmez K., Heck L., Weintraub M. Speaker Tracking and Detection with Multiple Speakers, Processing of Eurospeech '99, vol. 5, pp. 2219-2222, Budapest, 1999.

39. T. Kohonen The self-origanzing map, Proc of IEEE, Vol. 78, pp. 1464-1480.

40. Tebelskis J. Speech Recognition Using Neural Networks // PhD thesis, Carnegie Mellon University. 1995.

41. X. Huang, T. Alleva, H.-W.Hon, M.-Y.Hwang, K.F.Lee, R.Rosenfeld. "The SPHINX-II Speech Recognition System: An overview.", Computer Speech Language, 2,2, 1993.

42. Аграновский А.В., Гончаров С.Н., Леднов Д.А., Мартынов А.П., Николаев Д.Б., Репалов С.А., Фомченко В.Н. Исследование построения систем идентификации по речевым характеристикам. Учебно-методическое пособие.- Саров: «ИНФО», 2002.

43. Аграновский А.В., Зулкарнеев М.Ю., Леднов Д.А., Репалов С.А., Двухслойная модель распознавания слитной речи // Материалы научной молодежной школы «Интеллектуальные робототехнические системы 2001», стр.130-132.

44. Аграновский А.В., Зулкарнеев М.Ю., Леднов Д.А., Репалов С.А., Организация иерархической модели распознавания слитной речи // Искусственный интеллект 3'2001, стр. 17-22.

45. Аграновский A.B., Леднов Д.А., Потапенко А.Н., Репалов С.А., Сулима П.М. Способ выделения основного тона из речевого сигнала // патент РФ на изобретение № 2184399 от 22.09.2000, МПК 7 J 10 L 15/00

46. Аграновский A.B., Леднов Д.А., Репалов С.А. Оценка точности текстонезависимых систем идентификации дикторов, на основе экспериментальных АЧХ голосовых трактов дикторов. // Телекоммуникации № 6,2000, стр 6-17

47. Аграновский A.B., Леднов Д.А., Репалов С.А., A.A. Леонтьев, A.M. Потапенко Модель цифровой фильтрации импульсных шумов в телефонном канале. // Телекоммуникации № 5,2001, стр. 5-8

48. Аграновский A.B., Леднов Д.А., Репалов С.А., Метод выделения монологических составляющих беседы многих дикторов в условиях априорной неизвестности параметров голосов дикторов// Искусственный интеллект 4'2002, стр. 151-156

49. Аграновский A.B., Леднов Д.А., Репалов С.А., Телеснин Б.А. Автоматическая идентификация личности по голосу // Свидетельство об официальной регистрации программы для ЭВМ №2003611312/РОСПАТЕНТ. М., 29.05.2003.

50. Аграновский A.B., Леднов Д.А., Репалов С.А., Телеснин Б.А. Система автоматической классификации фонем русского языка при ее обучении методом группового учета аргументов // Тез. Докл. Междун. Науч. Конф. 11-16 сен. 2000. Кацивели, Крым, стр. 106-108

51. Аграновский A.B., Леднов Д. А., Репалов С. А., Телеснин Б.А. Система автоматической классификации фонем русского языка при ее обучении методом группового учета аргументов //Искусственный интеллект 3'2000, стр.400-403.

52. Аграновский A.B., Леднов Д.А., Репалов С.А., Телеснин Б.А. Фильтрация речевых сигналов И Свидетельство об официальной регистрации программы для ЭВМ №200361131 О/РОСПАТЕНТ. М., 29.05.2003.

53. Амосов A.A., Дубинский Ю.А., Копченова Н.В. Вычислительные методы для инженеров: Учеб. Пособие. -М.: Высш. шк., 1994.

54. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы М.: Лаборатория Базовых Знаний, 2001 г.

55. Бояров А.Г., Сулима П.М., Ваксман Г.М., Сердюков В.Д., Коновалов Д.Н. Система экспертной идентификации голоса по произвольной слитной речи // Сборник трудов XI сессии Российского акустического общества. Т.З. М.: ГЕОС, 2001. - стр. 116119.

56. Галяшина Е.И. Судебная фоноскопическая экспертиза. М., 2001.-304 с.

57. Горелик А.Л., Скрипкин В.А. Методы распознавания: Учеб. Пособие для вузов. 3-е изд., перераб и доп. М.: Высш.шк., 1989.

58. Деврой Л., Дьёрфи Л., Непараметрическое оценивание плотности. Ll.-М.: Мир, 1988.74.3абудский Г.Г., Нежинский И.В. Решение задачи размещения в евклидовом пространстве с запрещенной областью, Вестник Омского университета, 1999, Вып. 2., стр. 17-19

59. Карпов И.А., Леднов Д.А., Репалов С.А. Выделение монологических составляющих беседы многих дикторов // Тезисы докладов международной научной конференции «Интеллектуальные и многопроцессорные системы- 2001». Таганрог: Изд-во ТРТУ, 2001.стр. 92-95

60. Кирилов С.Н., Шустиков O.E., Мамушев Д.Ю. Идентификация речевых сигналов дикторов на основе комбинированной системы дикторов // Труды X международной научной конференции "Информатизация правоохранительных систем", М.:Ника принт, 2001. стр. 310-312.

61. Крылов В.И., Бобков В.В., Монастырный П.И. Вычислительные методы, том 1 М.: Наука, 1976.

62. Кудрявцев Л .Д. Математический анализ, т. 1

63. Математическая энциклопедия: Гл. ред. И.М. Виноградов, т. 3 Коо-Од-М.: "Советская энциклопедия", 1982

64. Михайлов В.Г. Акустические измерения в фоноскопической экспертизе // Сборник трудов XIII сессии Росийского акустического общества. Т.З. М.:ГЕОС, 2003. - стр. 130-134

65. Моттль В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов. М. : ФИЗМАТЛИТ, 1999.

66. Р.Дуда, П.Харт Распознавание образов и анализ сцен. Перевод с английского Г.Г.Вайнштейна и А.М.Васьковского, под ред.В.Л.Стефанюка, М.: Мир, 1976.

67. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ./Под ред. М.В. Назарова и Ю.Н. Прохорова. М.: Радио и связь, 1981.-496с.

68. Рамишвили Г. С. Автоматическое опознавание говорящего по голосу. М.: Радио и связь, 1981

69. Репалов С.А., Автоматическое построение разбиения диалога на монологические составляющие при априорной неизвестности параметров голосов дикторов // Материалы Международной научно-технической конференции «Исскуственный интеллект-2002»., Т.2., стр. 32-35

70. Сердюков В.Д. Опознавание речевых сигналов на фоне мешающих факторов, Тбилиси: Мецниерба, 1987.

71. Сердюков В.Д., Сулима П.М. Идентификация и верификация говорящего на основе формантного анализа речи // Сборник трудов XIII сессии Росийского акустического общества. Т.З. М.:ГЕОС, 2003. - стр. 138-140

72. Сорокин В.Н. «Способ распознавания изолированных слов речи с адаптацией к диктору», патент № 2047912, приоритет от 20 апреля 1994 г.

73. Сорокин В.Н. Теория речеобразования. М.: Радио и связь, 1985.

74. Заместитель заведующего кафедройтехническом институте (г. Саров).

75. Радиофизика и электроника»1. А.П. Мартынов

76. Министерство образования Российской Федерации

77. Данная работа имеет большой научно-технических интерес и в дальнейшем будет использоваться для разработки пакета программ для обучения глухих и слабослышащих детей произношению в специализированных образовательных учреждениях региона.1. М.Д. Розин

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.