Разработка и исследование методов и алгоритмов для анализа устной речи с использованием дифонов на основе априорной сегментации тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Ниценко, Артём Владимирович

  • Ниценко, Артём Владимирович
  • кандидат науккандидат наук
  • 2017, Таганрог
  • Специальность ВАК РФ05.13.17
  • Количество страниц 192
Ниценко, Артём Владимирович. Разработка и исследование методов и алгоритмов для анализа устной речи с использованием дифонов на основе априорной сегментации: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. Таганрог. 2017. 192 с.

Оглавление диссертации кандидат наук Ниценко, Артём Владимирович

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

1. АНАЛИЗ МЕТОДОВ ПРЕДСТАВЛЕНИЯ, СЕГМЕНТАЦИИ И РАСПОЗНАВАНИЯ УСТНОЙ РЕЧИ

1.1. Формализация задачи распознавания речи

1.2. Анализ методов извлечения признаков распознавания

1.3. Анализ методов автоматической сегментации речевых данных

1.4. Подходы к решению задачи распознавания речи

1.5. Обоснование предмета диссертационного исследования

1.6. Выводы

2. РАЗРАБОТКА МЕТОДА АВТОМАТИЧЕСКОЙ АПРИОРНОЙ СЕГМЕНТАЦИИ РЕЧЕВЫХ ДАННЫХ

2.1. Формализация определения конечных точек речи

2.2. Формализация «В-Н» - обработки и сглаживаня речевых данных

2.3. Формализация определения границ невокализованных участков речи

2.4. Формализация сегментации невокализованных участков речи

2.5. Формализация сегментации голосовых участков речи

2.6. Ограничения на длины сегментов

2.7. Сегментация при наличии шумных звонких согласных [ж], [з]

2.8. Формализация обнаружения и выделения фонемы [р] в речевых данных

2.9. Выводы

3. МЕТОД АНАЛИЗА РЕЧЕВЫХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ДИФОНОВ

3.1. Способ автоматического построения упрощенной транскрипции русских слов

3.2. Структурная классификация слов русского языка

3.3. Метод распознавания целых слов на основе сопоставления с

эталонами

3.4. Метод анализа речевых данных на основе априорной сегментации, модифицированный алгоритм DTW

3.5. Применение метода анализа речевых данных к распознаванию изолированных слов по частям

3.6. Алгоритм автоматического извлечения эталонов дифонов из речевых данных

3.7. Применение метода анализа речевых данных к распознаванию

слитно произнесенных фраз

3.8. Выводы

4. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ РАЗРАБОТАННЫХ МЕТОДОВ АНАЛИЗА РЕЧЕВЫХ ДАННЫХ

4.1. Описание характеристик и основных функциональных возможностей программного приложения

4.2. Интерфейс пользователя

4.3. Программная реализация разработанных методов и алгоритмов анализа устной речи

4.4. Описание структуры дифонной базы

4.5. Исследование эффективности распознавания речи

4.6. Выводы

ЗАКЛЮЧЕНИЕ

СПИСОК ИСТОЧНИКОВ

ПРИЛОЖЕНИЕ 1

ПРИЛОЖЕНИЕ 2

ПРИЛОЖЕНИЕ 3

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка и исследование методов и алгоритмов для анализа устной речи с использованием дифонов на основе априорной сегментации»

ВВЕДЕНИЕ

Актуальность исследования. С момента формирования и в процессе развития информатики как науки, а также совершенствования компьютерной техники как технической базы информатики, одной из важнейших проблем является проблема теоретического обоснования и практической реализации средств человеко-машинного интерфейса [1]. В рамках этой проблемы важное место занимает задача автоматического распознавания устной речи.

В числе последних достижений появились достаточно успешно работающие практически применяемые системы распознавания речи с большими словарями, прежде всего, голосовой ввод в поисковых интернет-системах Google и Yandex. Однако, их применение связано с работой в сети Internet и использованием облачных технологий. Проблема же распознавания речи на локальных компьютерах остается актуальной.

Исследованию речевого аппарата и математическому описанию частотных характеристик звуков речи были посвящены работы А. Бела, Г. Фанта, Д. Фланагана, Р. Якобсона и др. Появление ЭВМ привело к необходимости развития методов цифровой обработки устной речи. Важную роль в этой области сыграли работы Б. Голда, Д. Маркела, А. Оппенгейма, Л. Рабинера, Д. Рейди, Р. Шафера и др. Значительный вклад в развитие технологий распознавания речи внесли известные ученые Х. Сакоэ и С. Чиба в Японии, Ф. Итакура в США, В.М. Величко, Н.Г. Загоруйко, В.М. Сорокин, Т.К Винцюк в Советском Союзе, О.Н. Карпов, Н.Н. Сажок, Ю.В. Крак, А.А. Каргин в Украине [2-22], А.А. Карпов, Р.К. Потапова, А.Л. Ронжин, А.А.Харламов в России.

Для решения задачи распознавания устной речи было разработано большое количество методов, однако в общем виде задача до сих пор не решена. Поэтому возникает необходимость в разработке и реализации усовершенствованных методов и алгоритмов анализа речевых данных.

Направлениями совершенствования являются обеспечение высокого качества распознавания, высокой скорости обучения и адаптации к диктору, работы в режиме реального времени с большим объемом словаря (тысячи и десятки тысяч слов) на локальных компьютерах. Анализ существующих в настоящее время систем распознавания речи, работающих на локальных вычислительных устройствах, показывает, что они не удовлетворяют всем вышеперечисленным требованиям [23]. Это обстоятельство определяет актуальность исследований в этом направлении.

Известно, что без понимания смысла сказанного человек способен правильно идентифицировать не более 30 % достаточно короткого услышанного потока фонем [24]. Однако он способен повторить слово, которое четко произнесено на незнакомом языке, конечно, интерпретируя звуки в рамках привычной для него фонетической системы. Это аргумент в пользу того, что речь можно и нужно пытаться распознавать на основе более мелких речевых единиц, чем целые слова.

Все числовые характеристики речевых данных, которые используются при компьютерном распознавании речи, носят случайный характер и сильно зависят от диктора и используемых аппаратных средств: микрофона и звуковой карты [24].

Одно и то же слово или фраза, произнесённые разными людьми в разной обстановке, будут давать весьма непохожие друг на друга данные. Это чрезвычайно осложняет проблему разработки дикторонезависимых систем распознавания речи. В связи с этим представляется разумным разработка систем с достаточно быстрой подстройкой под диктора.

Смысловую нагрузку может нести отдельная морфема. Однако носителем смысла следует назвать слово. Орфографические словари русского языка содержат порядка 100 тысяч слов в начальной (словарной) форме. Количество же русских словоформ измеряется миллионами.

Распознавание слов можно проводить методом сравнения с эталонами, созданными на основе произнесения слов целиком. Это вполне приемлемая процедура при небольшом размере словаря. Однако если говорить о системах диктовки произвольного текста, то используемый словарь должен содержать

сотни тысяч словоформ. Поэтому при обучении систем распознавания нужно использовать более мелкие речевые единицы.

Наиболее естественным при этом, на первый взгляд, представляется распознавание звуков речи, с которыми связано лингвистическое понятие «фонемы». В русском языке всего несколько десятков звуков речи. Однако соседние звуки влияют друг на друга, и это взаимовлияние нужно учитывать. Участок перехода от одного звука к другому называется межфонемным переходом. Отрезок речи между серединами двух соседних звуков называют дифоном.

Таким образом, дифон содержит соответствующий межфонемный переход. Количество дифонов равно квадрату от количества звуков, для русского языка (при используемой в данной работе системе транскрипции) оно составляет около 1700 [25].

Создав эталон для каждого из дифонов, из них можно синтезировать эталоны слов и распознавать слова по этим эталонам. Такую процедуру естественно обозначить словами «распознавание через синтез» [25]. В результате процедура обучения системы для конкретного диктора сведется к созданию базы дифонов.

Тема диссертационной работы является актуальной, т.к. она посвящена решению задачи разработки и исследования методов анализа устной речи на основе априорной сегментации и алгоритма динамического программирования, использующего эталоны слов, автоматически синтезируемые из эталонов дифонов. Это позволяет во много раз сократить количество базовых эталонов и, как следствие, время обучения системы распознания для конкретного диктора, а также обеспечить возможность работы в режиме реального времени с большим объемом словаря.

Цель диссертационной работы состоит в разработке методов и алгоритмов для анализа устной речи на основе априорной сегментации и модифицированного алгоритма динамической трансформации временной шкалы (ЭТ'^алгоритма), обеспечивающего повышение эффективности процесса

распознавания данных речи за счет использования эталонов, синтезируемых из эталонов дифонов по транскрипциям слов.

В соответствии с поставленной целью в диссертационной работе решаются следующие задачи:

- анализ известных методов и алгоритмов распознавания устной речи, выявление и обоснование подходов, наиболее пригодных для достижения поставленной цели;

- разработка метода автоматической априорной сегментации речевых данных;

- разработка метода автоматического извлечения дифонов из речевых данных на основе априорной сегментации;

- разработка метода анализа данных устной речи на основе априорной сегментации и модифицированного алгоритма DTW, использующего эталоны слов, автоматически синтезируемые из эталонов дифонов по транскрипциям слов словаря;

- реализация и тестирование разработанных методов путем разработки специализированного программного обеспечения для сравнения разработанных методов с известными методами распознавания устной речи.

Объектами исследования в диссертационной работе являются методы, алгоритмы и системы распознавания речи.

Методы исследований. При решении сформулированных в работе задач использовались методы динамического программирования, методы сегментации речевых данных, методы объектно-ориентированного проектирования и программирования.

Научная новизна. В диссертации получены следующие новые научные результаты, которые выносятся на защиту:

- разработан метод анализа устной речи, отличающийся тем, что эталонные образы целых слов синтезируются из эталонов дифонов (сравнительно небольшого числа речевых единиц, содержащих межфонемные переходы), что позволяет выполнять распознавание речи со словарями большого объема без

предварительного создания голосовых эталонов всех слов; за счет использования дифонного дерева обеспечивается повышение скорости распознавания в 3-4 раза по сравнению с классическим методом на основе DTW;

- разработан метод автоматической априорной сегментации речевых данных, отличающийся тем, что для определения границ между фонемами в речи с заранее неизвестным фонемным составом применяется новый способ анализа структуры коротких участков речи, позволяющий с использованием численного аналога полной вариации и полной вариации с переменным верхним пределом автоматически определять межфонемные переходы в данных речи;

- разработан метод автоматического извлечения эталонов дифонов из речи, отличающийся использованием информации о границах между фонемами, полученной с помощью априорной сегментации, и позволяющий автоматизировать процесс создания базы дифонов при обучении системы распознавания.

Практическая ценность результатов исследований состоит в использовании полученных результатов для создания программного обеспечения, с применением которого решается задача автоматизации создания речевых баз данных, проектирования систем распознавания речи со словарем большого объема и интеллектуальных систем взаимодействия пользователя и компьютера.

Соответствие специальности. Тематика работы соответствует следующим пунктам паспорта специальности 05.13.17 - Теоретические основы информатики:

— п.5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечения; разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений»

— п.6 «Разработка методов, языков и моделей человеко-машинного общения; разработка методов и моделей распознавания, понимания и синтеза речи, принципов и методов извлечения данных из текстов на естественном языке».

Диссертационная работа состоит из четырёх разделов, заключения и приложений.

В первом разделе диссертации выполнен анализ отечественных и зарубежных источников, связанных с темой диссертации. Проведено исследование существующих подходов к параметризации, сегментации и распознаванию устной речи.

Проведенный анализ показал, что до настоящего времени не выработано единого надежного подхода к решению задачи распознавания речи, используется большое количество методов параметризации речевых данных, методов автоматической сегментации и распознавания.

Установлено, что существующие методы автоматической сегментации речевых данных используют их динамические свойства и меру близости между векторами признаков соседних блоков данных. Этот подход имеет недостатки: необходимость настройки порога, который зависит от голосовых данных диктора и громкости речи; невозможность четкого определения границ между фонемами, имеющими небольшой уровень амплитуды; появление дополнительных ложных границ на участках, соответствующих одной фонеме.

Установлено, что наиболее эффективным методом распознавания для малого словаря (до 100 слов) является метод сопоставления с эталонами при помощи алгоритма динамического программирования DTW, учитывающий нелинейное растяжение-сжатие оси времени. Он был выбран в качестве основы при создании метода анализа речевых данных с использованием дифонов, который может быть применен при распознавании больших словарей (содержащих десятки тысяч слов).

Обоснован предмет диссертационных исследований.

Во втором разделе диссертации выполнена разработка методов определения начальной и конечной точек речи и априорной сегментации речевых данных.

Разработан метод автоматического определения начала и конца речи на основе анализа данных о количестве точек постоянства, что позволило автоматизировать процесс записи речи.

Предложен новый метод автоматической сегментации, в котором классификация сегментов производится по четырем фонетическим классам. Метод использует фильтрацию полосовым фильтром и количество точек постоянства в качестве признака для определения невокализованных участков, вариацию с переменным верхним пределом для различения шипящих и паузообразных глухих согласных, и вариацию для сегментации голосовых участков речи.

В третьем разделе диссертации разработан алгоритм извлечения признаков распознавания на основе использования относительных частот длин полных колебаний, а также алгоритм обучения базы данных эталонов дифонов.

Разработан набор правил построения фонетической транскрипции русских слов, а также процедура автоматического транскрибирования.

Установлено, что использование автоматической фонемной сегментации дает возможность выделять дифоны, которые содержат межфонемные переходы. Это позволяет на этапе обучения системы распознавания создать базу эталонов дифонов, которые в дальнейшем будут использоваться для синтеза эталонов слов.

Предложен способ представления словаря эталонов слов в виде дерева с использованием векторов признаков, входящих в эталоны дифонов, что позволило увеличить скорость распознавания и сократить затраты памяти на хранение эталонов слов.

Предложен метод анализа устной речи на основе сопоставления исследуемых речевых данных с эталонами с помощью алгоритма DTW, который заключается в использовании эталонов слов, автоматически синтезируемых из эталонов дифонов по транскрипции слов.

На этой основе разработан метод анализа речевых данных, который может быть применен для систем распознавания с большим объемом словаря (несколько десятков тысяч слов). Предложен способ применения данного метода к распознаванию словоформ по частям, а также к распознаванию слитно произнесенных фраз.

В четвёртом разделе диссертации разработано экспериментальное программное обеспечение для реализации, тестирования и апробации предложенных методов сегментации и анализа речевых данных. Реализованы алгоритмы определения конечных точек речи, автоматической сегментации, автоматического извлечения эталонов дифонов и распознавания.

С помощью разработанного программного обеспечения проведен анализ функционирования алгоритмов сегментации и распознавания. Проведено сравнение эффективности распознавания отдельно произносимых слов с методом на основе скрытых марковских моделей и коммерческой программой распознавания речи Voco. Проведенное исследование эффективности метода дифонного распознавания изолированных слов на большом словаре показало высокую эффективность разработанного метода: доля корректно распознаваемых слов составляла не менее 90%.

Заключение содержит выводы о работе.

Результаты работы внедрены:

- при выполнении госбюджетных научно-исследовательских работ в институте проблем искусственного интеллекта (ИПИИ) МОН и НАН Украины:

- «Разработка методов компьютерного восприятия слитной речи на основе пофонемного распознавания речевых образов», шифр РСМ-2005, № 0105U001160;

- «Исследование проблем искусственного интеллекта по компьютерному распознаванию речи с учетом семантики произнесенного и использованием разработанного инверсионного грамматического словаря украинского языка», шифр РСМ-2008, № 0108U003014;

- «Разработка модуля пословной диктовки со словарем 100 тысяч словоформ для текстового редактора Word», шифр СМС_Р1С 2013, №0113U0011327.

- в учебном процессе на кафедре программной инженерии Донецкого национального технического университета в курсе «Цифровая обработка сигналов и распознавание речи»;

- на предприятии ООО «Техно КМВ» приняты к использованию методы и алгоритмы, разработанные диссертации.

Основные положения и результаты диссертационной работы

докладывались и обсуждались на следующих конференциях:

- IV Международной научной конференции «Интеллектуальные и многопроцессорные системы - 2003». - Дивноморское, 2003;

- V Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы - 2004». -Кацивели, 2004;

- VI Международной научно-практической конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы - 2005». -Дивноморское, 2005;

- VII Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы - 2006». -Кацивели, 2006;

- VIII Международной конференции «Искусственный интеллект. Интеллектуальные системы - 2007». - Дивноморское, 2007;

- VIII Всероссийской конференции с международным участием «Новые информационные технологии в исследовании сложных структур». - Томск, 2010;

- XI Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы - 2010». -Кацивели, 2010;

- XII Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные системы - 2012». - Кацивели, 2012;

- XIII Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные системы - 2013». - Кацивели, 2013.

По теме диссертации опубликованы 17 статей, в том числе 2 статьи в изданиях, рекомендованных ВАК РФ, 2 работы в журнале, индексируемом базой данных SCOUPUS и 9 тезисов докладов. Все результаты, представленные в диссертационной работе, получены автором лично. В совместных научных

публикациях имеет место неделимое соавторство.

Структура и объём диссертации. Диссертационная работа состоит из введения, четырех разделов, выводов, двух приложений. Полный объем работы -192 страницы, из них основной текст 143 страницы, 3 приложения на 28 страницах, список литературы на 21 странице, 188 источников, 48 рисунков и 7 таблиц.

1. АНАЛИЗ МЕТОДОВ ПРЕДСТАВЛЕНИЯ, СЕГМЕНТАЦИИ И РАСПОЗНАВАНИЯ УСТНОЙ РЕЧИ

1.1. Формализация задачи распознавания речи

1.1.1. Устная речь и ее описание. Устная речь является в физическом понимании акустическим сигналом, который генерируют артикуляционные органы человека (рисунок 1.1). Он передается через физическую среду и воспринимается ухом человека [26], создавая звуковые образы, понимаемые человеком как соответствующие элементы данного языка.

Рисунок 1.1 - Схематическое изображение речевого аппарата человека При произнесении человеком звуков воздух из легких попадает в дыхательное горло (трахею) и затем проходит через голосовые связки. Во время произношения вокализованных звуков как, например, [а] в слове «мама», воздух, поступающий из легких, заставляет голосовые связки вибрировать с частотой, которая зависит от строения гортани и физиологических параметров голосовых связок (степени их натяжения, длины, толщины).

С увеличением натяжения голосовых связок повышается воспринимаемый на слух основной тон, или основная частота голоса, измеряемая акустическими методами. Давление воздуха под голосовой щелью (отверстием между голосовыми связками) и изменения во времени ее площади определяют скорость воздушного потока из голосовой щели, проходящего в голосовой тракт [26].

Частота основного тона может быть приближенно определена как величина, обратная периоду акустических колебаний воздушной среды. Это и есть скорость прохождения воздушной волны через голосовую щель, которая определяет энергию исходной акустической волны или возбуждающей функции голосового тракта.

Голосовой тракт представляет собой неоднородную акустическую трубу, которая простирается от голосовой щели до губ и изменяется по форме с течением времени [26]. Основными анатомическими компонентами, вызывающими это изменение, являются язык, челюсти, губы, и мягкое нёбо.

При произнесении неназальных звуков мягкое нёбо поднято и отделяет голосовой тракт от носовой (назальной) полости. Носовая полость используется при произнесении назальных звуков [л], [м] и [н], например, в словах «дан», «сам» и «лань».

Во время произнесения невокализованных звуков, как, например, звука [ф] в слове «фарс», воздух проходит через расслабленные голосовые связки, причем органы артикуляции определяют форму акустической трубы (например, путем расположения верхних зубов на нижней губе при произнесении слова «фарс»). При сжатии акустической трубы и колебаниях голосовых связок произносятся вокализованные фрикативные звуки, такие, например, как [в] в слове «вал».

Произношение взрывных звуков (например, [п], в слове «поп») связано с созданием избыточного воздушного давления в области рта, за которым следует резкий его спад после того, как человек открывает рот [26,27].

Процесс образования человеческой речи можно представить с научной точки зрения в виде модели, где речевой тракт представляется линейным фильтром с изменяющимися во времени параметрами и возбуждается

генератором периодических импульсов, белого шума или их совокупности. Анатомически линейный фильтр формируется акустической трубой, которая состоит из дыхательного (легкие, бронхи, трахея), и произносительного (гортань с голосовыми связками, глотка, носовая и ротовая полости, язык, небо, губы) аппаратов.

Грудная клетка при разговоре расширяется и сжимается, таким образом воздух поступает из легких по трахее и проходит через голосовую щель. Если при этом давление воздуха под голосовыми связками превышает давление над ними, то воздух, проходя через голосовую щель, смыкает и размыкает голосовые связки, колебания которых модулируют звуковую волну.

В голосовом тракте человека (и в соответствующем ему в модели речеобразования линейном фильтре) присутствуют несколько резонансных областей, создающих энергетически сильные области в спектрах звуков - так называемые «форманты». При этом индивидуальные акустические параметры голоса человека определяются уникальной формой и размерами голосового тракта, свойствами его стенок, динамикой изменения его геометрии, формой и периодичностью импульсов голосового источника, а также зависят от взаимодействия носовой и ротовой полостей, анатомических свойств груди, бронхов, пазух черепа.

Характер изменения формы артикуляторов обусловлен сокращением мышц, управляемых центральной и периферической нервной системой, которые даже у близнецов, идеально похожих друг на друга, различаются настолько, что позволяет точно отличать их друг от друга [28,29].

Различия в социолингвистическом окружении, диалекте и объеме речевого тракта также способствуют возникновению междикторской вариативности.

На практике при разработке систем распознавания речи приходится сталкиваться с множеством трудностей, которые связаны с взаимным влиянием фонем друг на друга. Соседние звуки могут накладываться друг на друга, некоторые звуки могут вообще выпадать. Изменения также могут быть вызваны влиянием окружающей среды, характеристиками и позицией приемника речи,

влияние также оказывают физическое и эмоциональное состояние человека, темп или качество произношения.

1.1.2. Задача распознавания устной речи. Распознавание устной речи -это процесс автоматического анализа данных речи с целью определения слова или последовательности слов, соответствующих тому, что произнес человек. Распознавание изолированных слов является частным случаем задачи распознавания речи, при котором речь соответствует одному слову.

Как правило, в работе системы автоматического распознавания речи присутствуют три этапа: вычисление признаков, обучение и распознавание (рисунок 1.2) [30]. Иногда выполняется также предварительная обработка, которая включает такие процедуры, как подавление фонового шума или адаптация к вариациям между различными дикторами.

Рисунок 1.2 - Схема функционирования системы автоматического

распознавания речи

На этапе вычисления признаков из исходных цифровых данных речи s(n) получают вектор признаков - сжатое описание данных, которое содержит только значащую для задачи распознавания информацию. Для этого используются признаки, основанные на данных как о частотной области (коэффициенты линейного предсказания, мел-частотные кепстральные коэффициенты), так и о

временной (вариация, кратковременное значение энергии). Тем не менее, проблема выбора признаков не решена до конца, и исследования в этом направлении ведутся многими авторами [30 - 35].

В общем случае задача распознавания речи формулируется следующим образом. Пусть дана последовательность векторов признаков длиной Т, которую назовем наблюдаемой последовательностью X = (х^ х2, ... , хТ). Эта последовательность описывает цепочку слов Ж = w2, ... , wN), которые произнес человек. Исходя из этого, необходимо отыскать такое слово или такую цепочку слов Ж*, которая соответствует последовательности векторов признаков X [36,37].

Для решения этой задачи на этапе обучения составляется модель X, которая способна порождать все возможные последовательности X для всех возможных Ж. Пусть функция Н(Ж, X) возвращает все возможные X только для заданной Ж. Тогда распознаванием будет нахождение такой цепочки слов Ж*, которая, согласно модели X, породит последовательность, наиболее близкую к рассматриваемой X:

Ш* = агдт1Ппепй(к(ф,Х),Х), (1.1)

где й(К\ X) - расстояние между X' и X.

Физическая модель отражает физические характеристики звуков (фонем, дифонов, трифонов, и пр.) языка, для которого строится система распознавания речи. Популярными здесь являются подходы, основанные на скрытых марковских моделях (НММ) в связке со смесью нормальных распределений ^ММ) или же на многослойных нейронных сетях (ОМЫ).

Статистическая языковая модель определяет вероятность распределения

w2, ... , wN) появления последовательности из п слов w1, w2, ... , wN. Данная величина приближенно оценивается с помощью п-грамм, вычисляемых как частота их встречаемости в представительном текстовом корпусе [38]. Успешными методами построения языковых моделей являются:

- языковая модель Kneyser-Ney [39];

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Ниценко, Артём Владимирович, 2017 год

СПИСОК ИСТОЧНИКОВ

1. Купер, А. Алан Купер об интерфейсе. Основы проектирования взаимодействия / А. Купер, Р. Рейман, Д. Кронин - СПб.: Символ Плюс, 2009. - 688 с.

2. Gold, B. Speech and Audio Signal Processing: Processing and Perception of Speech and Music / B. Gold, N. Morgan, D. Ellis. - John Wiley & Sons, 2011. - 660 p.

3. Оппенгейм, А. Цифровая обработка сигналов / А. Оппенгейм, Р. Шафер. -М.: Техносфера, 2009. - 858 с.

4. Rabiner, L. Fundamentals of speech recognition / L. Rabiner, B.H. Juang -Prentice Hall, 1993. - 507 p.

5. Sakoe, H. Dynamic programming algorithm optimization for spoken word recognition / H. Sakoe, S. Chiba // IEEE Trans. on Acoust., Speech an Signal Processing. - 1978. - Vol. 26, № 1. - P. 43 - 49.

6. Itakura, F. Minimum Prediction Residual Principle Applied To Speech Recognition / F. Itakura // IEEE Transactions on Acoustics, Speech, and Signal Processing. - 1975. - Vol. 23, № 1. - P. 52 - 72.

7. Величко, В.М. Система распознавания речевых команд / В.М. Величко, Н. Г. Загоруйко // Автоматическое распознавание слуховых образов. Тезисы докладов и сообщений 10-го Всесоюзного семинара АРСО-Х. - Тбилиси, 1978. -С. 173 - 175.

8. Zagoruiko, N.G. Methods of Recognition Based on the Function of Rival Similarity / N.G. Zagoruiko, I.A. Borisova, V.V. Dyubanov, O.A. Kutnenko // Pattern Recognition and Image Analisys. - 2008. - Vol. 18, № 1 - P. 1 - 6.

9. Sorokin, V.N. Redundancy of the control of speech production / V.N. Sorokin // Journal of Communications Technology and Electronics. - 2010. - v. 55, № 12. - P. 1442 - 1455.

10. Sorokin, V.N. Initial conditions in the problem of voice recognition / V.N. Sorokin, A.V. Tananykin // Journal of Communications Technology and Electronics. - 2010. - v. 55, № 12. - P. 1542 - 1549.

11. Сорокин, В.Н. Частотные модуляции в речевом сигнале / В.Н. Сорокин, И.С. Макаров А.С. Леонов // Акустический журнал. - 2009. - т. 55, № 6. - C. 809 -821.

12. Сорокин, В.Н. Первичный анализ речевых сигналов / В.Н. Сорокин, Д.Н. Чепелев // Акустический журнал. - 2005. - т. 51, № 4. - С. 536 - 542.

13. Винцюк, T.K. Распознавание слов устной речи методами динамического программирования / Т.К. Винцюк // Кибернетика. - 1968. - № 1. - С. 81 - 88.

14. Лучинкина, О.И. Моделирование лингвистических уровней системы распознавания слитной речи. / О.И. Лучинкина, О.Н. Карпов // Международная научно-техническая конференция «АВИА-2011». - Днепропетровск: Издательство Днепропетровского университета, 2011. - C. 429 - 432.

15. Карпов, О.Н. Технология построения устройств распознавания речи / О.Н. Карпов. - Днепропетровск: Издательство Днепропетровского университета, 2001. - 184 с.

16. Васильева, Н.Б. Порiвняння пофонемного та поскладового розтзнавання мовленневого сигналу для укратсько!' мови / Н.Б. Васильева, Н.Н. Сажок // Труды десятой всеукраинской международной конференции УкрОбраз. - Киев, 2010. -С. 49 - 54.

17. Сажок, Н.Н. Адаптащя акустичних моделей фонем до голосу диктора для пофонемного розтзнавання iзольованих ^в украшсько!' мови / Н.Н. Сажок, Р.А. Селюх, О.А. Юхименко // Искусственный интеллект. - 2009. - № 4. - C. 230 -233.

18. Васильева, Н.Б. Корпус украинской эфирной речи / Н.Б. Васильева, В.В. Пилипенко, А.М. Радуцкий, В.В. Робейко, Н.Н. Сажок // Речевые технологии. - 2012. - № 2. - С. 12 - 21.

19. Крак, Ю.В. До оргатзацп створення системи розтзнавання мовно-голосового сигналу з використанням великого словника та обмежено!' навчально!'

вибiрки / Ю.В. Крак, Ю.Г. Кривонос, С.М. Тимку // Искусственный интеллект. -2006. - № 3. - С. 592 - 596.

20. Кривонос, Ю.Г. Анаиз голосових мовних сигнаив в задачах класифкацп, кластерiзацiï та розпiзнавання / Ю.Г. Кривонос, Ю.В. Крак, С.М. Тимку // Материалы междунар. научно-технической конф. «ИИ и интеллектуальные многопроцессорные системы». - Таганрог, 2006. - С. 396 - 397.

21. Каргин, А.А. О проблеме параметризации речевого сигнала в современных системах распознавания речи / А.А. Каргин, Т.В. Шарий // Вестник Донецкого национального университета. - 2008. - № 2(2). - C. 536 - 541.

22. Каргин, А.А. Интеллектуальная система категоризации и интерпретации текстовой информации «Text-Term-Concept» / А.А. Каргин, А.И. Парамонов // Збiрка наукових праць VII мiжнародноï науковоï конференцп «1нтелектуальний аналiз шформацп». - Киев, 2007. - C. 140 - 149.

23. Кипяткова, И.С. Аналитический обзор систем распознавания русской речи с большим словарем / И.С. Кипяткова, А.А. Карпов // Труды СПИИРАН. -2010. - Вып. 12. - C. 7 - 20.

24. Шелепов, В.Ю. Сегментация и дифонное распознавание речи: [лекции] / В.Ю. Шелепов, А.В. Ниценко - Донецк: ГУ «ИПИИ», 2015. - 232 с.

25. Бурибаева, А.К. Сегментация и дифонное распознавание речевых сигналов / А.К. Бурибаева, Г.В. Дорохина, А.В. Ниценко, В.Ю. Шелепов. // Труды СПИИРАН. - 2013. - Вып. 8(31). - С. 20 - 42.

26. Маркел, Дж. Линейное предсказание речи / Дж. Маркел, А. Грей. - М.: Связь, 1980. - 308 с.

27. Березинская, Е.В. Об одном подходе к синтезу гласных звуков с использованием метода линейного предсказания / Е.В. Березинская // Труды Международного семинара «Диалог'2001». - Аксаково, 2001. - С. 44 - 47.

28. Flanagan, J.L. Speech Analysis Synthesis and Perception / J.L. Flanagan -New York: Springer-Verlag,1972. - 446 p.

29. Fant, G. Acoustic Theory of Speech Production / G. Fant. - The Hague: Mouton, 1970. - 323 p.

30. Огнев, И.В. Классификация речевых образов на основе анализа распределений их локальных экстремумов / И.В. Огнев, А.И. Огнев, П.А. Парамонов //131 труды XXI международной научно-технической конференции «Информационные средства и технологии». - М.: МЭИ, 2013. - C. 53 - 57.

31. Герасимов, А.В. Применение метода формантного анализа для извлечения информации из акустического сигнала в задачах распознавания речи /

A.В. Герасимов // Доклады 5-й международной конференции Цифровая обработка сигналов и ее применение. - Москва, 2003. - C. 334 - 337.

32. Овчинников, П.Е. Сравнение методов параметризации речевых сигналов для задачи нейросетевого распознавания фонем / П.Е. Овчинников, Ю.А. Сёмин // Материалы Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные системы - 2007». - Донецк: Наука i освгга, 2007. -С. 134 - 137.

33. Дорохин, О.А. О некоторых подходах к проблеме компьютерного распознавания устной речи / О.А. Дорохин, А.В. Засыпкин, Н.А. Червин,

B.Ю. Шелепов // Труды Международной конференции «Знание-Диалог-Решение» (KDS 97). - Ялта, 1997. - C. 234 - 240.

34. Hermansky, H. Perceptual linear predictive (PLP) analysis of speech / H. Hermansky // The Journal of the Acoustical Society of America. - 1990. - Vol. 87. - P. 1738 - 1752.

35. Yapanel, U.H. A new perceptually motivated MVDR-based acoustic frontend (PMVDR) for robust automatic speech recognition / U.H. Yapanel, J.H.L. Hansen // Speech Communication. - 2004. - Vol. 50. - P. 142 - 152.

36. Huang, X. Spoken language processing: a guide to theory, algorithm, and system development / X. Huang, A. Acero. - New York: Prentice Hall, 2001. - 1008 p.

37. Becchetti, С. Speech Recognition. Theory and C++ Implementation / С. Becchetti, L.P. Ricotti. - New York: Wiley, 1999. - 428 p.

38. Bellegarda, J.R. Statistical language model adaptation: review and perspectives / J.R. Bellegarda // Speech Communication. - 2004. - Vol. 42. - P. 93 -108.

39. Chen, S. F. An empirical study of smoothing techniques for language modeling / S. F. Chen, J. Goodman // Computer Speech and Language. - 1999. - Vol. 13, №. 4. - P. 359 - 394.

40. Teh, Y. W. A hierarchical Bayesian language model based on Pitman-Yor processes / Y. W. Teh // Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. - Sydney, 2006. - P. 985 - 992.

41. Mangu, L. The IBM 2011 GALE Arabic speech transcription system / L. Mangu, H.-K. Kuo, S. Chu, B. Kingsbury, G. Saon, H. Soltau, F. Biadsy // Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). - Waikoloa, 2011. - P. 272 - 277.

42. Chen, S. Advances in speech transcription at IBM under the DARPA EARS program /S. Chen, B. Kingsbury, L. Mangu, D. Povey, G. Saon, H. Soltau, G. Zweig // IEEE Transactions on Speech and Audio Processing. - 2006. - Vol. 14, №. 5. - P. 1596 - 1608.

43. Schalkwyk, J. Google search by voice: a case study / J. Schalkwyk, D. Beeferman, F. Beaufays, B. Byrne, C. Chelba, M. Cohen, M. Kamvar, B. Strope // Advances in Speech Recognition: Mobile Environments, Call Centers and Clinics. -2010. - Р. 61 - 90.

44. Bourouba, E. Isolated Words Recognition System Based on Hybrid Approach DTW-GHMM. / E. Bourouba, M. Bedda, R. Djemili // Informatica. - 2006. - Vol. 30, № 3. - P. 373 - 382.

45. Lipeika, A. Development of Isolated Word Speech Recognition System / A. Lipeika, J. Lipeikiene, L. Telsknys // Informatica. - 2002. - Vol. 13, № 1. - P. 37 - 46.

46. Umarani, S.D. Isolated Word Recognition Using Enhanced MFCC and IIFs / S.D. Umarani, R.S.D. Wahidabanu, P. Raviram // Proceedings of the International Conference on Frontiers of Intelligent Computing: Theory and Applications (FICTA). -2013. - vol. 199. - P. 273 - 283.

47. Засыпкин, А.В. О дикторонезависимой системе голосового телефонного номеронабирателя. / А.В. Засыпкин, А.Т. Мицевич, М.В. Овецкий, В.Ю. Шелепов

// Международная конференция "Знания-Диалог-Решение". Сборник научных трудов. - Ялта, 1995. - Т.2. - С. 427 - 430.

48. Дорохин, О.А. О некоторых подходах к проблеме компьютерного распознавания устной русской речи. / О.А. Дорохин, А.В. Засыпкин, Н.А. Червин, В.Ю. Шелепов // Международная конференция "Знания-Диалог-Решение". Сборник научных трудов. - Ялта, 1997. - Т.1. - С.234 - 240.

49. Watanabe, S. Automatic determination of acoustic model topology using variational Bayesian estimation and clustering for large vocabulary continuous speech recognition / S. Watanabe, A. Sako, A. Nakamura // IEEE Transactions on Audio, Speech and Language Processing,. - 2006. - Vol 14, Iss 3. - P. 855 - 872.

50. Sakti, S. Incorporation of Pentaphone-Context Dependency Based on Hybrid Hmm/Bn Acoustic Modeling Framework / S. Sakti, K. Markov, S. Nakamura // Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. - 2006. -Vol 1. - P. 1177 - 1180.

51. Jurafsky, D. What kind of pronunciation variation is hard for triphones to model? / D. Jurafsky, W.Ward, Z. Jianping, K. Herold, Y. Xiuyang, Z. Sen // Proceedings of ICASSP-2001. - Salt Lake City, 2001. - Vol. 1. - P. 577 - 580.

52. Бондарко, Л.В. Звуковая система русского языка в свете задач компилятивного синтеза / Л.В. Бондарко, В.И. Кузнецов, П.А. Скрелин, К.Б. Шалонова // Бюллетень фонетического фонда русского языка. - 1997. - № 6.

- C. 60-84.

53. Потапова, Р.К. Речь: Коммуникация, информация, кибернетика / Р.К. Потапова. - M.: Либроком, 2010. - 600 с.

54. Потапова, Р.К. Речевая коммуникация: от звука к высказыванию / Р.К. Потапова, В.В. Потапов - М.: Языки славянских культур, 2012. - 466 с.

55. Потапова, Р.К. Основы речевой акустики / Р.К. Потапова, В.Г. Михайлов

- М.: ИПК МГЛУ «Рема», 2012. - 494 c.

56. Жиляков, Е.Г. Сегментация речевого сигнала на основе анализа особенностей распределения долей энергии по частотным интервалам / Е.Г. Жиляков, Е.И. Прохоренко, А.В. Болдышев, А.А. Фирсова. // Вестник

Национального технического университета Харьковский политехнический институт. - 2011. - № 17. - С. 44 - 50.

57. Соловьев, В.И. Сегментация звукового сигнала в задачах выявления монтажа в аудиофайлах / В.И. Соловьев, О.В. Рыбальский // Вестник Киевского национального университета им. Т.Шевченко. - 2011. - № 33. - С. 213 - 220.

58. Голубинский, А.Н. Расчет частоты основного тона речевого сигнала на основе полигармонической математической модели / А.Н. Голубинский // Вестник Воронежского института МВД России. - 2009. - № 1. - С. 152 - 161.

59. Ладошко, О.Н. Моделирование выделителя частоты основного тона для исследований спонтанной речи / О.Н.Ладошко // IV международная научно-техническая конференция «Моделирование и компьютерная графика»: тезисы докладов. - Донецк: ДонНТУ, 2010. - С. 291 - 294.

60. Batliner, A. Segmenting into adequate units for automatic recognition of emotion-related episodes: A speech-based approach / A. Batliner, D. Seppi, S. Steidl, B. Schuller // Advances in Human-Computer Interaction. - 2010. - vol. 2010. - P. 1 - 15.

61. Агашин, О.С. Методы цифровой обработки речевого сигнала в задаче распознавания изолированных слов с применением сигнальных процессоров / О.С. Агашин, О.Н. Корелин // Труды Нижегородского государственного технического университета им. Р.Е. Алексеева. - 2012. - № 4 (97). - С. 32 - 44.

62. Робейко, В.В. Моделирование особенностей спонтанной украинской речи в системах автоматического распознавания речевого сигнала / В.В. Робейко // Кибернетика и вычислительная техника. - 2012. - № 170. - С. 76 - 85.

63. Котомин, А.В. Основные этапы предварительной обработки звукового сигнала в системе распознавания речевых команд / А.В. Котомин // Международная конференция «Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем»: тезисы докладов. - М: Российский университет дружбы народов. - 2011. - С. 135 - 137.

64. Федоров, Е.Е. Численное исследование шумных глухих согласных звуков / Е.Е. Федоров, О.П. Мартынова, Э. Слесорайтите // Вестник Донецкой академии автомобильного транспорта. - 2012. - № 4. - С. 13 - 22.

65. Шелепов, В.Ю. Система пофонемного распознавания отдельно произносимых слов / В.Ю. Шелепов, Г.В. Саввина, А.В. Козлов // Искусственный интеллект. - 2003. - № 1. - С. 156 - 165.

66. Елистратов, С.А. Сравнение параметров для выделения вокализованных сегментов и классификации гласных фонем / С.А. Елистратов, М.А. Косенко, Е.Ю. Костюченко, А.А. Чичерин // Доклады ТУСУР. - 2012. - № 1. - С. 171 - 174.

67. Natarajan, V.A. Segmentation of Continuous Speech into Consonant and Vowel Units using Formant Frequencies / V.A. Natarajan, S. Jothilakshmi // International Journal of Computer Applications. - 2012. - vol. 56, № 15. - P. 24 - 27.

68. Леонтьев, Н.А. Применение пакета Mathcad для обнаружения звуковых формант в задачах синтеза и распознавание речи [Электронный ресурс] / Н.А. Леонтьев // Современные научные исследования и инновации. - 2014. - № 4 - Режим доступа: http://web.snauka.ru/issues/2014/04/33556.

69. Мокров, Е.Е. Распознавание речевых команд управления с применением фонемного подхода / Е.Е. Мокров // Международная конференция «Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем»: тезисы докладов - М: Российский университет дружбы народов. - 2011. - С. 155 - 156.

70. Златоустова, Л.В. Фонетические единицы русской речи / Л.В. Златоустова - М.: МГУ, 1981. - 108 с.

71. Федоров, Е.Е. Методика распознавания вербальных команд управления транспортом на основе композиции DTW-классификаторов / Е.Е.Федоров // Вестник Донецкой академии автомобильного транспорта. - 2010. - № 4. - С. 27 -35.

72. Шелепов, В.Ю. Новая система признаков для распознавания речевых единиц / В.Ю. Шелепов, Д.Г. Старушко // Искусственный интеллект. - 2002. - № 4. - С. 286 - 288.

73. Федоров, Е.Е. Формирование решающих правил с использованием теории мультимножеств в задачах распознавания речи / Е.Е. Федоров, Т.В. Ермоленко // Труды ИСА РАН. - 2008. - т. 35. - С. 85 - 98.

74. Picone, J.W. Signal modeling techniques in speech recognition / J.W. Picone // Proceedings of the IEEE. - 1993. - №81 (9). - P. 1215 - 1247.

75. Pallet, D.S. Speech Results on Resource Management Task / D.S. Pallet // Proceedings of the February 1989 DARPA Speech and Natural Language Workshop. -Philadelphia: Morgan Kaufman Publishers, 1989. - P.18 - 24.

76. Paul, D. The Lincoln Robust Continuous Speech Recognizer / D. Paul // Proceedings IEEE International Conference on Acoustic, Speech, and Signal Processing. — Glasgow, 1989. - P.556 - 559.

77. Wilpon, J.G. Speech Recognition: From the Laboratory to the Real World / J.G. Wilpon, R.P. Mikkilineni, D.B. Roe, S. Gokcen // AT&T Technical Journal. -1990. - Vol. 69, № 5. - P. 14 - 24.

78. Wilpon, J.G. Isolated Word Recognition Over the DDD Telephone Network -Results Of Two Extensive Field Trials / J.G. Wilpon, D.M. DeMarco, R.P. Mikkilineni // Proceedings IEEE International Conference on Acoustic, Speech, and Signal Processing. - 1988. - New York, NY, USA. - P. 55 - 57.

79. Wheatly, B. Voice Across America: Toward Robust Speaker Independent Speech recognition For Telecommunications Applications / B. Wheatly, J. Picone // Digital Signal Processing: A Review Journal. - 1991. - Vol. 1, № 2. - P. 45 - 64.

80. Бабин, Д.Н. О перспективах создания системы автоматического распознавания слитной устной русской речи / Д.Н. Бабин, И.Л. Мазуренко, А.Б. Холоденко // Интеллектуальные системы. - 2004. - т.8., вып. 1-4. - С.45 - 70.

81. Воробьев, В.И. Теория и практика вейвлет-преобразования / В.И. Воробьев, В.Г. Грибунин. - СПб.: ВУС, 1999. - 208 с.

82. Stark, H.-G. Wavelets and Signal Processing / H.-G. Stark. - New York: Springer Berlin Heidelberg, 2005. - 150 p.

83. Romanyshyn, Yu. Wavelet Transforms Applications for Speech Signals Processing / Yu. Romanyshyn, V. Hudym // Proc. International Conf. on Experience of

Designing and Application of CAD Systems in Microelectronics (CADSM-2001). -Lviv-Slavsko, 2001. - P. 297 - 298.

84. Ермоленко, Т.В. Разработка системы распознавания изолированных слов русского языка на основе вейвлет-анализа / Т.В. Ермоленко // Искусственный интеллект. - 2005. - №4. - С. 595 - 601.

85. Малла, С. Вейвлеты в обработке сигналов: Пер. с англ. / С. Малла - М.: Мир, 2005. - 671с.

86. Новиков, Л.В. Основы вейвлет-анализа сигналов / Л.В.Новиков. - СПб.: Изд-во ООО «МОДУС+», 1999. - 152с.

87. Новиков, Л.В. Спектральный анализ сигналов в базисе вейвлетов / Л.В. Новиков // Научное приборостроение. - 2000. - Т. 10. - № 3. - С. 57 - 64.

88. Сорока, А.М. Алгоритм построения векторов признаков на основе вейвлет преобразования для классификации фонем русского языка / А.М.Сорока // Информационные технологии, электронные приборы и системы (ITEDS'2010): Материалы Международной научно-практической конференции. - Минск, 2010. -С. 133 - 137.

89. Ососков, Г.А. Применение вейвлет-анализа для обработки дискретных сигналов гауссовой формы / Г.А. Ососков, А.Б. Шитов // Сообщение Объединенного института ядерных исследований. - Дубна, 1997. - С. 11 - 97.

90. Добеши, И. Десять лекций по вейвлетам: Пер. с англ. / И. Добеши. -Москва-Ижевск: РХД, 2004. - 464 с.

91. Астафьева, Н.М. Вейвлет-анализ: основы теории и некоторые приложения / Н.М. Астафьева // Успехи физических наук. - 1998. - №11. - С.1145 - 1170.

92. Первушин, Е.А. Обзор основных методов распознавания дикторов / Е.А. Первушин // Математические структуры и моделирование. - 2011. - Вып. 24. - С. 41 - 54.

93. Deshmukh, S.D. Automatic Speech and Speaker Recognition by MFCC, HMM and Vector Quantization / S.D. Deshmukh, M.R. Bachute // International Journal of Engineering and Innovative Technology. - 2013. - Vol. 3, №1. - Р.93 - 98.

94. Kinnunen, Т. Voice Activity Detection Using MFCC Features and SuPort Vector Machine / Т. Kinnunen, E. Chernenko, M. Tuononen // Proc. International Conf. on Speech and Computer (SPEC0M'2007). - Moscow (Russia). - 2007. - P.556 - 561.

95. Ittichaichareon, С. Speech Recognition using MFCC / C. Ittichaichareon, S. Suksri, T. Yingthawornsuk // International Conference on Computer Graphics, Simulation and Modeling (ICGSM'2012). - Pattaya, 2012. - P. 135 - 139.

96. Киселев, В.В. Система пофонемного автоматического распознавания команд русской речи для произвольного словаря / В.В. Киселев, И.Б. Тампель, М.Ю. Татарникова, Ю.Ю. Хохлов // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог'2007». - 2007. - С. 236 - 241.

97. Ладошко, О.Н. Исследование влияния параметризации речевого сигнала и характеристик канала связи на надежность автоматического распознавания фонем / О.Н. Ладошко // Акустический симпозиум «Консонанс-2013». - Киев, 2013. - С.169 - 174.

98. Рабинер, Л. Цифровая обработка речевых сигналов / Л. Рабинер, Р. Шафер. - М.: Радио и связь, 1981. - 496 с.

99. Benesty, J. Springer handbook of speech processing / J. Benesty, M. M. Sondhi, Y. Huang. - Springer, 2008. - 1176 p.

100. Сергиенко, А.Б. Цифровая обработка сигналов / А.Б. Сергиенко. -СПб.: БХВ-Петербург, 2011. - 768 с.

101. Machoul, J. Spectral analysis of speech by linear prediction / J. Machoul // IEEE Transactions on Audio and Electroacoustics. - 1973. - Vol. 21, Iss. 3 - P. 140 -148.

102. Азаров, И.С. Анализ речи на основе мгновенного линейного предсказания / И.С. Азаров, А.А. Петровский // Информатика. - 2009. - № 2. - С. 71 - 82.

103. Namrata, D. Feature Extraction Methods LPC, PLP and MFCC In Speech Recognition / D. Namrata // International Journal Of Advanced Research In Engineering And Technology. - 2013. - Vol.1. - P. 111 - 115.

104. Юрков, П.Ю. Нейросетевое распознавание фонем с использованием вейвлет-преобразования / П.Ю. Юрков, Л.К. Бабенко, В.М. Фёдоров // Материалы II-го регионального научно-практического семинара «Информационная безопасность - юг России». - Таганрог, 2000. - С. 87 - 93.

105. Дорохин, О.А. О некоторых подходах к проблеме компьютерного распознавания устной русской речи / О.А. Дорохин, А.В. Засыпкин, Н.А. Червин, В.Ю. Шелепов // Сборник трудов международной конференции «Знания, диалог, решение». - Ялта, 1997. - Т.1. - С. 234 - 240.

106. Богданов, Д.С. База речевых фрагментов русского языка «ISABASE» / Д.С. Богданов, О.Ф. Кривнова, А.Я. Подрабинович, В.В. Фарсобина // Интеллектуальные технологии ввода и вывода информации. - М., 1998. - C. 20 -23.

107. Вольская, Н. Синтезатор русской речи по тексту нового поколения / Вольская, Н., Коваль А., Коваль С., Опарин И., Погарева Е., Скрелин П., Смирнова Н., Таланов А. // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции Диалог'2005. - М.: Наука, 2005. - C. 84 - 85.

108. Людовик, Т.В. Синтез речи с моделированием особенностей произношения на основе анализа индивидуальных речевых баз данных большого объёма [Электронный ресурс] / Т.В. Людовик - 2004. - Режим доступа: http://www.dialog-21.ru/media/2481/lyudovyk.pdf.

109. Nefti, S. Acoustical and topological experiments for an HMM-based speech segmentation system / S. Nefti, O. Boëffard // Speech Communication and Technology: proceedings of the 7-th European conference EUR0SPEECH'2001. - Aalborg, 2001. -Vol. 3. - P. 1711 - 1714.

110. Kominek, J. A Family-of-models approach to HMMbased segmentation for unit selection speech synthesis / J. Kominek, A.W. Black // Speech Communication and Technology: proceedings of the 9-th European conference InterSpeech'2004. - Jeju Island, 2004. - Vol. 3. - P. 1146 - 1149.

111. Mermelstein, P. Automatic segmentation of speech into syllabic units / P. Mermelstein // The Journal of the Acoustical Society of America. - 1975. - Vol. 58, № 4. - P. 880 - 883.

112. Lewis, E. Automatic segmentation of recorded speech into syllables for speech synthesis / E. Lewis, M. Tatham // Speech Communication and Technology: proceedings of the 7-th European conference EUROSPEECH'2001. - Aalborg, 2001. -Vol. 3. - P. 1703 - 1706.

113. Itakura, F. Line spectrum representation of linear predictive coefficients of speech signals // The Journal of the Acoustical Society of America. - 1975. - Vol. 57, № 2. - P. 537 - 540.

114. Brugnara, F. Automatic segmentation and labeling of speech based on hidden Markov models / F. Brugnara, D. Falavigna, M. Omologo // Speech Communication. - 1993. - Vol. 12, № 4. - P. 357 - 370.

115. Toledano, D.T. Trying to mimic human segmentation of speech using HMM and fuzzy logic post-correction rules / D.T. Toledano // Speech synthesis: proceedings of 3-rd ESCA/IEEE Workshop. - Sydney, 1998. - P. 207 - 212.

116. Toledano, D.T. Neural network boundary refining for automatic speech segmentation / D.T. Toledano // Acoustic, Speech and Signal processing: proceedings of IEEE International conference ICASSP-2000. - Istanbul, 2000. - P. 3438 - 3441.

117. Chou, F.C. Automatic segmental and prosodic labeling of mandarin speech database // Spoken Language Processing: proceedings of 5-th International conference ICSLP'98. - Sydney, 1998. - Vol. 4. - P. 1263 - 1266.

118. Toledano, D.T. Local refinement of phonetic boundaries: a general framework and its application using different transition model / D.T. Toledano, L.A. Hernández Gómez // Speech Communication and Technology: proceedings of the 7-th European conference EUROSPEECH'2001. - Aalborg, 2001. - Vol. 3. - P. 1695 -1698.

119. Лобанов, Б.М. Автоматическое распознавание звукосочетаний в текущем речевом сигнале / Б.М. Лобанов, Г.С. Слуцкер, А.П. Тизик // Шорник научных трудов НИИР. - Вып. 4. - М., 1969. - С. 67 - 75.

120. Слуцкер, Г.С. Нелинейный метод анализа речевых сигналов / Г.С. Слуцкер // Cборник научных трудов НИИР. - Вып. 4. - М., 1969. - С. 76 - 82.

121. Malfrere, F. High quality speech synthesis for phonetic speech segmentation / F. Malfrere, T. Dutoit // Speech Communication and Technology: proceedings of the 5-th European conference EUROSPEECH'97. - Rhodes, 1997. - P. 2631 - 2634.

122. Слуцкер, Г.С. Автоматизация предъявления ЭВМ реализаций звуков речи / Г.С. Слуцкер, В.И. Хабаров // Сборник научных трудов НИИР. - Вып. 1. -М.,1970. - С. 89 - 94.

123. Pfeiffer, S. Pause Concepts for audio Segmentation at Different Semantic Levels / S. Pfeiffer // ACM 2001 Multimedia Conference. - Ottawa, 2001. - P. 187 -193.

124. Milone, D.H. Evolutionary algorithm for speech segmentation / D.H. Milone, J.J. Merelo, H.L. Rufiner // Proceedings of the 2002 IEEE World Congress on Computational Intelligence. - Honolulu, 2002. - P. 1115 - 1120.

125. Сорокин, В.Н. Сегментация и распознавание гласных / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. - 2004. - Т. 4, № 2. - C. 202 - 220.

126. Yermolenko, T.V. Segmentation of a speech signal with application of fast wavelet-transformation / T.V. Yermolenko // International Journal on Information Theories and Applications. - 2003. - Vol. 10, №3. - P. 306 - 310.

127. Вишнякова, О.А. Автоматическая сегментация речевого сигнала на базе дискретного вейвлет-преобразования / О.А. Вишнякова, Д.Н. Лавров // Математические структуры и моделирование. - 2011. - вып. 23. - C. 43 - 48.

128. Алёшина, Н.Д. О проблеме автоматической сегментации речевого сигнала на фонетические элементы / Н.Д. Алёшина, В.Б.Федоров // Вестник МГТУ МИРЭА. - 2014. - № 1(2). - С. 92 - 99.

129. Ручай, А.Н. Модифицированный метод сегментации речевого сигнала на основе непрерывного вейвлет-преобразования / А.Н. Ручай // Доклады ТУСУР. - 2012. - № 2(26). - С. 189 - 193.

130. Жуйков, В.Я. Алгоритм автоматической классификации сегментов речи на основе автокорреляционных и энергетических характеристик / В.Я. Жуйков, Н.Н. Кузнецов, А.Н. Харченко // Электроника и связь. - № 5(58). - C. 83 - 89.

131. Зельманский, О.Б. Построение программного модуля сегментации речи на основе анализа изменения спектра / О.Б. Зельманский, А.Г.Давыдов // Безопасность информационных технологий. - 2011. - № 3. - С. 127 - 133.

132. Жуйков, В.Я. Алгоритм классификации сегментов речевого сигнала /

B.Я. Жуйков, А.Н. Харченко // Электроника и связь. - 2009. - № 1. - С. 130 - 137.

133. Акопян, А.Г. Новые подходы к проблемам определения глухих взрывных звуков в конце записанного слова / А.Г. Акопян, А.В. Костенко, В.Ю. Шелепов // Информатика и компьютерные технологии. - 2012. - № 8. - С. 18 - 23.

134. Конев, А.А. Алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки / А.А. Конев, Р.В. Мещеряков // Сборник трудов XXII сессии Российского акустического общества. - М.: ГЕОС, 2010. - С. 45 - 48.

135. Быков, Н.М. Надежный метод выделения слоговых сегментов в речевом сигнале / Н.М. Быков, В.В. Ковтун, С.Г. Савинова // Науковi пращ Вшницького нащонального техшчного ушверситету. - 2007. - № 1. - С. 102 - 107.

136. Зилинберг, А.Ю. Разработка и исследование алгоритмов многоуровневой временной сегментации речевых сигналов / А.Ю. Зилинберг, Ю.А. Корнеев // Сборник докладов Научной сессии ГУАП. - СПб: ГУАП, 2010. -

C. 38 - 44.

137. Wendt, C. Pitch determination and speech segmentation using the discrete wavelet transform / C. Wendt, A.P. Petropulu // Circuits and Systems. - 1996. - Vol. 2. - Р. 45 -48.

138. Wang, D. Speech segmentation without speech recognition / D. Wang, L. Lu, H.J. Zhang // Proceedings of ICASSP 2003. - 2003. - P. 468 - 471.

139. Леонович, А.А. Проблемы распознавания слитной речи / А.А. Леонович // Цифровая обработка сигналов. - 2007. - №4. - С. 25 - 28.

140. Zaharia, T. Binary reduction method for reference templates used in DTW algorithm for speech recognition in mobile applications / T. Zaharia, S. Segarceanu, M. Cotescu, I. Gavat, A. Spataru // SISOM 2010 and Session of the Commission of Acoustics. - Bucharest, 2010. - P. 217 - 222.

141. Kim, C. Robust DTW-based Recognition Algorithm for Hand-held Consumer Devices / C. Kim, K. Seo // IEEE Transactions on Consumer Electronics. -2005. - Vol.51, Iss. 2. - P. 699 - 709.

142. Makhijani, R. Isolated word speech recognition system using dynamic time warping / R. Makhijani, R. Gupta // International Journal of Engineering Sciences & Emerging Technologies. - 2013. - Vol. 6, Iss. 3. - P. 352 - 367.

143. Amin, T.B. Speech Recognition using Dynamic Time Warping / T.B. Amin, I. Mahmood // 2nd International Conference on Advances in Space Technologies, ICAST 2008. - Islamabad, 2008. - P. 74 - 79.

144. Dhingra, S.D. G. Nijhawan, P. Pandit. Isolated speech recognition using MFCC and DTW / S.D. Dhingra, G. Nijhawan, P. Pandit // International Journal of Advanced Research in Electrical, Electronics and Instrumentation Engineering. - 2013.

- Vol. 2, Iss. 8. - P. 4085 - 4092.

145. Akila, A. Slope Finder - A Distance Measure for DTW based Isolated Word Speech Recognition / A.Akila, E.Chandra // International Journal Of Engineering And Computer Science. - 2013. - Vol. 2, Iss. 12. - P. 3411 - 3417.

146. Mansour, A.H. Voice Recognition using Dynamic Time Warping and Mel-Frequency Cepstral Coefficients Algorithms / A.H. Mansour, G.Z. Salh, K.A. Mohammed // International Journal of Computer Applications. - 2015. - Vol. 116, № 2.

- P. 34 - 41.

147. Soong, F. A vector Quantization approach to Speaker Recognition / F. Soong, A. Rosenberg, L. Rabiner, B. Juang. // IEEE Proceedings International Conference on Acoustics, Speech and Signal Processing ICASSP 1. - 1985. - P. 387 -390.

148. Rabiner, L. R. A tutorial on Hidden Markov Models and selected applications in speech recognition / L. R. Rabiner // Proceedings of the IEEE. - 1989. -№. 77 (2). - P. 257 - 286.

149. Abdulla, W. H. The concept of Hidden Markov Models in speech recognition / W. H. Abdulla, N. K. Kabasov // Information Science Discussion Papers Series. - 1999. - № 99/09. - P. 1 - 38.

150. Bilmes, J.A. A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian Mixture and Hidden Markov Models [Электронный ресурс] / J. A. Bilmes // Technical Report TR-97-021. - University of Berkeley, 1998.

- Режим доступа: http://melodi.ee.washington.edu/people/bilmes/mypapers/em.pdf.

151. Кипяткова, И.С. Комплекс программных средств обработки и распознавания разговорной русской речи / И.С. Кипяткова // Информационно-управляющие системы. - 2011. - № 4, т. 53. - С. 53 - 59.

152. Ронжин, А.Л. Система дикторонезависимого распознавания слитной русской речи SIRIUS / А.Л. Ронжин, А.А. Карпов, И.В. Ли // Искусственный интеллект. - 2005. - № 3. - С. 590 - 601.

153. Zarrouk, E. Hybrid continuous speech recognition systems by HMM, MLP and SVM: a comparative study/ E. Zarrouk, Y. Ayed, F. Gargouri // International Journal of Speech Technology. - 2014. - Vol. 17, Iss. 3. - P. 223 - 233.

154. Огнев, И.В. Распознавание речи методами скрытых Марковских моделей в ассоциативной осцилляторной среде / И.В. Огнев, П.А. Парамонов // Известия высших учебных заведений. Поволжский регион. Технические науки. -2013. - № 3(27). - С. 115 - 126.

155. Кипяткова, И.С. Автоматическая обработка разговорной русской речи / И.С. Кипяткова, А.Л. Ронжин, А.А. Карпов. - СПб.:ГУАП, 2013. - 314 с.

156. Пилипенко, В.В. Автоматизированный стенограф украинской речи. / В.В. Пилипенко, В.В. Робейко // Искусственный интеллект. - 2008. - № 4. - С. 768

- 775.

157. Пилипенко, В.В. Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных / В.В. Пилипенко // Искусственный интеллект. - 2006. - № 3. - С. 548 - 557.

158. Liu, W. Improved Viterbi algorithm in continuous speech recognition / W. Liu, W. Han // International Conference on Computer Application and System Modeling (ICCASM 2010). - 2010. - Vol.7. - P. 207 - 209.

159. Kumar, Y.R. Modified Viterbi decoder for HMM based speech recognition system / Y.R. Kumar, A.V. Babu, K.A. Kumar // International Conference on Control, Instrumentation, Communication and Computational Technologies (ICCICCT). -Kanyakumari, 2014. - P. 470 - 474.

160. Hsiao, R. Generalized Baum-Welch algorithm for discriminative training on large vocabulary continuous speech recognition system / R. Hsiao, Y.C. Tam, T. Schultz // International Conference on Acoustics Speech and Signal Processing. -Taipei, 2009. - P. 3769 - 3772.

161. Shu, H. Baum-Welch training for segment-based speech recognition / H. Shu, L. L. Hetherington, J. Glass // Workshop on Automatic Speech Recognition and Understanding, ASRU '03. - 2003. - P. 43 - 48.

162. Zhang, X. A Hybrid Speech Recognition Training Method for HMM Based on Genetic Algorithm and Baum Welch Algorithm / X. Zhang, Y. Wang, Z. Zhao // International Conference on Innovative Computing, Information and Control, ICICIC '07. - 2007. - P. 572 - 572.

163. Deng, L. Computational models for speech production / L. Deng // Computational Models of Speech Pattern Processing. - New York: Springer-Verlag, 1999. - P. 199 -213.

164. Hinton, G. Deep Neural Networks for Acoustic Modeling in Speech Recognition / G. Hinton, L. Deng // IEEE Signal Processing Magazine. - 2012. - P. 82 - 97.

165. Qian, Y. Automatic model redundancy reduction for fast back-propagation for deep neural networks in speech recognition / Y. Qian, T. He, W. Deng, K. Yu. //

International Joint Conference on Neural Networks (IJCNN). - Killarney, 2015. - P. 1 -6.

166. Hossain, A. Implementation Of Back-Propagation Neural Network For Isolated Bangla Speech Recognition / A. Hossain, M. Rahman,U.K. Prodhan, F. Khan // International Journal of Information Sciences and Techniques. - 2013. - Vol.3, № 4. -P. 1 - 9.

167. Glorot, X. Understanding the difficulty of training deep feed-forward neural networks / X. Glorot, Y. Bengio // In Proceedings of the International Conference on Artificial Intelligence and Statistics. - Chia Laguna, 2010. - P. 249 - 256.

168. Hinton, G. E. Reducing the dimensionality of data with neural networks / G. E. Hinton, R. Salakhutdinov // Science. - 2006. - Vol. 313, № 5786. - P. 504 - 507.

169. Jelinec, F. Statistical methods for speech recognition / F. Jelinec -Cambridge, Mass.: MIT Press., 1998. - 305 p.

170. Ravinder, K. Comparison of HMM and DTW for Isolated Word Recognition System of Punjabi Language / K. Ravinder // Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications. - Vol. 6419. - P. 244 - 252.

171. Шелепов, В.Ю. К проблеме пофонемного распознавания / В.Ю.Шелепов, А.В. Ниценко // Искусственный интеллект. - 2005. - №4. - С. 662 -668.

172. Шелепов, В.Ю. Структурная классификация слов русского языка. Новые алгоритмы сегментации речевого сигнала, распознавания некоторых классов фонем / В.Ю.Шелепов, А.В. Ниценко // Искусственный интеллект. - 2007. - № 1. - С. 213 - 224.

173. Шелепов, В.Ю. О распознавании фонем с помощью анализа речевого сигнала в частотной и временной областях. Приложение к распознаванию синтаксически связных фраз / В.Ю. Шелепов, А.В. Ниценко, А.В. Жук, Д.С.Азаренко // Речевые технологии. - 2008. - №2.- C. 43 - 52.

174. Бекманова, Г.Т. О некоторых вопросах, связанных с распознаванием казахской речи / Г.Т. Бекманова, А.В. Ниценко, А.А. Шарипбаев, В.Ю. Шелепов //

Вестник Евразийского национального университета им. Л. Н. Гумилева. - Астана, 2009. - № 6 - C. 172 - 177.

175. Шелепов, В.Ю. Построение системы голосового управления компьютером на примере задачи набора математических формул / В.Ю. Шелепов, А.В. Ниценко, А.В. Жук // Искусственный интеллект. - 2010. - № 4. - С.259 - 267.

176. Шелепов, В.Ю. Компьютерная система голосового ввода математических формул / В.Ю. Шелепов, А.В. Ниценко, А.В. Жук // Новые информационные технологи в исследовании сложных структур. Тезисы докладов Восьмой Всероссийской конференции с международным участием. - Томск: Изд-во ТГУ, 2010. - С. 108 - 110.

177. Шелепов, В.Ю. Новый подход к определению границ речевого сигнала. Проблемы конца сигнала / В.Ю. Шелепов, А.В. Ниценко // Речевые технологии-2012. - №1 - С. 74 - 78.

178. Шелепов, В.Ю. О распознавании речи на основе межфонемных переходов / В.Ю. Шелепов, Г.В. Дорохина, А.В. Ниценко // Искусственный интеллект. -2012. - №1 - С.132 - 139.

179. Шелепов, В.Ю. К проблеме распознавания слитной речи / В.Ю. Шелепов, А.В. Ниценко // Искусственный интеллект. - 2012. - №4 - С.272 - 281.

180. Шелепов, В.Ю. О некоторых вопросах, связанных с дифонным распознаванием и распознаванием слитной речи / В.Ю. Шелепов, А.В. Ниценко // Искусственный интеллект. - 2013. - №3 - C. 209 - 216.

181. Ниценко, А.В. Сегментация и дифонное распознавание речевых сигналов / А.В. Ниценко, В.Ю. Шелепов // Материалы Международной молодежной научной школы «Системы и средства искусственного интеллекта ССИИ-2013». - 2013. - С.163 - 166.

182. Nicenko, A.V. A «by part» method of Russian word speech recognition / A.V. Nicenko // Eurasian Journal of Mathematical and Computer Applications. - 2014. - Vol.1, Iss. 2. - P. 102 - 109.

183. Шелепов, В.Ю. О распознавании сверхбольших словарей русских словоформ с использованием квазиоснов / В.Ю. Шелепов, А.В. Ниценко // Известия ЮФУ.Технические науки. - 2016. - № 4. - С. 82 - 92.

184. Shelepov, V.Ju. Recognition of the continuous-speech Russian phrases using their voiceless fragments / V.Ju. Shelepov, A.V. Nicenko //Eurasian Journal of Mathematical and Computer Applications - 2016. - Vol. 4, Iss.4. - P.19-24.

185. Шелепов, В.Ю. О возможностях алгоритма DTW при распознавании речевых сигналов / В.Ю. Шелепов, А.В. Ниценко // Информатика и кибернетика. - 2017. - №2(8). - С. 73-82.

186. Ниценко, А.В. Метод коррекции фонемной сегментации речи / А.В. Ниценко // Проблемы искусственного интеллекта. - 2017. - №1(4). - С.43-48.

187. Шелепов, В.Ю. Распознавание русских слитно произносимых фраз с некоторыми специальными словарями / В.Ю. Шелепов, А.В. Ниценко // Проблемы искусственного интеллекта. - 2017. - №2(5). - С. 27-31.

188. Зализняк, А.А. Грамматический словарь русского языка. Словоизменение / А.А. Зализняк. - М.: Аст-пресс. - 2008. - 880 с.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.