Интеллектуализация принятия решений в автономных системах обработки речевой информации на основе теоретико-информационного подхода тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Савченко, Людмила Васильевна
- Специальность ВАК РФ05.13.01
- Количество страниц 176
Оглавление диссертации кандидат наук Савченко, Людмила Васильевна
Оглавление
Введение
Глава 1. Методы интеллектуализации принятия решений в голосовом интерфейсе автономных технических и информационных систем
1.1. Степень разработанности исследований в области цифровой обработки речевых сигналов
1.2. Систематизация методов интеллектуализации принятия решений в автономных системах обработки речевой информации
1.3. Теоретико-информационный подход к интеллектуализации принятия решений в системах обработки речевой информации
1.4. Выводы
Глава 2. Алгоритмы принятия решений и обработки речевой информации на основе теоретико-информационного подхода и теории нечетких множеств
2.1. Метод нечеткого фонетического кодирования
2.2. Алгоритм принятия решений в автономных системах обработки речевой информации
2.3. Алгоритм оценки эффективности постановки произношения для информационных систем обучения речи
2.4 Выводы
Глава 3. Информационная система интеллектуальной поддержки принятия решений для обработки речевой информации
3.1. Интерфейс информационной системы принятия решений
3.2. Архитектура информационной системы
3.3. Стенд для экспериментального исследования информационной системы
3.4. Выводы
Глава 4. Результаты экспериментальных исследований
4.1. Программа и методики экспериментальных исследований разработанных алгоритмов
4.2. Результаты экспериментальных исследований метода нечеткого фонетического кодирования
4.3. Результаты экспериментальных исследований алгоритмов интеллектуализации принятия решений в системах обработки речевой информации
4.4. Выводы
Заключение
Обозначения и сокращения
Список литературы
Приложение А. Акт о внедрении (ЗАО "ИстраСофт")
Приложение Б. Акт о внедрении (Нижегородский Государственный Лингвистический Университет)
Приложение В. Патент на программу для ЭВМ
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования2011 год, кандидат технических наук Губочкин, Иван Вадимович
Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи2009 год, кандидат технических наук Карпов, Николай Вячеславович
Разработка метода направленного перебора альтернатив в задачах классификации объектов на основе теоретико-информационного подхода2010 год, кандидат технических наук Савченко, Андрей Владимирович
Построение алгоритмов реализации человеко-машинных речевых интерфейсов2007 год, кандидат физико-математических наук Коршаков, Алексей Вячеславович
Специализированное вычислительное устройство фонемной классификации речевых сигналов в реальном времени2013 год, кандидат технических наук Беликов, Иван Юрьевич
Введение диссертации (часть автореферата) на тему «Интеллектуализация принятия решений в автономных системах обработки речевой информации на основе теоретико-информационного подхода»
Введение
Актуальность темы исследований. В последнее время появляется все большее число интеллектуальных информационных и технических систем, которые непрерывно осуществляют анализ состояния сложных прикладных объектов и используют полученную информацию для последующего управления этими объектами. При этом нередко необходимо обеспечить интеллектуализацию принятия решений с возможностью внесения корректировок в автоматически принимаемые решения. В этих случаях речевое взаимодействие позволяет использовать дополнительный канал управления в сложных ситуациях, когда руки и ноги оператора заняты, а зрение перегружено. В частности, с помощью голоса можно осуществить резервное управление бортовым оборудованием, измерительными системами и индикаторами, а также производить запрос навигационных или иных данных, предупреждать о возникших аварийных ситуациях.
Основной проблемой построения голосового интерфейса в таких системах становится обеспечение максимальной точности и вычислительной эффективности принятия решений при обработке речевой информации. Для этого могут применяться традиционные технологии трансформации речи в текст (диктовки), в которых на первом этапе с помощью фонемной сегментации в речевом сигнале выделяются квазистационарные однородные участки (с неизменяющимися спектральными характеристиками) - минимальные речевые единицы (МРЕ). Для каждой МРЕ вычисляются некоторые признаки [101], например, кепстральные коэффициенты (MFCC, Mel Frequency Cepstral Coefficients). На втором этапе на основе аппарата скрытых марковских моделей (СММ) [154, 164, 165] выполняется динамическое выравнивание по темпу речи полученной последовательности признаков МРЕ и транскрипций слов из словаря. Существенный вклад в развитие такого подхода внесли зарубежные специалисты Baker J. [122], Baum L. [124], Benesty J. [125], Gray A. [157], Hinton G. [142], Jurafsky D. [153], Markel J. [157], Mohri M. [159], Rabiner L. [165], Reddy D. [166] и
др. Среди передовых коммерческих программных систем распознавания речи следует отметить Microsoft Windows Speech Recognition [132], Nuance Dragon Naturally Speaking [177], Google Voice Search [176], Apple Siri [145] и др.
Анализ фундаментальных работ по общим проблемам и перспективам практического применения современных речевых технологий указывает на сложность распознавания русской речи за счет ее исключительных лингвистических особенностей [4, 13, 50, 52, 95, 96]. Большой вклад в развитие методов и моделей распознавания русской речи внесли советские и российские ученые Винцюк Т.К. [9, 10] Галунов В.И. [13], Загоруйко Н.Г. [23], Карпов А.А. [28, 57], Лобанов Б.М. [41], Мясников Л .Л. [46], Потапова Р.К. [49, 50, 51, 162], Ронжин А.Л. [25, 59, 60, 167], Сорокин В.Н. [96, 97, 173], Трунин-Донской В.Н. [103], Харламов А.А. [111, 112], Шелепов В.Ю. [118, 120] и др.
Как известно, точность таких технологий трансформации речи в текст [40, 118, 125, 126] сильно варьируется при наличии разнообразных акустических помех, акцента, дефектов речи, изменении физического и эмоционального состояния пользователя [30, 36]. Проблема точности обостряется для автономных технических и информационных систем, рассчитанных на реализацию на малопроизводительном оборудовании [35]. В таких системах передача речевых сигналов на удаленные вычислители зачастую невозможна или недопустима, например, в связи с повышенными требованиями к безопасности. С этой точки зрения несомненный интерес представляет применение теоретико-информационного подхода для пофонемного распознавания речи [64, 76, 77], который позволяет значительно снизить как затраты на хранение фонетической базы данных (ФБД), так и вычислительную сложность алгоритмов обработки речевых сигналов с помощью адаптивной реализации принципа минимума рассогласования Кульбака-Лейблера в виде метода обеляющего фильтра (ОФ) [80].
В алгоритмах пофонемной обработки речевой информации [20] каждый звук описывается собственной акустической моделью, при этом степень сходства
различных звуков зачастую не учитывается. В результате для практической реализации модели близких по звучанию звуков нередко требуется объединить в один кластер. Такой подход приводит к значительному сокращению количества различимых звуков в ФБД и, как следствие, к увеличению числа альтернативных решений на выходе алгоритма распознавания. Решению указанной актуальной задачи повышения эффективности распознавания речи в автономных информационных и технических системах на основе применения системного подхода с представлением фонемы как нечеткого множества центров кластеров всех МРЕ, и посвящена настоящая диссертация.
Объект исследования - автономные системы обработки речевой информации.
Предмет исследования - вычислительно эффективные методы интеллектуализации процессов принятия решений в автономных системах обработки речевой информации.
Цель работы заключается в повышении эффективности принятия решений и обработки речевой информации в голосовом интерфейсе информационных и технических систем на основе теории нечетких множеств и асимптотических свойств информационного рассогласования Кульбака-Лейблера. Для достижения этой цели решались следующие задачи:
1. Систематизировать методы реализации голосового интерфейса в автономных информационных и технических системах, функционирующих на малопроизводительном оборудовании.
2. Провести анализ применимости системного подхода для повышения точности алгоритмов пофонемного распознавания речи на основе асимптотических свойств рассогласования Кульбака-Лейблера.
3. Разработать эффективный алгоритм принятия решений в автономных системах обработки речевой информации на основе представления фонемы как нечеткого множества минимальных речевых единиц.
4. Исследовать применимость разработанных алгоритмов в задаче оценки эффективности постановки произношения для информационных систем обучения речи.
5. Выполнить программную реализацию предложенных алгоритмов в информационной системе интеллектуальной поддержки принятия решений для обработки речевой информации.
6. Провести экспериментальные исследования эффективности разработанных алгоритмов в задачах распознавания устной речи.
Методы исследования. Для решения поставленных задач в работе использовались методы теории информации, теории нечетких множеств, теории вероятностей и математической статистики, теории распознавания образов.
Тематика работы соответствует следующим пунктам паспорта специальности 05.13.01:
П. 3 «Разработка критериев и моделей описания и оценки эффективности решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации».
П.4 «Разработка методов и алгоритмов решения задач системного анализа, оптимизации, управления, принятия решений и обработки информации».
П.5 «Разработка специального математического и алгоритмического обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации».
Научная новизна работы состоит в следующем:
1. На основе системного подхода и асимптотических свойств рассогласования Кульбака-Лейблера предложен новый метод нечеткого фонетического кодирования (НФК) для распознавания фонем, в котором, в отличие от известных методов обработки речевой информации, используется модель фонемы как нечеткого множества эталонных минимальных речевых единиц.
2. Разработан новый вычислительно эффективный алгоритм принятия решений в автономных системах обработки речевой информации, в котором, в
отличие от известных методов, для классификации гласных звуков применяется метод нечеткого кодирования, а степень принадлежности речевого сигнала к эталонному слову определяется по результатам классификации типов минимальных речевых единиц, выделенных с помощью фонемной сегментации.
3. Предложен новый алгоритм оценки эффективности постановки произношения в информационных системах обучения речи, в котором на первом этапе проверяется стабильность произношения эталонных звуков, а на втором, в отличие от известных методов, оценивается точность распознавания на основе модификации метода нечеткого фонетического кодирования.
Практическая значимость обусловлена применимостью предложенных алгоритмов для повышения точности, вычислительной эффективности и затрат памяти в существующих автономных информационных и технических системах с голосовым управлением робототехникой широкого назначения («Умное здание», управление транспортным средством и т.п.). Разработанная на основе метода нечеткого фонетического кодирования информационная система может быть использована в качестве прототипа систем голосового управления персональным компьютером и систем постановки произношения, а также путем интеллектуализации существующих информационных и технических систем с помощью включения в них новых голосовых интерфейсов.
Положения, выносимые на защиту.
1. Применение операции пересечения нечетких множеств, соответствующих фрейму входной фонемы и ближайшего к ней эталонного звука в разработанном методе нечеткого фонетического кодирования приводит к снижению влияния ошибочно распознанных фреймов на итоговое решение, принимаемое при распознавании фонем.
2. Использование операции объединения нечетких множеств при редукции множества минимальных речевых единиц в предложенном методе нечеткого фонетического кодирования позволяет не допустить уменьшения степени
принадлежности распознаваемого звука в случае близости эталонных реализаций разноименных фонем.
3. Классификация типов минимальных речевых единиц в разработанном алгоритме принятия решений в автономных системах обработки речевой информации позволяет сократить число альтернативных решений на выходе алгоритма принятия решений в автономных системах обработки речевой информации.
4. Применение модификации метода нечеткого фонетического кодирования в информационных системах обучения речи позволяет снизить время постановки произношения по сравнению с известными подходами за счет более точного различения фонем на этапе оценки качества произношения.
Реализация и внедрение результатов работы. Разработанный метод нечеткого фонетического кодирования был использован в ходе выполнения Государственного контракта № 07.514.11.4137 с министерством образования и науки в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» (2012-2013 гг.), исполнитель - ЗАО «ИстраСофт» (г. Москва). Соискатель является одним из исполнителей гранта президента РФ для молодых ученых -докторов наук № МД-306.2017.9. Результаты диссертации внедрены в учебный процесс Нижегородского государственного лингвистического университета в рамках дисциплины «Новые речевые технологии».
Апробация работы. Достоверность результатов диссертации подтверждается строгостью математических постановок, анализом современного состояния исследований в области распознавания речи, а также исчерпывающим описанием проведенных экспериментальных исследований. Результаты работы представлялись на международных и всероссийских конференциях Nonlinear Speech Processing (Монс, Бельгия, 2013 г.), Rough Sets and Current Trends in Computing (Мадрид, Испания, 2014 г.), «Информационные системы и технологии» (Н. Новгород, 2013-2017 гг.), «Будущее технической науки» (Н. Новгород, 2014 г.)
«Нейроинформатика» (Москва, 2013 г.), «Нелинейная динамика в когнитивных исследованиях» (Н. Новгород, 2013, 2015 г.), «Управление большими системами» (Арзамас, 2014 г.).
Публикации. Основные результаты диссертации опубликованы в 21 работе автора, в том числе 7 - в журналах из Перечня ВАК РФ, одно свидетельство о регистрации программы для ЭВМ, 13 статей в материалах международных и всероссийских конференций. Три статьи проиндексированы Scopus и Web of Science. В работах, написанных в соавторстве, лично соискателем получены следующие результаты: в работах [82, 171] разработан метод нечеткого фонетического кодирования для задачи распознавания фонем; в работах [56, 88] разработана архитектура программной системы и выполнена программная реализация алгоритма распознавания слов; в работах [83, 172] разработан алгоритм нечеткого фонетического кодирования слов; в работе [169] проведены экспериментальные исследования алгоритма нечеткого фонетического кодирования слов; в работе [84] предложена предварительная классификация выделенных в результате фонемной сегментации звуков.
Структура и объем работы. Диссертация изложена на 176 страницах, включающих 58 рисунков, 24 таблицы и состоит из введения, четырех глав основного текста, заключения, списка используемой литературы, включающего 186 наименований, и 3 приложения.
Глава 1. Методы интеллектуализации принятия решений в голосовом интерфейсе автономных технических и информационных систем
1.1. Степень разработанности исследований в области цифровой обработки
речевых сигналов
В последнее время в связи с развитием и распространением цифровой (прежде всего, мобильной) вычислительной техники происходит постоянное расширение сферы практического применения алгоритмов обработки речевой информации [31, 125]. На рис. 1.1 представлена систематизация основных задач цифровой обработки речевой информации.
Рисунок 1.1. Систематизация задач цифровой обработки речевой информации
Распознавание личности по голосу подразделяется на два направления: идентификацию и верификацию. При верификации пользователь предъявляет в том или ином виде свой идентификатор, и система распознавания должна подтвердить или отвергнуть этот идентификатор. При этом в большинстве случаев пользователь заинтересован в подтверждении его идентификатора, и старается не вносить в речевой пароль вариаций, которые отсутствовали в период обучения на его голос [24]. При идентификации диктор не указывает своего идентификатора, и система распознавания должна установить, принадлежит ли речевой сигнал голосу одного из дикторов, прошедших обучение [42]. Важный случай идентификации состоит в определении того, принадлежат ли два речевых
сигнала голосу одного и того же диктора. Технологии идентификация и верификация личности по фонограммам речи реализованы в продуктах компании «Центр речевых технологий» (ЦРТ) из Санкт-Петербурга (http :// www. speechpro .ru/).
Шумоочистка звуковых сигналов позволяют избавляться от лишних шумов на аудиозаписях, повысить разборчивость речи и «реанимировать» архивные аудиозаписи [38, 39].
Поиск ключевых слов в медиаданных позволяет искать слова (фразы) в непрерывном речевом потоке. Такая задача часто возникает в СГУ, когда необходимо выполнить команду только после произнесения определенной фразы [47].
Распознавание эмоционального состояния говорящего необходимо при анализе его речи, которое может выявить изменение основного тона голоса, что характерно при нервозном состоянии говорящего [1, 2]. На распознавании эмоционального состояния основаны «фонетические детекторы лжи» [53, 79].
Сжатие речевой информации (вокодеры) устройства синтеза речи на основе произвольного сигнала. Изначально вокодеры были разработаны в целях экономии частотных ресурсов системы связи при передаче речевых сообщений. Экономия достигается за счёт того, что вместо собственно речевого сигнала передают только значения его определённых параметров [94]. Системы компактного описания (сжатия) речевого сигнала, сохраняющих работоспособность в естественных условиях речевых коммуникаций (наличие различных каналов передачи, шумов, неречевых акустических событий, вариативности голосов дикторов и пр.), исследуются в Вычислительном центре РАН.
Синтез речи позволяет сформировать речевой сигнал по печатному тексту. Технология синтеза речи применяется при чтения текста книг, при произношении слов в процессе перевода, при озвучивании текста на экране компьютера [16]. Многие известные компании, такие как Nuance, Google пытаются сделать
преобразованную речь неотличимой от человеческой с помощью нового искусственного интеллекта WaveNet, разработанного компанией БеерМтё. WaveNet в качестве входящих данных передает нейронной сети аудиозаписи реальных людей. WaveNet обучается соответствию текста определенным формам колебаний волны и на основании этой базы знаний формирует из текстовых отрывков отдельные звуковые волны [182].
Наконец, одной из наиболее сложных задач в области обработки речевой информации является задача автоматического распознавания речи, которая в самой общей формулировке состоит в том, чтобы распознаваемому слову (фразе) - речевому сигналу X с частотой дискретизации ¥ (Гц) - поставить в соответствие наиболее близкое слово из словаря - множества из Ь>1 эталонных слов {Х1}, где
I = 1, Ь - номер слова-эталона. Ее решение рассмотрено в многочисленных работах отечественных и зарубежных авторов [15, 59, 116, 165, 181]. Обычно каждое эталонное слово вначале разбивается на последовательность фонем
(транскрипцию) X^ = 1,^ 2,...,Г1 ц 1 [32, 59, 97]. Здесь Ц - длительность слова
(в фонемах), а числа ц ^ е {1,...,Я},I = 1,Ц - номера фонем из фонетического
алфавита, состоящего из Я фонем [78].
Рассмотрим приложения методов распознавания речи более подробно (рис.
1.2).
Приложения методов распознавания речи
Диктовка текста Поиск информации Интерактивное речевое взаимодействие Постановка произношения Построение голосового интерфейса
Рисунок 1.2. Приложения методов распознавания речи
Основное направление, которому исследователи уделяют большое внимание, - это автоматическое документирование информации путем речевого
ввода (пишущая машинка с голоса или диктовка текста). Например, известное программное решение «Диктовка» компании «Яндекс» позволяет осуществлять голосовой набор текста, набирать сообщения и создавать заметки, не касаясь виртуальной клавиатуры. Отличительной особенностью данной программы является возможность самостоятельно расставлять знаки препинания, анализируя паузы в речи диктора [54]. Разработка таких систем, помимо ряда очевидных практических преимуществ, имеет большое социальное значение: отсутствует необходимость в наличии секретаря - промежуточного (часто нежелательного) звена между автором и документом. Развитием данного направления является применение методов автоматическое транскрибирование речи [28] в средствах массовой информации, на лекциях и других системах обработки речи. Все основные подходы к распознаванию естественной речи из сверхбольших словарей, по сути, разрабатывались именно для этой задачи.
Еще одним перспективным направлением в задачах распознавания являются системы голосового поиска информации (СГПИ). Разработками таких систем занимаются крупнейшие международные корпорации (Microsoft, Google, Apple, IBM, Nuance и др.). Интересные результаты в этой области были получены лабораторией речевых и многомодальных интерфейсов Санкт-Петербургского института информатики и автоматизации РАН (СПИИРАН), которой создан экспериментальный образец системы с голосовым доступом для поиска рубрик в электронном каталоге "Желтые страницы Санкт-Петербурга" [57, 58]. Размер словаря составил около 2000 слов, а точность - 90%. Следует отметить, что подобные системы характеризуются дикторонезависимым режимом распознавания, наличием сверхбольшого словаря и не требуют автономного режима распознавания, т.к. подразумевают отправку распознанных запросов на один из поисковых серверов Интернет. В результате такие системы реализуются с использованием технологии клиент-сервер, поэтому проблема вычислительной сложности в этих системах не так остра.
Еще одним перспективным направлением является разработка систем интерактивного речевого взаимодействия таких, как автоматизированные системы массового обслуживания по телефону (контакт-центры). В случае call-центров, абонент общается с живым оператором, который в свою очередь взаимодействует с необходимыми информационными системами посредством персонального компьютера и прикладных программ. В случае автоматизированных услуг, абонент общается с системой напрямую. При этом до недавнего времени, в качестве интерфейса взаимодействия использовался только тоновый набор, т.е. абонент выслушивал предлагаемые варианты выбора, и при помощи клавиш осуществлял ввод информации со своей стороны. Очевидно, такая схема является недостаточно гибкой. Появление технологий дикторонезависимого распознавания дало возможность решению новых задач и появлению первых таких систем в России [55]. Здесь следует отметить результаты, полученные лабораторией автоматизированных систем массового обслуживания Института проблем управления РАН, которая применяет компьютерное распознавание слитной речи в системах обслуживания населения для русского языка. В качестве базовой платформы распознавания используются инструментарий SpeachPearl компании ScanSoft и программное обеспечение по распознаванию речи от Nuance Communication. В лаборатории создан голосовой интерфейс системы "Сирена", предназначенный для диспетчерской службы такси, а также пакеты распознавания речи к службам системы WebMoney [106, 107]. Преимущества систем интерактивного взаимодействия достаточно очевидны. Помимо уменьшения очереди в контакт-центрах, повышается уровень их автоматизации - требуется существенно меньше операторов для обслуживания абонентов, увеличивается их пропускная способность, что приводит к существенному снижению временных и финансовых затрат на внедрение и эксплуатацию подобного рода систем. В то время как контакт-центры получили широкое распространение, применение систем интерактивного речевого взаимодействия еще только набирает популярность. Между тем по оценкам
экспертов-авторов долгосрочного научно-технологического прогноза «Российский ИТ Foresight - 2008», системы речевого самообслуживания образуют трендовое на перспективу направление IT-разработок в мире.
Перспективным направлением является разработка систем постановки произношения (обучение речи). Задача постановки произношения представляет интерес из-за обширной сферы практического применения в различных областях (обучение иностранным языкам [3], обучение глухих людей и др.). В Московском государственном лингвистическом университете проводятся исследования по формированию банка данных словоформ русского языка в качестве базового справочного материала [49, 52]. Были разработаны правила ограниченного синтаксиса и семантики, правила формирования фонетически представленного и сбалансированного словаря. Продолжаются работы по созданию автоматизированных обучающих систем, работающих в диалоговом режиме применительно к различным иностранным языкам. В автоматизированных обучающих системах представлена фонетика, лексика и грамматика языка, являющегося объектом обучения. В подобных задачах возникает проблема вариативности устной речи для различных носителей национального языка и тесно связанная с ней проблема самостоятельной оценки обучающимся качества своего произношения [48]. Налицо очевидное противоречие в самой постановке задачи: обучаемый с недостаточной на данный момент языковой подготовкой и ограниченными возможностями в процессе самообучения должен приблизиться по своему произношению к некоторому эталону, который он слабо себе представляет.
Наконец, в последние годы активно развиваются технические информационные системы с голосовым интерфейсом. И данному процессу имеется простое объяснение: эффект от применения таких систем в самых разных областях человеческой деятельности - от военной или охранной до бытовой -намного превосходит сумму затрат на их создание и эксплуатацию. Наибольшей популярностью сегодня пользуются приложения Google Now [133] и Apple Siri
(Speech Interpretation and Recognition Interface) [145]. Система Google Now больше направлена на поиск необходимой информации в сети Интернет, а Siri - на голосовое управление личными ресурсами на мобильном телефоне. В 2014 году компания Amazon разработала электронного помощника, который помогает управлять умным домом, отвечать на вопросы и искать информацию. Примечательно то, что голосовой помощник умеет достаточно надежно отличать голос хозяина дома от шума вокруг и даже от других голосов. Менее крупные компании, такие как Abbyy, Speaktoit, Cubic Robotics, Luka, занимаются разработкой более специализированных голосовых помощников, которые позволяют заказывать товары через Интернет, вести диалог с пользователем на тему отдельно взятого бытового предмета или умного дома. Следует отметить, что для ряда систем присутствуют повышенные требования к безопасности, в которых не всегда желательно подключение к удаленному серверу в сети Интернет. Перспективным направлением в области использования систем голосового управления (СГУ) является управление движущимися объектами (самолет, корабль и др.), особенно в экстремальных условиях. В этих случаях речевое взаимодействие позволяет оператору использовать дополнительный (как правило, дублирующий) канал управления и информации в сложных ситуациях, когда его руки и ноги заняты, а зрение перегружено. В частности, с помощью речи можно осуществить резервное управление бортовым оборудованием, измерительными системами и индикаторами, а также производить запрос навигационных или иных данных и получать информацию (предупреждение) об аварийных ситуациях.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Инкорпорирование речевых компонентов в лингвистические обучающие системы2005 год, кандидат филологических наук Ордин, Михаил Юрьевич
Биометрическая идентификация пользователей информационных систем на основе кластерной модели элементарных речевых единиц2016 год, кандидат наук Васильев, Роман Александрович
Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич
Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи2006 год, кандидат технических наук Кушнир, Дмитрий Алексеевич
Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях2013 год, доктор технических наук Карпов, Алексей Анатольевич
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Савченко, Людмила Васильевна
Заключение
В диссертационном исследовании получены следующие результаты:
1. На основе системного подхода сформулирован целевой критерий оценки эффективности методов принятия решений в системах обработки речевой информации. С использованием этого критерия проведена систематизация методов реализации голосового интерфейса в автономных информационных и технических системах, функционирующих на малопроизводительном оборудовании. По результатам систематизации выделен один из наиболее эффективных способов реализации пофонемного распознавания речи - метод фонетического кодирования слов, основанный на теоретико-информационном подходе.
2. Для преодоления недостатков метода фонетического кодирования слов предложен новый метод распознавания фонем, основанный на применении системного подхода, теории нечетких множеств и асимптотических свойствах информационного рассогласования Кульбака-Лейблера. Экспериментально показано, что применение предложенного метода нечеткого фонетического кодирования позволяет на 10-15% снизить вероятность ошибочного распознавания гласных фонем.
3. Разработан новый алгоритм принятия решений в автономных системах обработки речевой информации на основе метода нечеткого фонетического кодирования для классификации гласных фонем в слоге и редукции множества минимальных речевых единиц, в котором степени принадлежности модифицируются на основе классификации выделенных с помощью фонемной сегментации согласных звуков. Проанализированы его вычислительная эффективность и сложность по затратам памяти. Экспериментально показано, что разработанный алгоритм позволяет на 2-5% повысить точность распознавания устной речи по сравнению с известными подходами.
4. На основе модификации метода нечеткого фонетического кодирования предложен новый алгоритм оценки эффективности постановки произношения для информационных систем обучения речи, в котором не только достигается стабильное произношение эталонных звуков, но и проверяется их различимость относительно друг друга. Экспериментально показано, что такой подход обеспечивает на 5-10% более высокую точность тестирования качества произношения по сравнению с известными системами обучения речи.
5. Разработанные алгоритмы реализованы в виде информационной системы интеллектуальной поддержки принятия решений для обработки речевой информации. С ее помощью исследована эффективность предложенных алгоритмов в задачах распознавания устной речи для русского языка.
6. Экспериментально показано, что предложенные алгоритмы позволяют повысить точность и вычислительную эффективность принятия решений в автономных системах обработки речевой информации по сравнению с традиционными методами, основанными на скрытых марковских моделях и глубоких нейронных сетях. Отмечено, что разработанные алгоритмы могут успешно применяться не только совместно с рассогласованием Кульбака-Лейблера, но и с другими мерами близости и признаками речевого сигнала.
Применение теории нечетких множеств в задачах автоматического распознавания речи обычно связывают с формированием акустической модели каждой фонемы как нечеткого множества признаков [27, 109]. В противоположность такому походу в настоящей диссертационной работе предложен принципиально новый метод нечеткого фонетического кодирования, в котором фонетическая база данных состоит из нечетких множеств эталонных фонем (минимальных речевых единиц). Все разработанные автором методы и алгоритмы принятия решения и обработки информации были реализованы в информационной системе интеллектуальной поддержки принятия решений, которая может применяться в качестве прототипа при интеллектуализации интерфейса голосового управления робототехникой широкого назначения: в
системах «Умный дом», управлении автомобилем (взаимодействие водителя и пассажиров с мультимедийной и навигационной системой, которое снижает аварийную опасность), управлении движущимися объектами (самолет, корабль и др.), телефоном (совершать звонки, прослушивать, записывать и отправлять сообщения, задавать маршрут встроенной навигационной системы, проигрывать музыкальные композиции, получать информацию о погоде, спорте и т.п.), заказе такси и лекарств по телефону. Преимущества разработанной информационной системы особенно заметны при ее использовании на малопроизводительном оборудовании в автономном режиме (без доступа к сети Интернет), т.к. по сравнению с традиционными методами интеллектуализации принятия решений в голосовых интерфейсах, реализованные алгоритмы не требует большого объема памяти для хранения акустической модели и позволяет распознавать команды к режиме квази-реального времени.
Список литературы диссертационного исследования кандидат наук Савченко, Людмила Васильевна, 2017 год
Список литературы
1. Алешин, Т.С. Распознавание эмоций по речевому сигналу с помощью функций модуляционной теории звуковых сигналов / Т.С. Алешин // Евразийский союз ученых.- 2016. № 4-2 (25).- С. 23-26.
2. Асташов, Р.А. Алгоритм детектирования эмоций по речевому сигналу / Р.А. Асташов, А.Н. Голубинский // в сб. трудов международной научно-практической конференции «Охрана, безопасность, связь», г. Воронеж.- 2015.- С. 43-48.
3. Ахмедова М.М. Методика обучения произношению иностранного языка / М.М. Ахмедова, М.И. Рахимова, Ф.Э. Отамуродова // Наука и Мир.- 2016.- Т.- 3.- № 6 (34) .- С. 52-53.
4. Бабин, Д.Н. Проблемы создания автоматического распознавателя слитной устной русской речи / Д.Н. Бабин, И.Л. Мазуренко, А.Б. Холоденко // Интеллектуальные системы в производстве.- 2003. - №1.- С. 4-23.
5. Бабин, Д.Н. О перспективах создания системы автоматического распознавания слитной устной русской речи / Д.Н. Бабин, И.Л. Мазуренко, А.Б. Холоденко // Интеллектуальные системы.- 2004.- Т.8. Вып. 1-4.- С. 45-70.
6. Беллман, Р. Прикладные задачи динамического программирования / Р. Беллман, С. Дрейфус .-М.: Наука, 1965.- 460 с.
7. Бондаренко, И.Ю. Анализ эффективности метода нечеткого сопоставления образов для распознавания изолированных слов / И.Ю. Бондаренко, О.И. Федяев // в сб. трудов VI международной научной конференции «Интеллектуальный анализ информации» (ИАИ2006), г. Донецк.- 2006.- С 20-27.
8. Васильев, Е.М. Система распознавания фонетических образов на основе нейросетевой модели восприятия речи / Е.М. Васильев, В.В. Меренков // Вестник Воронежского государственного технического университета.- 2009.- № 10.- С. 130-134.
9. Винцюк, Т. К. Распознавание слов устной речи методами динамического программирования / Т. К. Винцюк // Кибернетика.- 1968.- №1.- С. 15-22.
10. Винцюк, Т.К. Анализ, распознавание и интерпретация речевых сигналов / Т. К. Винцюк.- Киев: Навукова думка, 1987.- 264 с.
11. Гаврилов, А.В. Архитектура гибридной системы управления мобильного робота / А.В. Гаврилов, В.В. Губарев, К.Х. Джо, Х.Х. Ли // Научный вестник НГТУ.-
2004.- № 2.- С. 2-12.
12. Гайдес, М.А. Общая теория систем (системы и системный анализ) / М.А. Гайдес. - Винница: Глобус-пресс, 2005. - 201 с.
13. Галунов, В.И. Современные проблемы в области распознавания речи / В.И. Галунов, А.Н. Соловьев // Информационные технологии и вычислительные системы.- 2004.- Вып. 2.- С.41-45.
14. Герасимов, А.В. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов / А.В. Герасимов, О. А. Морозов, В.Р. Фидельман // Радиотехника и электроника.-
2005.- №8.- С. 1287-1291.
15. Герасимов, А.В. Применение метода модифицированного линейного предсказания для устойчивого акустического кодирования речи / А.В. Герасимов, О.А. Морозов, Е.А. Солдатов, В.Р. Фидельман // Радиофизика.- 2006.- №7.- С. 593-598.
16. Гущина, А.А. Обобщенная математическая модель речевого сигнала для задач анализа и синтеза речи / А. А. Гущина, А.Н. Голубинский // Системы управления и информационные технологии.- 2014.- Т. 55.- №1.1.- С. 131-135.
17. Гущина, А. А. О распознавании сонорных согласных звуков /А. А. Гущина, А.Н. Голубинский // в сб. трудов международной научно-практической конференции «Охрана, безопасность, связь», г. Воронеж.- 2015.- С. 117-120.
18. Десятчиков, А.А. Комплекс алгоритмов для устойчивого распознавания человека / А. А. Десятчиков, Д.В. Ковков, В.В Лобанцов, К. А. Маковкин, И. А. Матвеев, А.Б. Мурынин, В.Я. Чучупал // Известия Российской академии наук. Теория и системы управления.- 2006.- Т. 6.- С.119-130.
19. Дорохин, О.А. Сегментация речевого сигнала / О.А. Дорохин, Д.Г. Старушко, Е.Е. Федоров, В.Ю. Шелепов // Искусственный интеллект.- 2000.- № 3.- C. 450458.
20. Дорохина, Г.В. Методы пофонемного распознавания, использующие свойства языка и речи / Г.В. Дорохина // Искусственный интеллект.- 2008.- № 4.- C. 332338.
21. Ессин, А.С. Технология обработки аэрофотоснимков, полученных
с БПЛА, в целях создания ортофотопланов / А.С. Ессин, С.С. Ессин // ГЕО-Сибирь-2009. Материалы V Международной научной конференции. Новосибирск.- 2009.- Т. 4.- ч. 1.- С. 72-75.
22. Ерош, И.Л. Программная реализация методов обработки и анализа аэрофотоснимков / И.Л. Ерош, И.Г. Гладкова, Н.В. Соловьев // В сб. Теория и практика создания систем технического зрения.- 1990.-С. 64-67.
23. Загоруйко, Н.Г. Прикладные методы анализа данных и знаний / Н.Г. Загоруйко.-Новосибирск: Изд-во Института математики, 1999.- 270 с.
24. Замалиев, А.И. Текстозависимая идентификация и верификация диктора по голосу в системе контроля и управления доступом / А.И. Замалиев, А.П. Кирпичников, С.А. Ляшева, М.П. Шлеймович // Вестник Казанского технологического университета.- 2016. Т. 19.- № 17.- С. 138-143.
25. Иванько, Д.В. Анализ методов многомодального объединения информации для аудиовизуального распознавания речи / Д.В. Иванько, И.С. Кипяткова, А.Л. Ронжин, А.А. Карпов // Иванько Д.В., Кипяткова И.С., Ронжин А.Л., Карпов А.А. Научно-технический вестник информационных технологий, механики и оптики.-2016.- Т. 16.- № 3.- С. 387-401.
26. Иконин, С.Ю. Система автоматического распознавания речи SPIRIT ASR Engine / С.Ю. Иконин, Д.В. Сарана // Цифровая обработка сигналов.- 2003.- №4.- С. 513.
27. Каргин, А.А. Применение нечеткой логики в системах фонологической классификации звуков речи / А.А. Каргин,Т.В. Шарий // Искусственный интеллект.- 2010.- №3.- С. 210-219.
28. Кипяткова, И.С. Разработка и оценивание модуля транскрибирования для распознавания и синтеза русской речи / И.С. Кипяткова, А.А. Карпов // Искусственный интеллект.- 2009.- №3.- С.178-185.
29. Кипяткова, И.С. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи / И.С. Кипяткова, А.А. Карпов // Информационно-управляющие системы.- СПб.-2010.- № 4(47).- С. 2-8.
30. Кипяткова, И.С. Аналитический обзор систем распознавания русской речи с большим словарем / И.С. Кипяткова, А.А. Карпов // Труды СПИИРАН.- 2010.-№12.- С. 7-20.
31. Кнеллер, Э.Г. Инновационные исследования в распознавании речи и их коммерциализация / Э.Г. Кнеллер // Первая межд. конф. Сколково: Санкт-Петербург, 2011[Электронный ресурс].- URL: http://www.istrasoft.ru/ru/tehnologii/innovacionnye-issledovanija-v-raspoznavanii-rechi-i-ih-kommercializacija.html (дата обращения: 09.02.2016).
32. Козлов, А.В. Система пофонемного распознавания отдельно произносимых слов / А.В. Козлов, Г.В. Саввина, В.Ю. Шелепов // Искусственный интеллект.- 2003.-№ 1.- С. 156-165.
33. Колоколов, А.С. Предварительная обработка и сегментация речевого сигнала в частотной области для распознавания речи / А.С. Колоколов // Автоматика и телемеханика.- 2003.- № 6.- С. 152-160.
34. Коньков, Е.А. Применение меры Кульбака-Лейблера для оценивания моментов изменения статистических свойств двоичного марковского процесса /Е.А. Коньков, О. А. Морозов, Е.А. Солдатов, В.Р. Фидельман // Радиотехника и электроника.- 2007.- Т. 52.- № 12.- С. 1458-1462.
35. Королев, А.И. Использование графических процессоров мобильных устройств для решения задачи распознавания речи и биометрических признаков человека / А.И. Королев, К.Б. Фирун // Информация и космос.- 2013.- № 3-4.- С. 54-63.
36. Корсун, О.Н. Экспериментальное исследование влияния акустических помех разных видов на результаты автоматического распознавания речевых команд / О.Н. Корсун, И.М. Финаев, В.Я. Чучупал, А. А. Яцко // Наука и образование.-2013.- №1.- С. 103-114.
37. Кофман, А. Введение в теорию нечетких множеств / А. Кофман.- М: Радио и связь, 1982.- 432 с.
38. Крашенинников, В.Р. Некоторые задачи, связанные с распознаванием речевых команд на фоне интенсивных шумов / В.Р. Крашенинников, А.И. Армер, Н.А. Крашенинникова, В.В. Кузнецов, А.В. Хвостов // Инфокоммуникационные технологии.- 2008.- Т. 6.- № 1.- С.72-75.
39. Крылова, А.А. Шумоочистка голосовых сигналов / А.А. Крылова // Фундаментальные и прикладные исследования в современном мире.- 2016.-№ 13-1.- С. 84-86.
40. Левин, Е.К. Оценка вероятности ложного срабатывания системы автоматического распознавания голосовых команд / Е.К. Левин, П.С. Рагузин, М.Ю. Татарникова // Научно-технические ведомости СПбГПУ. Сер. Информатика. Телекоммуникации. Управление .-2011.- № 5.- С. 7-12.
41. Лобанов, Б.М. Компьютерный синтез и клонирование речи / Б.М. Лобанов, Л.И. Цирульник.- Издательство: Белорусская наука, 2008.- 344 с.
42. Матвеев, Ю.Н. Исследование информативности признаков речи для систем автоматической идентификации дикторов / Ю.Н. Матвеев // Известия высших учебных заведений. Приборостроение.- 2013.- Т. 56. № 2.- С. 47-51.
43. Марпл С.Л.-мл. Цифровой спектральный анализ и его приложения / С.Л. Марпл-мл.- М.: Мир.- 1990.- 584 с.
44. Морозов, О.А. Применение теоретико-информационного подхода для обучения многослойного персептрона в задаче распознавания фонем / О.А. Морозов, П.Е. Овчинников, Ю.А. Семин, В.Р. Фидельман // Вестник Нижегородского университета им. Н.И. Лобачевского.- 2010.- № 5-2.- С. 354-357.
45. Морозов, О.А. Применение теоретико-информационного подхода в задаче обучения многослойного персептрона / О.А. Морозов, П.Е. Овчинников, Ю.А. Семин, В.Р. Фидельман // Нейрокомпьютеры: разработка, применение.- 2011.-№ 3.- С. 29-33.
46. Мясников, Л.Л. Автоматическое распознавание звуковых образов / Л.Л. Мясников, Е.Н.Мясникова.- Издательство: Энергия, 1970.- 183 с.
47. Ночевнов, Д.П. Комбинированный метод индексации и классификации мультимедиа / Д.П. Ночевнов, Л.Э. Серкова // Восточно-Европейский журнал передовых технологий.- 2008.- Т. 3.- № 3 (33).-С. 7-12.
48. Попова М.И. Обучение студентов языкового вуза иноязычной письменной речи на основе информационных технологий / М.И. Попова // Наука и образование.-2011.- № 4.- С. 85-89.
49. Потапова, Р. К. О типологических особенностях слога. Распознавание образов: теория и приложения / Р. К. Потапова.- М.: Наука, 1977. - С.60-67.
50. Потапова, Р. К. Речь: коммуникация, информатика, кибернетика / Р. К. Потапова.- М.: Радио и связь, 2003.- 563 с.
51. Потапова, Р.К. Перспективы развития прикладного речеведения / Р. К. Потапова // Речевые технологии.- 2008.- №1.- С. 5-17.
52. Потапова, Р.К. Основные тенденции многоязычной корпусной лингвистики / Р. К. Потапова // Речевые технологии.- 2009.- № 2.- С. 92-114.
53. Система анализа речи от Nemesysco [Электронный ресурс].- URL: http://nemesysco.com/speech-analysis-technology (дата обращения: 11.01.2017).
54. Система диктовки текста от Яндекс [Электронный ресурс].- иЯЬ: https://xplayon.com/aplications/item/yandeksdiktovka.html (дата обращения: 08.06.2017).
55. Программный комплекс голосового самообслуживания для автоматической передачи показаний приборов учета в ресурсоснабжающие организации / Свид-во о гос. регистрации программы для ЭВМ №2009616508 / Савченко А.В, Карпов Н.В; заявитель и патентообладатель ООО "Эффективная энергетика".- Свид-во о гос. регистрации № 2014616594; заявл. 12.03.2014; опубл. 27.06.2014.
56. Программный комплекс для распознавания русской речи на основе нечеткого фонетического декодирования слов / Свид-во о гос. регистрации программы для ЭВМ №2014618759 / Л.В. Савченко, Д.Ю. Акатьев; заявитель и патентообладатель Савченко Л.В.- №2014614360; заявл. 12.05.2014; опубл. 28.08.2014.
57. Ронжин, А.Л. Многомодальная система для бесконтактной работы с персональным компьютером / А.Л. Ронжин, А.А. Карпов // Информационно-управляющие системы.- 2006.- №4.- С.33-35.
58. Ронжин, А.Л. Фонетико-морфологическая разметка речевых корпусов для распознавания и синтеза русской речи / А. Л. Ронжин, А. А. Карпов, Б.М. Лобанов, Л.И. Цирульник, О. Йокиш // Информационно-управляющие системы.- 2006.-№6.- С. 24-34.
59. Ронжин, А.Л. Автоматическое распознавание русской речи / А.Л. Ронжин, И.В. Ли // Вестник Российской академии наук.- 2007.- Т.77.- №2. С. 133-138.
60. Ронжин, А.Л. Анализ вариативности спонтанной речи и способов устранения речевых сбоев / А.Л. Ронжин, К.В. Евграфова // Известия высших учебных заведений. Серия: Гуманитарные науки .-2011.- Т.2 №3.- С. 227-231.
61. Рутковский, Л. Методы и технологии искусственного интеллекта / Л. Рутковский.- М.: Горячая линия - Телеком, 2010.- 520 с.
62. Савченко, А.В. Трехпороговая система автоматического распознавания изображений / А.В. Савченко // Искусственный интеллект и принятие решений.-2011.- № 4.- С. 102-109.
63. Савченко, А.В. Адаптивный алгоритм распознавания речи на основе метода фонетического декодирования слов в задаче голосового управления / А.В. Савченко // Информационные технологии.- 2013.- №4.- С. 34-39.
64. Савченко, А.В. Результаты натурных испытаний метода фонетического декодирования слов в задачах распознавания и диаризации русской речи / А.В. Савченко // Информационные системы и технологии.- 2013.- №1.- С. 12-21.
65. Савченко, А. В. Метод фонетического кодирования в задаче распознавания изолированных слов / А.В. Савченко // Радиотехника и электроника.- 2014.- Т. 59.- № 4.- С. 339-345.
66. Савченко, В.В. Различение случайных сигналов в частотной области / В.В. Савченко // Радиотехника и электроника.- 1997.- Т.42.- №4.- С. 426-431.
67. Савченко, В.В. Информационная теория восприятия речи / В.В. Савченко // Известия вузов России. Радиоэлектроника.- 2007.- №6.- С.3-9.
68. Савченко, В.В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра / В.В. Савченко, Д. Ю. Акатьев, Н. В. Карпов // Известия вузов. Радиоэлектроника.- 2007.- Вып.4.- С.11-19.
69. Савченко, В.В. Теоретико-информационное обоснование гауссовской модели сигналов в задачах автоматического распознавания речи / В.В. Савченко // Изв. вузов России. Радиоэлектроника.- 2008.- Вып. 1.- С. 24-33.
70. Савченко, В.В. Фонема как элемент информационной теории восприятия речи / В.В. Савченко // Известия вузов России. Радиоэлектроника.- 2008.- Вып.4.- С. 311.
71. Савченко В.В. Информационная теория обучения речи / В.В. Савченко // Известия вузов России. Радиоэлектроника.- 2009.- №3.- С.3-12.
72. Савченко В.В. Метод фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума
информационного рассогласования / В.В. Савченко // Известия вузов. Радиоэлектроника.- 2009.- Вып.5.- С.31-41.
73. Савченко В.В., Акатьев Д.Ю. Обучение звуковому строю языка глухонемых и слабослышащих на основе информационной теории восприятия речи / В.В. Савченко, Д.Ю. Акатьев // Информационные технологии.- 2010.- № 2.- С. 60- 66.
74. Савченко, В.В. Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака-Лейблера / В.В. Савченко // Известия вузов России. Радиоэлектроника.- 2011.-Вып. 3.- С. 9-19.
75. Савченко, В.В. Результаты экспериментальных исследований методики формирования фонетической базы данных диктора из непрерывного потока его разговорной речи / В.В. Савченко, Д.Ю. Акатьев // Информационно-управляющие системы. 2012. № 6 (61). С. 38-42.
76. Савченко, В.В. Обнаружение и исправление ошибок в задачах автоматического распознавания речи на основе принципа минимума информационного рассогласования / В.В. Савченко // Известия вузов России. Радиоэлектроника.-2012.- Вып. 2.- С. 47-55.
77. Савченко В.В. Решение проблемы ложных тревог в системах голосового управления на основе метода фонетического декодирования слов / В.В. Савченко // Изв. вузов России. Радиоэлектроника.- 2012.- Вып. 6.- С. 11-17.
78. Савченко, В. В. Метод фонетического декодирования слов в информационной метрике Кульбака-Лейблера для систем автоматического анализа и распознавания речи с повышенным быстродействием / В. В. Савченко, А. В. Савченко // Информационно-управляющие системы.- 2013.- №2. С. 7-12.
79. Савченко, В. В. Анализ эмоционального состояния диктора по голосу на основе фонетического детектора лжи / Савченко В. В., Васильев Р.А. // Научные ведомости Белгородского государственного университета. Серия: Информатика, прикладная математика и управление.- 2014.- Т. 32.- № 21-1 (192).- С. 186-195.
80. Савченко, В. В. Принцип минимума информационного рассогласования в задаче спектрального анализа случайных временных рядов в условиях малых выборок наблюдений / В.В. Савченко // Информационно-управляющие системы.- 2015.-Т.58.- №5. С. 415-422.
81. Савченко В.В. Распознавание речи на фоне шума методом фонетического декодирования слов / В.В. Савченко // Телекоммуникации.- 2016.- № 9.- С. 9-16.
82. Савченко, Л.В. Алгоритм автоматического распознавания фонем на основе логики нечетких множеств в информационной метрике Кульбака-Лейблера / Л.В. Савченко, А.В. Савченко // Вестник компьютерных и информационных технологий.- 2013.- №3.- С. 36-41.
83. Савченко, Л.В. Анализ алгоритма нечеткого кодирования-декодирования в задаче дикторонезависимого распознавания изолированных слов с автоматически формируемой фонетической базой данных / Л. В. Савченко, Д.Ю. Акатьев // Международная научно-техническая конференция "Информационные системы и технологии".- 2013.- С. 375.
84. Савченко, Л.В. Выделение признаков речевого сигнала на основе теории приближенных множеств в методе нечеткого фонетического декодирования слов / Л.В. Савченко, Д.Ю. Акатьев // Всероссийская конференция «Нелинейная динамика в когнитивных исследованиях-2013».- 2013.- С. 148-151.
85. Савченко Л.В. Автоматическое распознавание изолированных слов на основе теории нечетких множеств и кластерной модели минимальных речевых единиц / Л.В. Савченко // Информационные технологии.- 2014.- №2.- С.9-13.
86. Савченко, Л.В. Алгоритм пофонемного распознавания устной речи на основе метода нечеткого фонетического кодирования-декодирования слов / Л.В. Савченко // Информационно-управляющие системы.- 2014.- №1.- С. 23-31.
87. Савченко Л.В. Результаты экспериментального исследования метода нечеткого фонетического кодирования-декодирования в задаче распознавания изолированных слов / Л.В. Савченко // Системы управления и информационные технологии.- 2014. - №2.1(56).- С. 173-177.
88. Савченко, Л.В. Автоматизированная система голосового управления на основе метода нечеткого фонетического кодирования слов/ Л.В. Савченко, Д.Ю. Акатьев // Системы управления и информационные технологии.- 2015.- №4.1(62).- С. 150-154.
89. Савченко, Л.В. Оценка качества произношения на основе метода нечеткого фонетического кодирования / Л.В. Савченко // Телекоммуникации.- 2017.- № 5. -С. 42-48.
90. Савченко, Л.В. Системный подход к принятию решений и обработке речевой информации на основе метода нечеткого фонетического кодирования / Л.В. Савченко // Вестник Воронежского государственного технического университета.- 2017.- Т. 13.- № 4.- С. 60-64.
91. Садовский, В. Н. Системный подход и общая теория систем: статус, основные проблемы и перспективы развития / В. Н. Садовский. - М.: Наука, 1980.
92. Системы обучения речи серии "Профессор Хиггинс" [Электронный ресурс].-URL: http://www.istrasoft.ru. (дата обращения: 11.08.2015).
93. Система интерактивного речевого взаимодействия от «ЦРТ» Voice Navigator [Электронный ресурс].- URL: http://www.speechpro.ru/product/recognition/platform/vn (дата обращения: 09.08.2015).
94. Соболев, В.Н. Эффективность блочного кодирования конечных разностей сигналов параметров вокодера / В.Н. Соболев // T-Comm: Телекоммуникации и транспорт.- 2013.- Т. 7.- № 5.- С. 49-53.
95. Сорокин, В.Н. Сегментация и распознавание гласных / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы.- 2004.- Т.4. - № 2.- C.202-220.
96. Сорокин, В.Н. Моторная теория восприятия речи и теория внутренней модели / В.Н. Сорокин // Информационные процессы.- 2007.- Т.7.-№1. С. 1-12.
97. Сорокин, В.Н. Фундаментальные исследования речи и прикладные задачи речевых технологий / В.Н. Сорокин // Речевые технологии.- 2008.- №1.- С. 18-48.
98. Сорокин, В.Н. Распознавание личности по голосу: аналитический обзор / В.Н. Сорокин, В.В. Вьюгин, А.А. Тананыгин // Информационные процессы.- 2012.- Т. 12, № 1.- С. 1-30.
99. Среда разработки C# [Электронный ресурс].- URL: http://www.icsharpcode.net/OpenSource/SD/Download/ (дата обращения: 10.01.2014).
100. Среда разработки Scilab [Электронный ресурс].- URL: http://www.scilab.org (дата обращения: 16.03.2016).
101. Тампель, И.Б. Автоматическое распознавание речи / И.Б. Тампель, А.А. Карпов // Учебное пособие.- СПб: Университет ИТМО.- 2016. - 138 с.
102. Толчеев, В.О. Систематизация, разработка методов, коллективов решающих правил для классификации библиографических текстовых документов / В.О. Толчеев // дис. ... докт. техн. наук: 05.13.01: защищена 08.10.2009.- М., 2009.- 355 с.
103. Трунин-Донской, В. Н. , Цемель Г. И. Опознавание гласных звуков по клиппированному речевому сигналу / В. Н. Трунин-Донской, Г. И. Цемель // Проблемы передачи информации.- 1968.- Т.4.- №2.- C. 62-71.
104. Устройство для фонетического анализа и распознавания речи : пат. 111944 Рос. Федерация :МПК7 G 10 L 15/00 / Савченко А.В., Савченко В.В., Акатьев Д.Ю. ; заявитель и патентообладатель Савченко А.В.- № 2011125526/08; заявл. 21.06.2011 ; опубл. 27.12.2011, Бюл. №36.
105. Устройство для обучения разговорной (устной) речи с визуальной обратной связью: пат. на полезную модель № W02016053141 A1 / Э.Г. Кнеллер, Д.В. Караульных / Роспатент: по заявке PCT/RU2015/000583 от 17.09.2015.
106. Фархадов, М.П. Распознавание речи в системах массового обслуживания населения / М.П. Фархадов // Труды СПИИРАН.- 2011.- №4(19).- С. 65.
107. Фархадов, М.П. Архитектура и характеристики систем распознавания речи / Фархадов М.П., Петухова Н.В., Васьковский С.В., Смирнов В.А. // Нейрокомпьютеры: разработка, применение.- 2013. №12.- C. 22-30.
108. Федяев, О.И. Согласование решений сегментного и целостного каналов в двухканальной модели речевого управления / О.И. Федяев, С.А. Гладунов, И.Ю. Бондаренко // Научн. тр. Донецкого национального технического университета, серия Проблемы моделирования для автоматизированных процессов (МАП-2006),- Вып. 5(116), - Донецк: ДонНТУ, 2006.- С.137-145.
109. Федяев, О.И. Нечеткое сопоставление образов с оптимальным временным выравниванием для однодикторного и многодикторного распознавания изолированных слов / О.И. Федяев, И.Ю. Бондаренко // Научн. тр. Донецкого национального технического университета, серия Информатика, кибернетика и вычислительная техника (ИКВТ-2007), Вып. 8(120),- Донецк: ДонНТУ, 2007.- С. 273-281.
110. Хайкин, С. Нейронные сети: полный курс / С. Хайкин.- М.: Вильямс, 2006.1104 с.
111. Харламов, А.А. Распознавание речи на основе динамических нейронных сетей, управляемых механизмом внимания / А.А. Харламов, А.Е. Ермаков // Информационные технологии.- № 9.- 1997.- С. 22- 27.
112. Харламов, А. А. Распознавание ключевых слов в потоке слитной речи на основе нейросетевых технологий / А.А. Харламов, Э.Г. Кнеллер // Нейрокомпьютеры. Разработка и применение.- № 8-9.- 2005.- С. 88 - 97.
113. Цыплихин, А.И. Сегментация речи на кардинальные элементы / А.И. Цыплихин, В.Н. Сорокин // Информационные процессы.- 2006.- Т.6.- №3.- С. 177-207.
114. Чистиков, П.В. Автоматическое определение границ предложений в потоковом режиме в системе распознавания русской речи / П.В. Чистиков, О.Г. Хомицевич // Вестник Московского государственного технического университета им. Н.Э. Баумана. Серия: Приборостроение.- 2011.- №5.- С. 115-123.
115. Чораян, О.Г. Естественный интеллект (физиологические, психологические и кибернетические аспекты): Учебное пособие для студентов ВУЗов / О.Г. Чораян .- Ростов-на-Дону, 2002.- 97 с.
116. Чучупал, В.Я. Выделение незнакомых слов и акустических событий при распознавании речи / В.Я. Чучупал // Сб.: Модели методы, алгоритмы и архитектуры систем распознавания речи.- М.: ВЦ РАН.- 2006.- С.- 96-118.
117. Шанский, Н.М. Современный русский язык в 3-х частях. Ч-1. / Н.М. Шанский, Иванов В.В.- М.: «Просвещение», 1987.- 192 с.
118. Шелепов, В.Ю. Построение системы голосового управления компьютером на примере задачи набора математических формул / В.Ю. Шелепов, А.В. Ниценко, А.В. Жук // Искусственный интеллект.- 2010.- №3.- С. 259-267.
119. Шелепов, В.Ю. Новый подход к определению границ речевого сигнала. Проблемы конца сигнала / В.Ю. Шелепов, А.В. Ниценко // Речевые технологии.-2012.- №1.- С. 74-79.
120. Шелепов, В.Ю. Сегментация речевого сигнала на основе предположения о его фонетическом составе / В.Ю. Шелепов, А.В. Ниценко// Проблемы искусственного интеллекта.- 2016.- № 1 (2).- С. 73-81.
121. Anusuya, M.A. Speech recognition by Machine: A Review/ M.A. Anusuya, S.K. Katti // International Journal of Computer Science and Information Security.- 2009.- Vol. 6.-№3.- P. 721-743.
122. Baker, J.K. Stochastic modeling for automatic speech understanding // Speech Recognition ed.: D.R. Reddy / J.K. Baker.- New York.: Academic Press.- 1975. - P. 521-542.
123. Basseville, M. Distance measures for signal processing and pattern recognition / M. Basseville // Signal Processing.- 1989.- Vol. 18.- P. 349-369.
124. Baum, L.E. An inequality with applications to statistical estimation for probabilistic function of a Markov processed a model for ecology / L.E. Baum, J.A. Egon // Bull. Amer. Meteorol.- 1967.- Vol.73.- P.360-363.
125. Benesty, J. Springer handbook of speech recognition / J. Benesty, M. Sondh, Y. Huang // New York: Springer, 2008.- 1176 p.
126. Benzeghiba, M. Automatic speech recognition and speech variability: A review / M. Benzeghiba // Speech Communication.- 2007.- Vol. 49. Issue 10-11.- Р. 763-786.
127. Bezdek, J.C. Pattern recognition with fuzzy objective function algorithms / J.C. Bezdek.- New York: Plenum Press, 1981.- 272 p.
128. CMU Sphinx open source toolkit for speech recognition [Электронный ресурс].-URL: http://cmusphinx.sourceforge.net (дата обращения: 10.09.2015).
129. Cornelis, C. A Noise-tolerant Approach to Fuzzy-Rough Feature Selection / C. Cornelis, R. Jensen // Proceedings of the 17th International Conference on Fuzzy Systems.- 2008.- P. 1598-1605.
130. Crestani, F. Word recognition errors and relevance feedback in spoken query processing / F. Crestani F // Proceedings of the 2000 Flexible Query Answering Systems.- 2000.- P. 267-281.
131. Ding, I.J. Speech recognition using variable-length frame overlaps by intelligent fuzzy control / I.J. Ding // Journal of Intelligent and Fuzzy Systems.- 2013.- Vol.25 № 1.-P. 49-56.
132. Discrete speech recognition system with ballooning active grammar : pat. 6301560 US : МПК7 G 10 L 15/22 / Masters S.P. ; Assignee: Microsoft Corporation.- Pub. Date 09.10.2001
133. Google Now open source toolkit for speech recognition [Электронный ресурс].-URL: https://www.appannie.com/apps/google-play/app/com.google.android.launcher/ (дата обращения: 11.10.2015).
134. Graves, A. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks / A. Graves, S. Fernández, F. Gomez // Proceedings of the International Conference on Machine Learning (ICML).- 2006.- P. 369-376.
135. Graves, A. Hybrid speech recognition with deep bidirectional LSTM / A. Graves, N. Jaitly, A. Mohamed //Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on.- IEEE.- 2013.- С. 273-278.
136. Graves, A. Speech recognition with deep recurrent neural networks / A. Graves, A. Mohamed, G. Hinton //Acoustics, speech and signal processing (ICASSP), 2013-IEEE.- 2013.- P. 6645-6649.
137. Grzymala-Busse, J.W. A system for learning from examples based on rough sets (LERS) Slowinski R. (ed.) / J.W. Grzymala-Busse // Intelligent Decision Support: Handbook of Application and Advances of the Rough Sets Theory, Kluwer Academic Publishers, Dordrecht.- 1992.- P. 3-18.
138. Haider, T. A Fuzzy Approach to Energy Optimized Routing for Wireless Sensor Network / T. Haider, M. Yusuf // The international Arab Journal of Information Technology.-2009.- Vol.6 № 2.- P. 179-188.
139. Halavati, R. A novel Fuzzy approach to speech recognition / R. Halavati, S.B. Shouraki, M. Eshraghi // Proceedings of the 4th International Conference on Hybrid Intelligent Systems.- 2004.-P. 340-345.
140. Halavati, R. Recognition of human speech phonemes using a novel fuzzy approach / R. Halavati, S.B. Shouraki, S.H. Zadeh // Applied Soft Computing.- 2007.- Vol. 7 Issue 3.- P. 828-839.
141. Hill, J.E. The Minimum of n Independent Normal Distributions[Электронный ресурс] / J.E. Hill.- 2011.- 8 p.- URL: http://www.untruth.org/~josh/math/normal-min.pdf (дата обращения: 16.02.2015).
142. Hinton, G. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups / G. Hinton, L. Deng , Y. Dong, G.E. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath, B. Kingsbury // Signal Processing Magazine, IEEE.- 2012.- Vol. 29 Issue 6.- P.82-97.
143. Hochreiter, S. Long Short-Term Memory / S. Hochreiter, J. Schmidhuber // Neural Computation.- 1997.- Vol. 9, № 8.- P. 1735-1780.
144. Huijbregts, M. Annotation of heterogeneous multimedia content using automatic speech recognition / Huijbregts M., R. Ordelman, F. Jong // Proceedings of the second International Conference on Semantics And digital Media Technologies (SAMT), LNCS.- 2007.- P. 78-90.
145. Intelligent automated assistant : pat. 0016678 US :МПК6 G 10 L21/00 // Gruber T., Cheyer A., Kittlaus D., Guzzoni D., Brigham C., Giuli R., Bastea-Forte M., Saddler H. ; Assignee: Apple Inc.- Pub. Date 19.01.2012.
146. Itakura, F. An analysis-synthesis telephony based on the maximum likelihood method / F. Itakura, S. Saito // Proceedings of the International Congress on Acoustics.-1968.- c-5-5.- P. 17-20.
147. Itakura, F. Minimum prediction residual principle applied to speech recognition / F. Itakura //IEEE Transactions on Acoustics, Speech, and Signal Processing.- 1975.- T. 23.- №. 1.- C. 67-72.
148. Janakiraman, R. Robust syllable segmentation and its application to syllable-centric continuous speech recognition / R. Janakiraman, J.C. Kumar, H.A. Murthy // Proceedings of the National Conference on Communications.- 2010.- P.1-5.
149. Jensen, R. A New Approach to Fuzzy-Rough Nearest Neighbour Classification / R. Jensen, C. Cornelis // Proceedings of 6th International Conference Rough Sets and Current Trends in Computing, LNCS.- 2008.- Vol. 5306.- P. 310-319.
150. Jensen, R. Fuzzy-Rough Nearest Neighbour Classification / R. Jensen, C. Cornelis // Transactions on Rough Sets.- 2011.- Vol. XIII.- P. 56-72.
151. Jitendra, A. Speech/music segmentation using entropy and dynamism features in a HMM classification framework / A. Jitendra, I. McCowan // Speech Communication.-2003.- № 40(3).- P. 351-363.
152. Jordan, M.I. A statistical approach to decision tree modeling. // Proceeding of the Seventh Annual ACM Conference of the Computation Learning Theory, New York.-ACM Press.- 1994.- P. 254-282.
153. Jurafsky, D. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition / D. Jurafsky, J. H. Martin.- USA: Prentice-Hall, Upper Saddle River, 2000.- 934 p.
154. Kaiser, J. Overall risk criterion estimation of hidden Markov model parameters / J. Kaiser, B. Horvat, Z. Kacic // Speech Communication.- 2002.- Vol. 38 (3-4).- P. 383398.
155. Kullback, S. Information theory and statistics / S. Kullback.- New York: Dover Pub, 1997.- 408 p.
156. Linsker, R. An application of the principle of maximum information preservation to linear systems / R. Linsker // Advances in Neural Information Processing Systems.-1989.- Vol. 1.- Р. 186-194.
157. Markel, J. Linear prediction of speech / J. Markel, A. Gray.- New York: SpringerVerlag, 1976.- 288 p.
158. Merialdo, B. Multilevel decoding for very-large-size-dictionary speech recognition / B. Merialdo // IBM Journal of Research and Development.- 1988.- Vol. 32, №2.- P. 227-237.
159. Mohri, M. Speech recognition with weighted finite-state transducers / M. Mohri, F. Pereira, M. Riley.- Springer Handbook of Speech Processing, 2008.- P. 559-584.
160. Myers, C. Performance tradeoffs in dynamic time warping algorithms for isolated word recognition / Myers C., Rabiner L., Rosenberg A. // IEEE Transactions on Acoustics, Speech, and Signal Processing.- 1980.- Т. 28.- №. 6.- С. 623-635.
161. Perpetuum M. v. 3.01 [Электронный ресурс].- URL: http://projectveka.ru/index.htm (дата обращения: 20.10.2015).
162. Potapova, R.K. Multimodal perception of aggressive verbal behavior / R.K. Potapova, L.R. Komalova // Lecture Notes in Computer Science.- 2016.- Vol. 9811.- P. 499-506.
163. Povey, D. The Kaldi speech recognition toolkit / D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O.Glembe at al // IEEE 2011 workshop on automatic speech recognition and understanding. - IEEE Signal Processing Society, 2011. - №. EPFL-CONF-192584.
164. Rabiner, L. R. Recognition of isolated digits using hidden Markov models with continuous mixture densities / L. R. Rabiner, B.H. Juang, S. E. Levinson, M. M. Sondhi // ATT Techn. J.- 1985.- Vol. 64, № 6.- P. 1211-1234.
165. Rabiner, L. A. Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition / L. A. Rabiner // Proceedings of the IEEE.- 1989.- Vol. 77, №2.-P. 257-285.
166. Reddy, D.R. Speech recognition by Machine: A Review / D.R. Reddy // Proceedings of the IEEE.- 1976.- Vol. 64 (4).- P. 501-531.
167. Ronzhin, A.L. Survey of Russian Speech Recognition Systems / A.L. Ronzhin, R.M. Yusupov , I.V. Li, A.B. Leontieva // Proceedings of the SPECOM.- 2006.- P. 54-60.
168. Savchenko, A. V. Phonetic Words Decoding Software in the Problem of Russian Speech Recognition // Automation and Remote Control.- 2013.- Vol. 74, No. 7.- P. 1225-1232.
169. Savchenko A. V. Classification of a Sequence of Objects with the Fuzzy Decoding Method / A.V. Savchenko, L.V. Savchenko // Proceedings of the International Conference on the Joint Rough Set (JRS 2014), LNCS/LNAI.- 2014.- Vol. 8536.- P. 309-318.
170. Savchenko, A. V. Towards the creation of reliable voice control system based on a fuzzy approach / A.V. Savchenko, L.V. Savchenko // Pattern Recognition Letters.-2015.- Vol. 65.- P. 145-151.
171. Savchenko, L.V. Fuzzy phonetic decoding method in a phoneme recognition problem / L.V. Savchenko, A.V. Savchenko // Proceedings of the International Workshop on Nonlinear Speech Processing (N0LISP-2013), LNCS/LNAI.- 2013.- Vol. 7911.- P. 176-183.
172. Savchenko, L.V. Towards the creation of reliable voice control system based on a fuzzy approach / L.V. Savchenko, A.V. Savchenko // Pattern Recognition Letters.-2015.- Vol.65.- P. 145-151.
173. Sorokin, V.N. Segmentation of the period of the fundamental tone of a voice source / V.N. Sorokin // Acoustical Physics.- 2016.- T. 62.- № 2.- P. 244-254.
174. Specht, D.F. Probabilistic neural networks / D.F. Specht // Neural Networks.-1990.-Vol. 3(1).- P. 109-118.
175. Stevens, B. L. Aircraft control and simulation: dynamics, controls design, and autonomous systems / B. L. Stevens, F. L. Lewis, E. N. Johnson // John Wiley & Sons.-2015.- 768 p.
176. Schuster, M. Speech recognition for mobile devices at Google / M. Schuster // Proceedings of the 11th Pacific Rim international conference on Trends in Artificial Intelligence, LNCS.-2010.- Vol. 6230.- P. 8-10.
177. Speech recognition system and method: pat. 8175883 US :МПК6 G 10 L21/00 / Grant. R., Gregor. P. ; Assignee: Nuance Communications Inc.- Pub. Date 08.05.2012.
178. Sundermeyer, M. LSTM Neural Networks for Language Modeling / M. Sundermeyer, R. Schlüter, H. Ney//Interspeech.- 2012.- С. 194-197.
179. Tchorz, U. SNR estimation based on amplitude modulation analysis with applications to noise suppression / U. Tchorz, B. Kollmeier // IEEE Transactions on Speech and Audio Processing 11.- 2003.- Vol. 3.- P. 184-192.
180. Terano, T. Applied fuzzy systems / T. Terano, K. Asai, M. Sugeno (ed.).- San Diego: Academic Press, 1994.- 314 p.
181. Valsan, Z. Statistical and Hybrid Methods for Speech Recognition in Romanian / Z. Valsan, I. Gavat, B. Sabac // International Journal of Speech Technology.- 2002.- №5.-P. 259-268.
182. WaveNet [Электронный ресурс].- URL: https://deepmind.com/blog/wavenet-generative-model-raw-audio/ (дата обращения: 29.03.2017).
183. Wei, B. Comparison of distance measure in discrete spectral modeling / B. Wei, J.D. Gibson // Proceedings of the IEEE 9th Digital Signal Processing Workshop.- 2000.- P. 1-4.
184. Wiren, J. Electronic Binary Selection System for Phoneme Classification / J. Wiren, H. Stubbs // JASA.- Vol. 28(6).- 1956.- P. 1082-1091.
185. Zadeh, L.A. Fuzzy Sets / L.A. Zadeh // Information Control.- 1965.- Vol. 8.- P. 338353.
186. Zadeh, L.A. Soft Computing and Fuzzy Logic / L.A. Zadeh // IEEE Software.- 1994.-Vol. 11(6).- P. 48-56.
Приложение А. Акт о внедрении (ЗАО "ИстраСофт")
ЗАКРЫТОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО «ИСТРАСОФТ»
(ЗАО «ИСТРАСОФТ»)
«УТВЕРЖДАЮ»:
о внедрении (использовании) результатов диссертационной работы на соискание ученой степени кандидата технических наук
Савченко Людмилы Васильевны Комиссия ЗАО «ИстраСофт» в следующем составе: председатель к.т.н. Кнеллер Э.Г., ген. директор, вице-президент Ассоциации
«Российские речевые технологии»
члены комиссии: Сборщиков В.В., главный специалист,
Караульных Д.В., ведущий программист, и Баря Е.А., технический директор
составили настоящий акт о том, что результаты диссертационной работы
«Интеллектуализация принятия решений в автономных системах обработки речевой информации на основе теоретико-информационного подхода»,
выполненной на кафедре математики и информатики Нижегородского Государственного Лингвистического Университета им. Н.А. Добролюбова и представленной на соискание ученой степени кандидата технических наук,
использованы в научно-исследовательской работе ЗАО «ИстраСофт», г. Москва в виде:
1. Прототипа программного комплекса обработки русской речи на основе метода нечеткого фонетического кодирования с высокой точностью;
2. Испытательного стенда для экспериментальных исследований эффективности алгоритма нечеткого фонетического кодирования слов в задаче распознавания русской речи в системах голосового управления;
3. Технического предложения по выполнению конструктивной схемы блока классификации фонем.
Использование указанных результатов позволяет:
- повысить точность и надежность распознавания речи на (15 — 20)% по вероятности безошибочного распознавания изолированных слов за счет применения модели фонемы как нечеткого множества минимальных звуковых единиц, настройки системы на голос конкретного диктора и требования к произношению слов с четким выделением слогов:
- сократить затраты на проведение опытно-конструкторских работ и натурных испытаний не менее, чем на 10% - за счет реализации метода нечеткого фонетического кодирования-декодирования в программном прототипе системы распознавания речи, а также применения для тестирования качества распознавания речи разработанного испытательного стенда.
Результаты внедрены при выполнении НИР по теме: «Исследование метода фонетического декодирования слов в информационной метрике Кульбака-Лейблера и разработка на его основе программного обеспечения 1Т-систем анализа и распознавания русской разговорной речи с повышенным быстродействием» в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» по Государственному контракту № 07.514.11.4137 от 7 июня 2012., шифр «2012-1.4-07-514-
0019-013».
Председатель комиссии подпись
Э.Г. Кнеллер
Члены комиссии: подпись
Е.А. Баря
В.В. Сборщиков
Д.В. Караульных
Приложение Б. Акт о внедрении (Нижегородский Государственный
Лингвистический Университет)
Министерство образования и науки Российской Федерации Федеральное государственное бюджетное
образовательное учреждение высшего профессионального образования НИЖЕГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ ЛИНГВИСТИЧЕСКИЙ УНИВЕРСИТЕТ им. Н.А. Добролюбова
(ФГБОУ ВПО «НГЛУ») (¡ф)
ул. Минина, 31-А, Нижний Новгород, 603155 Телефон: (831) 436-15-75 Факс: (831)436-20-49 Е-таП: ас!т(1ер@,lurm.ru ОКПО 02079321,ОГРН 1025203049948, ИНН/КПП 5260047352/526001001
УТВЕРЖДАЮ
Проректор по научной работе
Гриценко
15 г.
АКТ О ВНЕДРЕНИИ в учебный процесс результатов диссертационной работы
Савченко Людмилы Васильевны «Интеллектуализация принятия решений в автономных системах обработки речевой информации на основе теоретико-информационного подхода», представленной на соискание ученой степени кандидата технических наук по специальности 05.13.01 - «Системный анализ, управление и обработка информации (информационные и технические системы)».
Комиссия, в составе: Савченко В.В. (д.т.н., профессор, заведующий кафедрой математики и информатики), Катаев С.М. (к.т.н., доцент кафедры математики и информатики), Устинкин C.B. (д.и.н., профессор, декан факультета международных отношений, экономики и управления) составила настоящий акт о том, что результаты диссертационной работы Савченко Л.В. использовались в учебном процессе Нижегородского государственного лингвистического университета им. H.A. Добролюбова в следующем виде:
1. Наименование предложения: разработанная Савченко Л.В. информационная система для распознавания русской речи на основе нечеткого фонетического кодирования слов.
2. Краткая аннотация: авторская программная разработка использована при проведении практических занятий по дисциплине «Новые речевые технологии» по направлению подготовки бакалавров «Информационная безопасность» (090900.62) по темам «Системы автоматического распознавания речи» (8ч.), «Применение новых речевых технологий в системах защиты информации» (8ч.) с формой контроля в виде экзамена.
3. Эффект от внедрения: получение знаний основных алгоритмов, применяемых в системах распознавания речи и практических навыков анализа и обработки речевых сигналов на персональном компьютере.
4. Место использования предложения: Нижегородский государственный лингвистический университет им. H.A. Добролюбова.
5. Форма внедрения: обучение студентов факультета международных отношений, экономики и управления (МОЭУ).
Заведующий кафедрой математики и информатики
Доцент кафедры математики и информатики
Декан факультета МОЭУ
Приложение В. Патент на программу для ЭВМ
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.