Речевые технологии в автоматизированных системах массового обслуживания тема диссертации и автореферата по ВАК РФ 05.13.15, доктор технических наук Фархадов, Маис Паша оглы

  • Фархадов, Маис Паша оглы
  • доктор технических наукдоктор технических наук
  • 2012, Москва
  • Специальность ВАК РФ05.13.15
  • Количество страниц 330
Фархадов, Маис Паша оглы. Речевые технологии в автоматизированных системах массового обслуживания: дис. доктор технических наук: 05.13.15 - Вычислительные машины и системы. Москва. 2012. 330 с.

Оглавление диссертации доктор технических наук Фархадов, Маис Паша оглы

Введение.

Глава 1. АНАЛИЗ РАЗВИТИЯ АСМО И КОНЦЕПЦИЯ 13 ИСПОЛЬЗОВАНИЯ СОВРЕМЕННЫХ РЕЧЕВЫХ И ТЕЛЕКОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ ДЛЯ ПОВЫШЕНИЯ ДОСТУПНОСТИ И ЭФФЕКТИВНОСТИ АСМО.

1.1. Системы массового обслуживания населения на современном этапе: сетевые и телефонные системы обслуживания.

1.2. Речевые технологии.

1.3. Скрытые марковские модели

1.4. Концепция системного решения проблемы повышения доступности и эффективности АСМО на базе современных речевых и телекоммуникационных технологий и условия ее реализации.

Глава 2. ИССЛЕДОВАНИЕ И РАЗРАБОТКА РЕЧЕВОГО

ЧЕЛОВЕКО-МАШИННОГО ИНТЕРФЕЙСА.

2.1. Архитектура и характеристики распознавателей.

2.1.1. Архитектура распознавателей.

2.1.2. Терминология и специальные свойства распознавателей речи.

2.1.3. Экспериментальные исследования свойств распознавателей.

2.1.4. Влияние настройки параметров системы на результаты распознавания.

2.1.5. Влияние порога уверенности на результаты распознавания.

2.1.6. Зависимость качества распознавания от нескольких параметров.

2.2. Проектирование речевого интерфейса.

2.2.1. Свойства речи как элемента человеко-машинного взаимодействия.

2.2.2. Общие принципы проектирования человеко-машинных интерфейсов.

2.2.3. Особенности проектирования речевого интерфейса

2.2.4. Взаимосвязь между грамматиками и промптами.

2.2.5. Рекомендации по проектированию речевого интерфейса.

2.3. Проектирование грамматик

2.4. Влияние дизайна интерфейса и настройки параметров на качество работы системы с распознаванием речи.

Глава 3. ОБНАРУЖЕНИЕ H КОРРЕКЦИЯ ОШИБОК

РАСПОЗНАВАНИЯ РЕЧИ.

3.1. Виды ошибок.

3.2. Критерии надежности распознавания.

3.3. Критерии качества и устойчивость систем с распознаванием 95 речи.

3.4. Общая стратегия выявления и коррекции ошибок.

3.5. Способы обнаружения ошибок.

3.5.1. Анализ возвращаемого распознавателем сообщения об ошибке.

3.5.2. Анализ уровня уверенности в гипотезе.

3.5.3. Анализ возвращаемой гипотезы.

3.6. Выбор оптимальной величины порога уверенности в гипотезе для вызова процедуры подтверждения.

3.7. Запросы подтверждения.

3.8. Разработка методов коррекции ошибок на основе накопления и использования статистических данных.

3.9. Адаптивная коррекция ошибок при несимметричном искажении слов.

Глава 4. АНАЛИЗ И ОПТИМИЗАЦИЯ СЦЕНАРИЕВ И АЛГОРИТМОВ УПРАВЛЕНИЯ ДИАЛОГОМ С

ПЕРЕСПРОСАМИ.

4.1. Классификация типов диалогов.

4.2. Оценка вероятности успешного завершения диалога при переспросах.

4.2.1. Диалог из простых элементов

4.2.2. Диалог из составных элементов.

4.2.3. Диалог из простых и составных элементов.

4.3. Время правильного распознавания элемента диалога при переспросах.

4.3.1. Простой элемент диалога

4.3.2. Составной элемент диалога

4.4. Оценка продолжительности диалога.

4.4.1. Предельные оценки продолжительности диалога.

4.4.2. Средняя оценка продолжительности диалога.

4.5. Сравнительный анализ алгоритмов управления диалогом.

4.5.1. Диалог из простых элементов.

4.5.2. Диалог из простых и составных элементов.

4.5.3. Диалог без подсказок системы при формировании запроса клиента(«монологовое» взаимодействие).

4.6. Анализ результатов исследования сценариев и алгоритмов управления диалогом.

4.7. Методика выбора оптимальных сценариев и алгоритмов управления диалогом.

4.8. Примеры применения методики выбора оптимальных сценариев и алгоритмов управления диалогом.

4.8.1. Получение справки о рейсах.

4.8.2. Заказ такси.

Глава 5. АНАЛИЗ И ОПТИМИЗАЦИЯ ФУНКЦИОНИРОВАНИЯ

ТЕЛЕФОННЫХ КОНТАКТ ЦЕНТРОВ С СЕРВИСАМИ САМООБСЛУЖИВАНИЯ НА ОСНОВЕ РЕЧЕВЫХ ТЕХНОЛОГИЙ.

5.1. Структура центров обслуживания вызовов с сервисами самообслуживания.

5.2. Математические модели для расчета характеристик обслуживания заявок в центрах обслуживания вызовов с сервисами самообслуживания.

5.2.1. Случай отсутствия мест для ожидания в первом узле и неограниченного накопителя во втором узле.

5.2.2. Случай ограниченного числа мест для ожидания в первом узле и неограниченного накопителя во втором узле.

5.2.3. Бесконечное число мест для ожидания в обоих узлах.

5.3. Оптимальное управление очередью для центра обслуживания 242 вызовов с сервисами самообслуживания.

5.3.1. Стационарное распределение вероятностей состояний 244 сети.

5.3.2. Характеристики обслуживания вызовов для случая 250 порогового управления общей очередью.

5.3.3. Оптимизация порогового уровня и численные 253 примеры.

5.4. Приближенный расчет числа и загрузки телефонных каналов

5.5. Расчет вычислительных ресурсов.

Глава 6. СИСТЕМЫ С НЕТРАДИЦИОННЫМ ПРИМЕНЕНИЕМ

РЕЧЕВЫХ ТЕХНОЛОГИЙ.

6.1. Звуковой тренажер для обучения правильному звукопроизношению людей с нарушением слуха.

6.1.1. Разработка интерфейса для звукового тренажера. Назначение и принцип работы.

6.1.2. Программная архитектура системы.

6.1.3. Техническое решение и характеристика.

6.2. Система речевого доступа на азербайджанском языке к объектам электронной карты города Баку.

Рекомендованный список диссертаций по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Введение диссертации (часть автореферата) на тему «Речевые технологии в автоматизированных системах массового обслуживания»

Диссертационная работа посвящена применению речевых технологий в автоматизированных системах массового обслуживания (АСМО) с целью облегчения доступа населения к информации и услугам. Актуальность проблемы доступа людей к информации на переходном этапе продвижения страны и мира к информационному обществу не вызывает сомнений. Быстро развивающиеся информационные и телекоммуникационные технологии проникают во все сектора экономики: в производство, в сферу услуг, в образование, в государственное управление, банковскую сферу, в частный бизнес и др. Наблюдается тенденция к социализации информации -нарастанию количества информации, которая необходима людям в их повседневной жизни. Помимо наличия знаний и информации, для развития информационного общества необходимо создание условий для того, чтобы члены общества имели доступ к информации и умели ее использовать. Несмотря на бурное развитие технологий, в мире существует проблема информационного неравенства. Для России сложилась ситуация, когда темпы роста информатизации оказались выше, чем темпы развития компьютеризации и коммуникаций. Это привело к обострению проблемы неравного доступа граждан к информации, особенно малообеспеченных людей и населения отдаленных регионов. В качестве одного из средств для смягчения этой трудной проблемы в диссертации рассмотрены речевые технологии, достигшие за последние годы достаточно высокого уровня качества и способные обеспечить гражданам дополнительный, а иногда и единственный, канал доступа к информационным и сервисным системам. Создание телефонных сервисов самообслуживания, речевых порталов и речевых браузеров повышает эффективность АСМО и решает актуальную народнохозяйственную и социальную задачу облегчения доступа населения к информации и услугам.

Цель работы состоит в разработке теоретических основ и практически значимых решений фундаментальных проблем использования речевых технологий в сетевых и телефонных системах массового обслуживания.

Были поставлены и решены следующие задачи:

- анализ тенденций развития автоматизированных систем массового обслуживания населения на современном этапе;

- анализ качества функционирования существующих распознавателей речи и экспериментальное исследование их свойств;

- разработка эффективного по затратам времени и по результативности речевого человеко-машинного интерфейса к АСМО как разновидности человеко-машинного взаимодействия; разработка новых алгоритмов и программ накопления и использования знаний о результатах распознавания речи для коррекции ошибок распознавания;

- анализ и оптимизация сценариев речевого диалога;

- разработка математических моделей для расчета вероятностно-временных характеристик обслуживания вызовов и оптимизации функционирования контакт центров с сервисами самообслуживания на базе речевых технологий;

- внедрение полученных результатов в практических системах с речевым интерфейсом.

Научная новизна. Новизна диссертации состоит в том, что впервые разносторонне исследованы русскоязычные речевые технологии, пригодные для организации интерактивного речевого взаимодействия; разработаны принципы создания эффективного речевого человеко-машинного интерфейса; созданы методы повышения устойчивости и надежности систем с речевым интерфейсом; разработаны математические модели анализа и оптимизации речевого диалога; созданы алгоритмы и программы коррекции ошибок на основе автоматического накопления и использования статистических данных и знаний о результатах распознавания; разработаны 6 математические модели для расчета характеристик обслуживания заявок и оптимизации функционирования центров обслуживания вызовов современной архитектуры, имеющих сервисы самообслуживания на базе речевых технологий.

Научная новизна выполненной работы по ее постановке и основные результаты, выносимые на защиту, состоит в следующем:

1. разработаны и исследованы новые методы и алгоритмы эффективного речевого взаимодействия клиентов с АСМО на базе речевых технологий;

2. разработан технологический аппаратно-программный комплекс для автоматизации исследований свойств и характеристик распознавателей речи и процессов самообслуживания в многоканальном режиме;

3. предложены новые методики разработки речевых порталов, сетевых и телефонных сервисов самообслуживания с речевыми технологиями на основе результатов экспериментального определения качества и эффективности распознавателей речи;

4. разработаны новые алгоритмы, программы и методы для выявления и коррекции ошибок на основе автоматического накопления статистических данных и знаний о результатах распознавания речи, позволяющие сократить длительность диалога;

5. разработана классификация речевого диалогового человеко-машинного взаимодействия и методы и алгоритмы оценок для сравнительного анализа и оптимизации сценариев речевого диалога;

6. разработаны математические модели для расчета вероятностно-временных характеристик обслуживания заявок и оптимизации функционирования сетевых СМО с автоматическим выбором типа сервиса самообслуживания.

Достоверность и обоснованность научных положений, выводов и рекомендаций. Научные положения, выводы диссертации обоснованы с использованием теории массового обслуживания, теории вероятностей и математической статистики, теоретических основ программирования, а также проверены экспериментально и подтверждены испытаниями на научноисследовательском полигоне ИЛУ РАН, актами внедрений, практическим применением в нескольких компаниях.

Исследования по теме диссертационной работы проводились в соответствии с плановой тематикой работ ИЛУ РАН (в рамках тем 331-04/17, 305-07/17, 817-08/17), а также при поддержке РФФИ (гранты 05-08-18075-а, 08-08-01022-а, 09-08-01168-а).

Практическая ценность. Показана возможность и целесообразность применения речевых технологий в системах массового обслуживания. Разработаны практические рекомендации по речевому человеко-машинному интерфейсу. Создана методология проектирования систем с речевыми технологиями и методика оптимизации и управления диалогом. Реализованы различные интерфейсы взаимодействия с удаленными прикладными системами. Созданы универсальные речевые блоки, база аудио файлов и конкретные системы с их использованием, в том числе система «Звуковой тренажер» для людей с ограниченными возможностями.

Применение результатов работы позволяет существенно расширить круг пользователей систем массового обслуживания, предоставив им удобный дополнительный, а иногда и единственный, канал доступа к услугам этих систем. Это обеспечит новый уровень информационных услуг, предоставляемых населению и организациям в режиме самообслуживания, а также повысит эффективность использования систем массового обслуживания.

Разработанные математические модели, алгоритмы и программы могут быть использованы для дальнейшего развития и совершенствования автоматизированных систем массового обслуживания.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Международной конференции «Distributed Computer Communication Networks. Theory and Application» (Тель-Авив, 1999 г., София, 2009 г., Москва, 2010 г.); Международном семинаре «Информационные сети, системы и технологии (ИССТ-97)» (Ярославль, 1997 8 г.); Международной конференции «Математические методы исследования систем и сетей массового обслуживания» (Минск, 1998 г.); XIV международном симпозиуме по управлению большими системами «CONTROL'2000» (Тбилиси, 2000 г.); 8-ой Международной конференции «Проблемы управления безопасностью сложных систем» (Москва, 2000 г.); 16-ой Белорусской школе по теории массового обслуживания (Минск, 2001 г.); 9-ой Международной конференции «Речь и компьютер» (SPECOM'2004) (Санкт-Петербург, 2004 г.); Научной сессии Отделения информационных технологий и вычислительных систем РАН «Распознавание речи» (Москва, 2003 г.); II, III, IV Конференциях «Интеллектуальные услуги в телефонных сетях. Мобильный контент. Технологии и бизнес» (Виноградово, 2005 г., 2006 г., 2007 г.); IV, V, VIII, IX, X Международных форумах «Высокие технологии XXI века» (Москва, 2004 г., 2005 г., 2007 г., 2008 г., 2010 г.); Международной научной конференции «Проблемы кибернетики и информатики» (Баку, 2006 г.); Научно-практической конференции «Современные технические и программные средства обеспечения АСУ и АСУ ТП» (Москва, 2005 г.); Конференции «Перспективы развития робототехники для экстремальных ситуаций» (Москва, 2006 г.); Конференции «ИНФОТЕХ-2007» (Севастополь. 2007 г.); XII International Conference Speech and Computer (SPECOM'2007) (2007, Москва); International Workshop on Multiple Access and Queuing Systems MACOM-2008 (Saint-Petersburg, 2008); International Conference «Problems of Cybernetics and Informatics», 2008, 2010 Baku; I, II и III Международных конференциях «Управление развитием крупномасштабных систем MLSD», (Москва, 2007 г., 2008 г., 2010 г., 2011 г.); Российской конференции с международным участием «Технические и программные средства систем управления, контроля и измерения» (Москва, 2008 г., 2010 г.); Научно-практической конференции «Современные информационные технологии в городском хозяйстве» (Москва, 2008 г.); IV Международной конференции по проблемам управления (МКПУ-IV) (Москва, 2009 г.); Международной конференции 9

Современные математические методы анализа и оптимизации информационно-телекоммуникационных сетей» В\¥\\^)Т-2009 (Минск, 2009 г.), IX Международной конференции по финансово-актуарной математике и эвентоконвергенции технологий, Красноярск, 2010.

Результаты работы демонстрировались на 12 выставках (2003-2010 гг.) и неоднократно награждались медалями и дипломами.

Состав диссертации. Диссертация состоит из Введения, 6 глав, Заключения и Приложения.

Похожие диссертационные работы по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Заключение диссертации по теме «Вычислительные машины и системы», Фархадов, Маис Паша оглы

вывод V

Управление диалогом у~ Внешние" системы Г И БД

Рис. 2.1. Элементы речевой системы.

Модуль распознавания речи получает на входе акустические сигналы и преобразует их в текстовое представление. Выходом этого модуля является, как правило, не одно слово или словосочетание, а так называемый граф слов, который содержит альтернативные гипотезы. Каждая из этих альтернатив в графе слов содержит показатель уверенности распознавателя в данной гипотезе. Эта информация может использоваться далее для оценки ситуации и управления диалогом. Количество альтернатив на выходе задается при программировании приложения. Преобразование акустических сигналов в текст, соответствующий произнесенным звукам, словам и фразам, производится с использованием акустических и лингвистических моделей. Для повышения точности распознавания могут использоваться различные модификации акустических и лингвистических моделей в зависимости от состояния диалога, качества канала, характера поведения пользователя. Модуль распознавания речи является наиболее ресурсоемким блоком системы.

Модуль понимания речи предназначен для выделения из графа слов, полученного на предыдущей фазе обработки, наиболее вероятного смысла. Включение в состав системы этого блока позволяет использовать в приложениях не только так называемые закрытые грамматики, ограничивающие речь пользователя включенными в них словами и фразами, но и открытые грамматики, ориентированные на распознавание смысла высказываний и позволяющие пользователю более свободно формулировать свои ответы на вопросы системы, в результате чего диалог становится более естественным.

Модуль управления диалогом является центральным компонентом системы. Он контролирует как взаимодействие пользователя с системой, так и взаимосвязи компонентов системы. В его функции также входит интерпретация входной информации, формирование запросов во внешние системы и базы данных и обработка ответов из них. Для сложных систем этот модуль рекомендуется разделять на ряд более мелких компонент, чтобы обеспечить гибкость, наращиваемость и модульность системы в целом.

Модуль формирования речевого вывода управляет речевым выводом ответной информации и реплик системы. Вывод информации состоит из двух фаз: формирование контента и озвучивание сообщения. Содержание выходных фраз и реплик зависит от конкретных условий, которые определяются текущим состоянием диалога. Для озвучивания машинного сообщения может использоваться метод конкатенации предварительно записанных слов и фраз и метод компьютерного синтеза речи. Метод конкатенации предварительно записанных фрагментов речи предоставляет больше возможностей для использования таких важных компонентов речи, как интонации и смысловые ударения, а также позволяет приводить контекстно зависимые примеры ответов и требуемого произношения, что бывает важно для создания удовлетворяющего пользователя интерфейса с автоматизированной системой. Однако этот метод непригоден для озвучивания информации большого объема, непредсказуемого содержания, электронных писем или новостей. Для этих целей используется компьютерный синтез текста в речь. Модуль синтеза речи получает на вход текст, который может также включать коды, контролирующие произношение и другие параметры синтезированного голоса.

2.1.2. Терминология и специальные свойства распознавателей речи

Грамматика. Принципы создания эффективных грамматик

В системах распознавания речи грамматикой называется заданное по некоторым правилам множество слов и фраз, которые пользователь может произнести на некотором шаге диалога и на которые должна реагировать система распознавания. Задача автора грамматик состоит, таким образом, в том, чтобы предвидеть, что именно скажет клиент в ответ на вопрос или реплику системы, и правильно интерпретировать сказанное.

Грамматика представляет собой текстовый файл, составленный по определенным правилам. Файл грамматики является основным компонентом речевого блока, куда кроме грамматики входит файл словаря или лексикона и соответствующая языковая модель.

Обязательными элементами файла грамматики являются наименование грамматики, указание на используемый язык, определения возвращаемых переменных и правило грамматики. Правило содержит список слов и операторов, определяющих фразы, подлежащие распознаванию.

Синтаксис описания произносимых и подлежащих распознаванию фраз в разных распознавателях во многом схож. Например, для обозначения конкатенации слов в грамматиках и Nuance, и SpeechPearl используются круглые скобки: (А В С) означает, что все перечисленные слова должны будут произнесены, и именно в этом порядке, т.е. и А, и В, и С. Необязательное присутствие слова в Nuance обозначается знаком вопроса: ?А означает, что А может быть произнесено, а может и не присутствовать в фразе, а в SpeechPearl - квадратными скобками: [А]. Один или более повторов слова и в Nuance, и в SpeechPearl обозначается знаком плюс с той лишь разницей, что в Nuance этот знак должен предшествовать слову: +А означает один или более повторов А, а в SpeechPearl - следовать за ним: А+, и т.д.

На рис. 2.2 представлена грамматика городов, написанная по правилам Nuance, а на рис. 2.3 - аналогичная грамматика, предназначенная для приложения, запускаемого на SpeechPearl. Author Mais Farhadov ; Grammar Name

City [ москва {<city "moskva">} киев {<city "kiev">} баку {<city "baku">} с {<city "samara">} ]

Рис. 2.2. Пример грамматики Nuance для распознавания названий городов. grammar city; ; Author Mais Farhadov language rurstandard; declarations {

String city: <city>; startrule {<cityr>} public city> = москва { city:= "moskva";} |киев { city:-'kiev";} |баку { city:="baku";} |берлин { city:="berlin";} |лондон { city:="london";} |тбилиси { city:="tbilisi";}

Петербург | санкт Петербург) { city:= "peterburg";} ¡Владивосток { city:= "vladivostok" ; } |рига { city:-'riga";}

Рис. 2.3. Пример грамматики 8реесЬРеаг1 для распознавания названий городов.

Консорциум W3C (World Wide Web Consortium) разработал Спецификацию для создания грамматик SRGR (Speech Recognition Grammar Specification) [70] и Рекомендацию SISR (Semantic Interpretation for Speech Recognition) [71], которая определяет синтаксис и семантику содержимого тегов спецификации SRGS. Этих рекомендаций придерживаются сейчас все создатели последних версий промышленных распознавателей.

На рис. 2.4 представлена грамматика городов, написанная в соответствии с правилами SRGS и SISR. xml version-'1.0" encoding="UTF-8"?>

DOCTYPE grammar PUBLIC "-//W3C//DTD GRAMMAR 1.0//EN" "http://www.w3.org/TR/speech-grammar/grammar.dtd"> grammar xml:lang="ru" version="1.0" mode="voice" xmlns=http://www. w3 .org/2001 /06/.gram mar xmlns:xsiHittp://www. w3.org/2001/XMLSchema-instance xsi:schemaLocation="http://www. w3.org/2001/06/grammar http://www.w3.org/TR/speech-grammar/grammar.xsd" root="main"> meta name-'author" content-' Mais Farhadov"/> <rule id="city" scope="public"> <one-of> item>MOCKBa<tag>City="moskva";</tag></item> item>KHeB<tag>City="kiev";</tag></item> item>6aKy<tag>City="baku";</tag></item> one-of> </rule> </grammar>

Рис. 2.4. Пример грамматики в формате SRGS и SISR.

Бывают закрытые и открытые грамматики. В закрытых грамматиках описываются варианты высказываний, которые может произнести клиент и которые система должна распознавать целиком, от первого до последнего слова произнесенной фразы. Открытые грамматики ориентированы на распознавание только ключевых слов, а все другие слова, произносимые пользователем, считаются словами-наполнителями и игнорируются.

Закрытые грамматики больше подходят для относительно простых задач в силу присущих им ограничений на допустимые высказывания. Открытые грамматики более гибки, они предоставляют пользователю больше свободы для формирования предложения. Однако следует учесть, что открытые грамматики требуют обязательного обучения, в то время как закрытые грамматики в обучении не нуждаются.

Словари (лексиконы)

Словари или лексиконы представляют собой списки слов и соответствующих им фонетических транскрипций. Существует базовый словарь, поставляемый в составе распознавателя, пользовательские словари, составляемые разработчиком для фонетического описания отсутствующих в базовом словаре слов, и словари автотранскрипций, образуемых системой на основании своих внутренних правил для слов, отсутствующих в базовом и пользовательских словарях.

Для каждого поддерживаемого распознавателем языка существует свой базовый словарь, содержащий наиболее употребительные слова данного языка и их фонетическое представление. Набор знаков для представления фонем различных языков можно найти на официальном сайте SAMPA (Speech Assessment Methods Phonetic Alphabet) [72]. Набор символов для звуков русского языка (6 гласных звуков и 36 согласных), а также символы для обозначения ударения и смягчения звуков приведен в [73].

На рис. 2.5 приведен фрагмент лексикона для описания фонетических транскрипций улиц Москвы в распознавателе SpeechPearl.

DSLexicon 2 DSPhoneticWord languageTag rurstandard DSOrdinaryWordLex 1 3049

PAUSE# #sil# author Mais Farhadov абакумова abakumava абельмановская ab'il'manafskaja абрамцевская abramtsefskaja газопровод gazapravot ra30np0B0fl<gazaprovat> gazaprovat реутовская r'iutafskaja peyTOBCKafl<r'eutafskaj a> r'eutafskaja

DSCategoryWordLex 1 0

Рис. 2.5. Лексикон для улиц Москвы (распознаватель 8реесЬРеаг1).

Как видно из рис. 2.5, в лексикон могут быть включены варианты произношения.

Речевые блоки

Грамматика и лексикон являются обязательными составляющими речевых блоков - основных ресурсов речевых приложений. Помимо файлов с грамматикой и лексиконом, речевой блок содержит файл языковой модели, соответствующей данной грамматике, и ссылки на языковый ресурс и на используемую акустическую модель. Языковая модель для закрытых грамматик создается автоматически во время компиляции на основании базовой языковой модели и конкретной грамматики. В зависимости от размера и сложности грамматики сетевая языковая модель может содержать от единиц до тысяч узлов.

В табл. 2.1 представлены данные о числе узлов сетевых языковых моделей для некоторых речевых блоков, созданных автором. Наименьший размер имеет языковая модель для грамматики месяцев, имеющей простую логику и двенадцать альтернативных слов. Грамматика пин кодов имеет в своем составе всего лишь десять слов (цифры), но ее логика значительно сложнее, чем для грамматики месяцев, поскольку цифры могут быть произнесены в любом порядке, и это обстоятельство находит свое отражение в размере языковой модели. Относительно большое число слов в грамматике Да/нет объясняется наличием разных вариантов произнесения положительного и отрицательного ответа, однако логика этой грамматики несложна. Напротив, грамматики для распознавания времени суток и телефонных номеров отличаются значительной сложностью, что сразу сказывается на числе узлов языковой модели. Наибольший размер из представленных в таблице имеет языковая модель для грамматики улиц Москвы, содержащая большое количество (более 3000) слов, но обладающая довольно простой логикой с тремя (в среднем) вариантами произнесения названия улицы.

ЗАКЛЮЧЕНИЕ

В результате проведенных автором исследований разработаны теоретические положения, совокупность которых можно квалифицировать как новый вклад в теорию создания автоматизированных систем массового обслуживания с речевыми технологиями и ее применения.

Основные научные и практические результаты диссертации

• Выполнен обзор и анализ современного состояния и тенденции развития систем массового обслуживания с целью поиска путей повышения их открытости, эффективности и доступности для более широких масс населения.

• Впервые в отечественной практике экспериментально исследованы характеристики распознавателей речи в контексте создания речевого доступа к услугам и сервисам систем массового обслуживания населения. Выявлены зависимости качества распознавания от фонетической модели, порога уверенности в распознавании, структур речевых блоков, от внешних влияний. На основе выполненных экспериментов получен ряд методических рекомендаций, которые позволяют разработчику речевых приложений прогнозировать показатели качества и обеспечивать их стабильность.

• Разработан информационно-вычислительный аппаратно-программный комплекс для автоматизации исследований свойств и характеристик распознавателей речи и процессов самообслуживания.

• Исследован речевой интерфейс как относительно малоизученный тип человеко-машинного взаимодействия, определены присущие ему ограничения с учетом слабостей человека и ошибок машинной стороны и выработаны практические рекомендации для проектировщиков. Разработана методология создания прикладных систем с речевым интерфейсом.

• Реализован метод автоматизированного накопления статистических данных об ошибках распознавания речи и разработаны модели и алгоритмы коррекции результатов распознавания на основе знаний об ошибках.

• Разработана система оценок и аналитические модели для анализа и оптимизации речевого диалога с различными процедурами обнаружения и коррекции ошибок на основе применения принципа квантификации.

• Созданы математические модели для расчета характеристик обслуживания вызовов и оптимизации функционирования контакт-центров с сервисами самообслуживания на базе речевых технологий.

• Разработанные принципы, модели и методы внедрены:

- в системах с нетрадиционным применением речевых технологий: веб приложение «Звуковой тренажер», предназначенное для онлайн-обучения людей с нарушением слуха правильному произношению звуков русского языка, и система речевого управления электронной картой г. Баку, в которой реализована идея применения для распознавания азербайджанской речи пакета другого, фонетически близкого, языка;

- в первых в России прикладных системах телефонного самообслуживания различного профиля с речевыми технологиями (получение справок об авиарейсах, заказ такси, автосекретарь, речевое управление электронными кошельками и др.);

- в универсальных блоках распознавания русской речи, включающих словари и грамматики: цифры, числа, города, даты, время суток, денежные суммы, номера телефонов, названия улиц Москвы и др., и соответствующей им базе аудио-файлов.

Личный вклад автора в публикациях, выполненных в соавторстве

В работах [211, 213, 232] автору принадлежат постановки задач, а также архитектура СМО с сервисами самообслуживания и математическая модель для расчета количественных характеристик системы. В [49, 52, 102, 213, 220, 224, 232] автором написаны разделы, относящиеся анализу эффективности систем с распознаванием речи, и получены соответствующие результаты. В [45, 214, 215, 216, 218, 223, 235,] выполнена разработка аналитических моделей для оценки ряда характеристик человеко-машинного диалога, предложена классификация диалогов при речевом взаимодействии клиента с АСМО, разработаны методы анализа и оптимизации диалога на основе применения принципа квантификации. Вклад в работах [11, 51, 211, 222] заключается в разработке структуры для создания интеллектуальных интерактивных телефонных приложений с речевым интерфейсом и сервисами самообслуживания. В [45, 46, 47, 50, 229, 230] автором предложены методы повышения устойчивости систем с распознаванием речи, реализован метод автоматизированного накопления статистических данных об ошибках распознавания и разработаны модели и алгоритмы управления диалогом на основе знаний об ошибках. В [217] разработаны методические рекомендации по оптимальному управлению системой с отказами. В [219, 238] автором предложены методы тестирования распознавателей и экспериментально исследованы их характеристики в контексте создания речевого доступа к услугам и сервисам систем массового обслуживания населения. В [53, 103, 219, 226, 227] написаны разделы относительно областей применения речевых технологий и предложена концепция их интеграции в СМО. В [127, 154, 229] исследованы области нетрадиционного применения речевых технологий для поддержки людей с нарушением слуха. В [225, 234, 236, 237, 238] автором разработана серия интеллектуальных систем речевого диалога клиентов по телефону с АСМО на основе технологии распознавания речи.

Список литературы диссертационного исследования доктор технических наук Фархадов, Маис Паша оглы, 2012 год

1. Жожикашвили В. А. Принципы построения общесоюзной АСУ процессами распределения мест на самолетах. // Управляющие системы и машины. 1978. N3. - с. 123 - 125.

2. Технический проект московского центра АСУ-5. Документ № 4. Комплекс обработки данных реального времени. Том 2. Информационное и программное технологическое обеспечение. / Ордена Ленина Институт проблем управления (автоматики и телемеханики). М., 1979.

3. Жожикашвили В.А., Вертлиб В.А., Ребортович Б.И., Петухова Н.В., Фархадов М.П. Автоматизированные системы управления процессами массового обслуживания нового поколения. Труды ИПУ, Москва, 1999.

4. Жожикашвили В. А., Вишневский В. М. Сети массового обслуживания. Теория и применение к сетям ЭВМ. -М: Радио и связь, 1988. 191 с.

5. Вишневский В. М. Разработка теоретических основ построения сетей передачи данных распределенных вычислительных систем массового обслуживания. Диссертация на соискание ученой степени доктора технических наук. - Москва, 1989.

6. Билик Р.В., Вертлиб В.А., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Автоматизированная система массового обслуживания для управления процессом реализации мест на авиатранспорте «СИРЕНА» (История создания и развития). М.: МАКС Пресс, 2008. - 76 с.

7. Жожикашвили В.А., Жожикашвили A.B., Петухова Н.В., Фархадов М.П. Новый человеко-машинный интерфейс для автоматизированных систем массового обслуживания // Труды Института проблем управления РАН. -М.: ИПУ РАН им. В.А. Трапезникова. 2000. - Т. IX. - 5 с.

8. Трощенко А.Ю. Система интерактивного речевого самообслуживания с распределенными ресурсами. Дис. канд.техн.наук. по специальности 05.13.15. / Учреждение российской академии наук Институт проблем управления им В.А. Трапезникова РАН. М.: 2009.

9. Жожикашвили В.А., Трощенко А. Ю. , Петухова Н.В., Фархадов М.П. Архитектура и тенденции развития контакт-центров // Автоматизация и современные технологии. 2007. № 3. С. 19-31.

10. Росляков A.B., Самсонов М.Ю., Шибаева И.В. Центры обслуживания вызовов (Call centre). М.: Эко-Трендз, 2002. 272 с.13.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.