Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях тема диссертации и автореферата по ВАК РФ 05.13.11, доктор технических наук Ронжин, Андрей Леонидович
- Специальность ВАК РФ05.13.11
- Количество страниц 330
Оглавление диссертации доктор технических наук Ронжин, Андрей Леонидович
Введение.
Положения, выносимые на защиту.
Глава 1. Организация и особенности человеко-машинного взаимодействия в интерактивных многомодальных приложениях.
1.1. Взаимодействие пользователя с окружающим интеллектуальным пространством.
1.2. Специфика многомодальных интерфейсов.
1.3. Анализ существующих интерактивных приложений с речевым и многомодальным интерфейсами.
1.4. Основные проблемы и способы обработки речевого сигнала.
1.5. Анализ методов дистанционной обработки русской речи.
1.6. Выводы по 1 главе.
Глава 2. Методы проектирования и тестирования многомодальных интерфейсов.
2.1. Основные характеристики многомодальных интерфейсов.
2.2. Особенности выбора многомодальных интерфейсов.
2.3. Конфигурирование программно-аппаратных ресурсов при проектировании интерактивных многомодальных приложений.
2.4. Основные архитектуры многомодальных приложений.
2.5. Методика поэтапного внедрения речевых и многомодальных интерфейсов.
2.6. Выводы по 2 главе.
Глава 3. Методы многоканальной обработки речи и пространственной локализации диктора.
3.1. Специфика дистанционной записи и распознавания речи.
3.2. Метод спектрально-пространственной обработки звуковых сигналов
3.3. Метод определения речевой активности в многоканальном звуковом потоке.
3.4. Выводы по 3 главе.
Глава 4. Модель представления словаря распознавателя на базе двухуровневого морфофонемного префиксного графа.
4.1 Методика построения двухуровневого морфофонемного префиксного графа (ДМПГ).
4.2 Сравнительный анализ моделей представления словаря.
4.3 Экспериментальная проверка ДМПГ и базовых моделей представления словаря распознавателя.
4.4 Модель декодирования речевого сигнала на базе ДМПГ.
4.5. Выводы по 4 главе.
Глава 5. Применение разработанных методов дистанционной обработки русской речи в многомодальных интерактивных приложениях.
5.1. Программное обеспечение разработки многомодального интерфейса
5.2. Многомодальный информационно-справочный киоск.
5.3. Управление оборудованием интеллектуального зала.
5.4. Многоканальная система протоколирования совещания в интеллектуальном зале.
5.5. Выводы по 5 главе.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях2013 год, доктор технических наук Карпов, Алексей Анатольевич
Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний2013 год, кандидат технических наук Будков, Виктор Юрьевич
Модели и программные средства интерактивного взаимодействия с подвижным информационно-навигационным комплексом самообслуживания2013 год, кандидат технических наук Прищепа, Мария Викторовна
Алгоритмы выделения речи целевого диктора с использованием планарных компактных микрофонных решеток2021 год, кандидат наук Куан Чонг Тхе
Речевые технологии в автоматизированных системах массового обслуживания2012 год, доктор технических наук Фархадов, Маис Паша оглы
Введение диссертации (часть автореферата) на тему «Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях»
Актуальность темы диссертации. Появление широкого спектра компьютеризированных устройств различного назначения существенно расширяет возможности современного человека в области коммуникации, образования, бизнеса, медицины и других областей. Однако, рост сложности технологий и устройств в большинстве случаев приводит к усложнению принципов взаимодействия с пользователем. Многие современные научно-технические достижения используются не в полной мере, так часть функций оказываются доступными только ограниченному числу пользователей-специалистов. Наличие естественного способа взаимодействия сейчас является не менее важным свойством устройства, чем его функциональные возможности. Также следует учесть, что физические ограничения и личные предпочтения пользователей оказывают влияние на выбор доступного или наиболее удобного способа взаимодействия. Поэтому согласованность информационных каналов между пользователем и устройством является второй актуальной • проблемой; в области проектирования интерфейсов. Наконец, свойства окружающей среды, в< которой происходит коммуникация, накладывают свои ограничения» на способы передачи данных, и пользователь должен иметь возможность выбора информационного канала, который более устойчив в текущих условиях динамически изменяющейся ситуации.
Окружающее интеллектуальное пространство (ОИП) является новой парадигмой в области информационных технологий. Распознавание текущей ситуации, анализ поведения пользователя и удовлетворение его потребностей в ненавязчивой и практически незаметной форме является основной идеей в концепции ОИП. Применение многомодальных интерфейсов, обрабатывающих естественные для человека способы коммуникации (речь, жесты, движения тела, головы, рукописные наброски, направление взгляда, мимика и др.), обеспечивает взаимодействие между пользователями и интеллектуальными модулями, встроенными в окружающие объекты в интуитивно понятной и простой форме. Средства реализации задачи по обслуживанию пользователя остаются скрытыми, а предъявляются только конечные результаты деятельности, что концентрирует внимание человека на выполняемой задаче и создаёт эффект ненавязчивости обслуживания.
С разработкой ОИП к речевым технологиям предъявляются все более жесткие требования; в частности, система должна воспринимать речь диктора, свободно перемещающегося в помещении, то есть самостоятельно определять местонахождение источника полезного сигнала. Подавляющее большинство существующих систем распознавания речи способно обрабатывать только речь диктора, записанную с помощью микрофона-гарнитуры, расположенного непосредственно перед ртом диктора, саму же запись рекомендуется проводить в тихом, звукоизолированном помещении. Однако очевидно, что далеко не каждый пользователь готов к таким ограничениям. Для развития и внедрения речевых технологий необходимо сделать процесс записи речи максимально удобным для пользователя, прежде всего, обеспечив дистанционную запись речи в условиях фонового шума и параллельных разговоров в помещении. Кроме того, автоматическое распознавание естественной речи предполагает работу со сверхбольшими словарями, размер которых превышает несколько миллионов словоформ, поэтому разработка средств компактного хранения, быстрого поиска и своевременного отсечения маловероятных гипотез в процессе декодирования является актуальной задачей, особенно для русского языка с относительно высоким уровнем флективности.
В отечественных работах наиболее активно исследуются вопросы многомодального анализа биометрических показателей для идентификации личности и состояния человека: Галунов В.И., Аграновский A.B., Бондаренко В.П., Харламов A.A. В развитие теории речевых технологий большой вклад внесли отечественные исследователи Сапожков М.А., Загоруйко Н.Г., Кедрова Г.Е., Чистович JI.A., Косарев Ю.А., Потапова Р.К., Чучупал В.Я., Сорокин В.Н., Скрелин П.А. и другие.
Проблемная ситуация, рассматриваемая в диссертации, заключается в наличии несоответствия возможностей, предоставляемых существующими и перспективными аппаратно-программными средствами, соответствующими информационными технологиями, поддерживающими интерактивные многомодальные интерфейсы, и имеющимся в настоящее время научно-методическим обеспечением их использования и развития. Указанное несоответствие порождает научно-техническую проблему, суть которой состоит в необходимости разработки и реализации модельноалгоритмического, методического, программного, технического и информационного обеспечения процессов естественного человеко-машинного взаимодействия в интерактивных многомодальных приложениях на базе многоканальной дистанционной обработки речи.
Связь с государственными и международными программами. Работа выполнена в СПИИРАН (2003-2010 гг.). Основные результаты диссертационной работы получены в рамках госбюджетных научно-исследовательских программ: ФЦП «Интеграция»: проект "Аспекты устного ввода", № 326.81 (2002-2004 гг.); программы ОИТВС РАН «Новые физические и структурные решения в инфотелекоммуникациях» проект №4.2: «Разработка методов статистической обработки речи для дикторонезависимых инфотелекоммуникационных приложений», (2003-2008 гг.); программы, ОНИТ РАН «Фундаментальные проблемы разработки новых структурных решений и элементной базы в телекоммуникационных системах» проект №1.1. «Разработка средств универсального многомодального доступа для системы интерактивного телевидения» (2009-2010 гг.); Программы СПбНЦ РАН» проект №2.118 «Исследование принципов многомодального взаимодействия на базе информационного киоска» (2007г.); ФЦП. «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы, (ГК №П2360 «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем»). Работа поддержана российскими, грантами: Президента РФ № МК-9351.2006.9 (2006-2008 гг.), РФФИ № 07-07-00073-а (2007-2009гг.), РФФИ № 08-07-90002-Бела (2008-2009гг.), РФФИ № 09-07-91220-СТа (2009-2010гг.); Правительства Санкт-Петербурга № PD04-3.17-39 (2004г.), № PD05-3.17-34 (2005г.), № 30-04/132 (2008г.), № 26-05/131 (2009г.), Фонда содействия отечественной науке (2004-2005гг.), Фонда «Научный Потенциал» №64 (2006г.). Работа поддержана грантами Евросоюза INTAS № 04-77-7404 (20052007 гг.), INTAS № 05-1000007-426 (2006-2008гг.), грантом Евросоюза FP7 SIMILAR NoE IST-2002-507609, (2003-2007 гг.).
Целью диссертационной работы» является повышение эффективности человеко-машинного взаимодействия в интерактивных многомодальных приложениях за счет обобщения* и совершенствования научно-методического аппарата, поддержки системотехнических решений, связанных с многоканальной дистанционной обработкой русской речи и разработкой на этой основе научно-обоснованных модельно-алгоритмических, программно-технических решений. Для достижения поставленной цели в работе решены следующие задачи:
1. Анализ основных направлений в области человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов; применяемых в интерактивных информационно-управляющих системах.
2. Разработка методологического и математического обеспечения проектирования многомодальных интерфейсов и конфигурирования программно-аппаратных средств организации человеко-машинного взаимодействия в интерактивных приложениях.
3. Разработка методов спектрально-пространственной обработки,речи и анализ конфигураций системы (массива) микрофонов с альтернативными геометрическими схемами расположения датчиков.
4. Разработка модели компактного представления акустико-лексических структур для. распознавания,русской-речи и методики формирования базы данных слов и их транскрипций.
5. Разработка, тестирование и реализация программного обеспечения построения многомодальных интерфейсов для интерактивных приложений.
6. Разработка прикладных, программно-аппаратных решений- с применением многомодальных интерфейсов для предоставления пользователям справочной, информации4 в интерактивном, режиме и сопровождения мероприятий в интеллектуальном зале.
7. Обобщение и оценка результатов исследований- по проблеме организации многомодального человеко-машинного взаимодействия, с оценкой эффективности полученных результатов:
Объект исследования. Информационные и энергетические процессы формирования и обработки речевого сигнала на акустическом, фонетическом и текстовом уровнях, а также многомодальные способы человеко-машинного взаимодействия.
Предмет исследования. Закономерности, принципы, способы, методы, модели, алгоритмы, методики и системотехнические решения нового класса задач синтеза интеллектуальной информационной технологии и системы многоканальной дистанционной обработки речи в интерактивных многомодальных приложениях.
Методы исследования. Методы цифровой обработки сигналов, психоакустики, радиолокации, распознавания образов, статистического анализа, автоматической обработки текстов, теории графов, динамического программирования, объектно-ориентированного проектирования и программирования.
Научная новизна. Разработана совокупность оригинальных моделей, методов, алгоритмов и программно-аппаратных комплексов для исследования и обработки русской речи в. интерактивных многомодальных приложениях, в том числе:
1. разработано методологическое и математическое обеспечение проектирования интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов', для организации естественного взаимодействия пользователей с учетом ограничений на способы коммуникации со стороны пользователям клиентских устройств, среды взаимодействия и предметной области предоставляемого сервиса;
2. разработан метод анализа речевой, активности, отличающийся применением антропоморфных моделей слуха, критериального оценивания уровня энергии взаимного спектра синхронизированных по времени сигналов, а также учета пространственного положения диктора при выявлении границ речи в многоканальном звуковом потоке;
3. разработана система протоколирования речи участников телеконференций, отличающаяся, использованием многоканальной распределенной системы регистрации аудиопотоков, расчета относительной энергии сигнала и его спектра1 и оценивания пространственного положения- источника сигнала посредством трехмерной конфигурации микрофонов;
4. предложена модель компактного представления словаря транскрипций системы распознавания русской речи на базе двухуровневого морфофонемного префиксного графа, отличающаяся применением декомпозиции транскрипций на основу и концовку с последующим объединением одинаковых последовательностей первых фонем основ в виде лексического дерева и сохранением списка уникальных транскрипций концовок;
5. предложена методика экспертного сопровождения в процессе постепенной замены оператора автоматическим модулем обработки речи, обеспечивающая накопление реального речевого материала для адаптации системы распознавания речи;
6. разработано программное обеспечение проектирования многомодального интерфейса, отличающееся применением модулей многоканальной обработки аудио- и видеосигналов, выполнением многопоточных задач на распределенных вычислительных ресурсах и созданием кроссплатформенных приложений, адаптивных к возможностям и текущему состоянию клиентского устройства;
7. разработана программно-аппаратная архитектура многомодального информационно-справочного киоска, отличающаяся использованием аудиовизуальных коммуникативных каналов для имитации естественного интерфейса и организации диалога с пользователем в реальных условиях эксплуатации;
8. разработана технологическая инфраструктура интеллектуального зала, отличающаяся применением модулей многоканальной регистрации и обработки аудиовизуальных сигналов для определения положения и слежения за пользователями, дистанционного распознавания голосовых команд, мультимедийного оповещения удаленных пользователей о ситуации внутри зала и организации распределенных мероприятий. Обоснованность научных положений и выводов обеспечена за счет анализа состояния исследований в данной области, а также согласованностью теоретических выводов с результатами экспериментальной проверки моделей. Новизна технических предложений подтверждается полученными свидетельствами на программное обеспечение.
Практическая ценность работы. Модели, методы, алгоритмы и программное обеспечение, разработанные в диссертационной работе, направлены на повышение эффективности и естественности человеко-машинного взаимодействия. Применение многомодальных интерфейсов позволяет организовать естественное взаимодействие между пользователями и интеллектуальными модулями. Средства реализации задачи по обслуживанию пользователя остаются скрытыми, а предъявляются только конечные результаты деятельности, что концентрирует внимание человека на выполняемой задаче и создаёт эффект ненавязчивости обслуживания. Разработанный многомодальный киоск является прототипом широкого спектра информационно-справочных систем самообслуживания, расположенных в бизнес-центрах, отелях, аэропортах, выставочных комплексах, ВУЗах, медицинских центрах, торговых центрах, музеях, спортивных клубах и других общественно-транспортных центрах.
Применение разрабатываемых методов обработки речи и других естественных модальностей, а также адаптивного к устройству пользователя способа формирования веб-интерфейса позволит транслировать совещания на различные программно-аппаратные платформы и составлять мультимедийные отчеты .распределенных совещаний в режиме реального времени, значительно сократив время ручной обработки речевых записей. Разработка сети интеллектуальных залов позволит организовать совещания, для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал, повысит качество образования за счет автоматизированного непрерывного контроля над каждым учащимся во время занятий.
Реализация результатовработы. Разработанные методы, программное обеспечение, а также технические решения, были использованы в ходе выполнения Государственного контракта № П2360 с Федеральным агентством по образованию; договоров с компанией ТеНо Ав, Германия, (2006-2008), компанией «№\уУо1се» Санкт-Петербург (2005-2007), Дрезденским-технологическим университетом, Германия- (2008-2009), Университетом Западной Богемии, Чехия (2003-2010), а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного университета аэрокосмического приборостроения, Санкт-Петербургского государственного политехнического университета, Санкт-Петербургского государственного электротехнического университета.
Апробация результатов работы. Результаты диссертационного исследования представлялись на Международных конференциях «Речь и Компьютер» 8РЕСОМ (Санкт-Петербург 2000,2002,2004, 2006,2009, Москва
2001, 2007, Патры, Греция 2005); Международной конференции «Региональная информатика» (Санкт-Петербург 2000,2002,2004,2006,2008); Международной научно-практической конференции «Искусственный Интеллект» (Кацивели, Крым, Украина, 2002, 2004, 2006); Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы» (п. Дивноморское 2005,2007); III Всероссийской конференции «Теория и практика речевых исследований» АРСО-2003, Москва; Международных конференциях «Распознавание образов и анализ изображений: новые информационные технологии» (Санкт-Петербург 2004, Нижний Новгород 2008); семинарах «Биометрические системы» российской секции IEEE Computational Intelligence Society, Москва, Россия, 2005; 2006; 6 европейской конференции PEVOC'6, Лондон, Великобритания, 2005; Международных конференциях по человеко-машинному взаимодействию НСИ (Лас-Вегас, США, 2005, Пекин, Китай; 2007, Сан Диего, США 2009); 2 Международной конференции «Автоматизация, управление и информационные технологии — 2005» ACIT-2005, Новосибирск, 2005; Международном симпозиуме SPIE Defense and Security Symposium, Орландо, США, 2005; 3 Балтийской конференции: Second Baltic Conference on Human Language Technologies HTL'2005, Таллинн, Эстония, 2005; 34 Международной филологической конференции, Санкт-Петербург, 2005; 5 Международной научной конференции «Обработка информации и управление в чрезвычайных и экстремальных ситуациях» (ОИУЧЭС'2006), Минск, Беларусь, 2006; XX Сессии Российского акустического общества, Москва, 2008; 44 Международном симпозиуме «Applied Military Psychology», Санкт-Петербург, 2008; Международной конференции ICUMT-2009, Санкт-Петербург, 2009; 2 Международной конференции ruSMART 2009, Санкт-Петербург, 2009.
Публикации. По материалам диссертации опубликовано 126 печатных работ, включая 19 публикаций в ведущих научных журналах, рекомендованных ВАК, 4 свидетельства об официальной регистрации программ в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам, 1 монография, 2 главы в книгах и 1 учебно-методическое пособие.
Структура и объем работы. Диссертация содержит введение, пять глав, заключение, список литературы (235 наименований), 2 приложения. Основной материал изложен на 283 стр., включая 19 таблиц, 76 рисунков.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Модели и программная реализация распознавания русской речи на основе морфемного анализа2007 год, кандидат технических наук Карпов, Алексей Анатольевич
Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах2008 год, доктор технических наук Харламов, Александр Александрович
Автоматическое распознавание аудиовизуальной русской речи2020 год, кандидат наук Иванько Денис
Методы и модели распознавания русской речи в информационных системах2014 год, кандидат наук Гусев, Михаил Николаевич
Инкорпорирование речевых компонентов в лингвистические обучающие системы2005 год, кандидат филологических наук Ордин, Михаил Юрьевич
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Ронжин, Андрей Леонидович
5.5. Выводы по 5 главе
На основе предложенного методологического и математического обеспечения проектирования многомодальных интерактивных приложений и конфигурирования программно-аппаратных ресурсов были определены комбинации входных и выходных модальностей для разработанных приложений, относящихся к различным классам интерактивных информационно-управляющих сервисов: многомодальный информационный киоск самообслуживания; многомодальное управление оборудованием интеллектуального зала; система протоколирования и поддержки проведения телеконференций.
Представлена архитектура и лабораторный прототип автоматической информационно-справочной системы МИДАС (Многомодальный Интерактивно-Диалоговый Автомат Самообслуживания) с многомодальным пользовательским интерфейсом, а также исследования и анализ взаимодействия пользователей с разработанным устройством. В многомодальном киоске для дистанционного распознавания русскоязычных голосовых команд применяется массив микрофонов, позволяющий локализовать источник полезного речевого сигнала и понизить влияние внешних акустических шумов на точность распознавания речи. Миниатюрные видеокамеры и соответствующие методы обработки оптического потока обеспечивают детектирование и отслеживание положения пользователя в рабочей зоне киоска. Информационная система предоставляет пользователю многомодальный и речевой интерфейсы для получения справочной информации о сотрудниках и подразделениях СПИИРАН, а также картографическую информацию об улицах Санкт-Петербурга. Основными аппаратно-программными модулями устройства являются: 1) видеообработка с технологией компьютерного зрения для распознавания положения тела, лица и отдельных органов лица пользователя; 2) дикторонезависимая система распознавания русской речи, использующая массив микрофонов для подавления шумов и локализации источника полезного сигнала при дистанционной записи речи; 3) система аудиовизуального синтеза русской речи (говорящая голова), применяемая для виртуального помощника-аватара; 4) интерактивный графический пользовательский интерфейс на базе сенсорного экрана; 5) менеджер диалога и диалоговая модель, включающие информационные базы данных и систему управления стратегиями диалога. Объединение удобной для пользователя вычислительной техники с речевыми технологиями, использование виртуальных помощников позволяют создавать эффективные и естественные интерфейсы, в котором в отношениях человек-машина на первое место ставится человек.
Посредством многомодального информационного киоска исследуются вопросы естественного и эргономичного взаимодействия пользователя с машиной, учитывая различные способы коммуникации. Накопленный в ходе исследования модели материал используется для изучения когнитивных и поведенческих характеристик пользователя и оптимизации разрабатываемых многомодальных интерфейсов. Были проведены когнитивные эксперименты по человеко-машинному взаимодействию с использованием трех вариантов интерфейсов: (1) полностью речевой интерфейс; (2) интерфейс с дублированием речи текстом; (3) полностью текстовый интерфейс. Результаты экспериментов подтвердили готовность большинства потенциальных пользователей к естественному многомодальному либо речевому взаимодействию с автоматической системой.
Рассмотрена технологическая инфраструктура интеллектуального зала, оснащенного в здании института. Наличие многомодального пользовательского интерфейса является отличительной характеристикой созданного интеллектуального зала. Разработанные технологии обработки аудиовизуальных данных были успешно внедрены в интеллектуальном зале для обеспечения естественного взаимодействия с оборудованием зала. Среди наиболее важных примененных технологий следует отметить автоматическое распознавание речи, идентификацию диктора, локализацию источников звука, определение положения и слежение за подвижным объектом и лицом человека, определение позы человека. Кроме того, в разработанных интерактивных приложениях используется технология аудиовизуального синтеза русской речи «говорящая голова», созданная в ходе совместных проектов с ОИПИ HAH Беларуси и Университетом Западной Богемии.
Интеграция указанных выше технологий обеспечивает систему управления залом данными о текущей обстановке в помещении, поведении пользователей и надежное распознавание голосовых команд за счет анализа пространственно-временной и ситуативной информации. На основе веб-интерфейса была реализована система удаленного управления оборудованием зала посредством гетерогенных клиентских устройств. Представленная модель компоновки веб-страницы адаптируется к возможностям и текущему состоянию устройства и автоматически формирует соответствующую структуру веб-страницы, отображающейся на стороне клиента.
Разработанный интеллектуальный зал представляет собой распределённую систему, которая содержит сеть интеллектуальных агентов (программных модулей), активационных устройств, мультимедийных средств и аудиовизуальных сенсоров. Основная задача зала — обеспечение участников совещания или лекции необходимыми сервисами на основе автоматического анализа текущей ситуации. Осведомлённость зала о пространственном положении участников, их текущих действиях, роли в текущем мероприятии и их предпочтениях помогает более точно предсказать намерения и потребности участников.
Разработка многоканальной системы анализа речевой активности, использующейся при создании мультимедийных отчетов распределенных мероприятий, способствует сокращению трудозатрат при подготовке стенограмм, повышению качества проведения телеконференций и позволяет вести мониторинг и расчет статистики хода совещания, а также организовать быстрый поиск по мультимедийным архивам. В разработанной системе протоколирования используется набор персональных веб-камер со встроенными микрофонами и алгоритм определения речевой активности в многоканальном аудиопотоке, позволяющих достичь приемлемого качества выделения фраз дикторов и автоматически выбирать камеру участника, активного в текущий момент. Предложенная логико-временная модель формирования графического интерфейса веб-страницы телеконференции, открытой в браузере на персональном компьютере или мобильном устройстве, позволяет удаленному участнику воспринимать все события, происходящие в интеллектуальном зале.
Перечисленные прикладные модели были выполнены при поддержке российских и зарубежных грантов и продолжают модернизироваться в ходе текущих государственных программ, направленных на изучение средств естественной человеко-машинной коммуникации.
Заключение
Совокупность полученных в настоящем диссертационном исследовании научных результатов составляет теоретические и технологические основы решения проблемы системотехнического обеспечения процессов естественного человеко-машинного взаимодействия в интерактивных многомодальных приложениях на базе многоканальной дистанционной обработки речи, внедрение которых вносит значительный вклад в развитие экономики страны. Получены следующие результаты:
1. Методологическое и математическое обеспечение проектирования интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов для организации естественного взаимодействия пользователей с учетом ограничений на способы коммуникации со стороны пользователя, клиентских устройств, среды взаимодействия и предметной области предоставляемого сервиса.
2. Метод анализа речевой активности, основанный на применении антропоморфных моделей слуха, критериального оценивания уровня энергии взаимного спектра синхронизированных по времени сигналов, а также учета положения диктора при выявлении границ речи в многоканальном звуковом потоке.
3. Система протоколирования речи участников телеконференций на базе многоканальной распределенной системы регистрации аудиопотоков, расчета относительной энергии сигнала и его спектра и оценивания пространственного положения источника сигнала посредством трехмерной конфигурации микрофонов.
4. Модель компактного представление словарей транскрипций системы распознавания русской речи на базе двухуровневого морфофонемного префиксного графа, отличающаяся применением декомпозиции транскрипций на основу и концовку с последующим объединением одинаковых последовательностей первых фонем основ в виде лексического дерева и сохранением списка уникальных транскрипций концовок.
5. Методика экспертного сопровождения, обеспечивающая накопление реального речевого материала для адаптации системы распознавания речи в процессе постепенной замены оператора автоматическим модулем обработки речи.
6. Программное обеспечение разработки и функционирования многомодального интерфейса, отличающееся применением модулей многоканальной обработки аудио- и видеосигналов, выполнением многопоточных задач на распределенных вычислительных ресурсах и созданием кроссплатформенных приложений, адаптивных к возможностям и текущему состоянию клиентского устройства.
7. Программно-аппаратная архитектура многомодального информационно-справочного киоска, использующая аудиовизуальные коммуникативные каналы для имитации естественного общения и организации диалога с пользователем в реальных условиях эксплуатации.
8. Технологическая инфраструктура интеллектуального зала, отличающаяся применением модулей многоканальной регистрации и обработки аудиовизуальных сигналов для определения положения и слежения за пользователями, дистанционного распознавания голосовых команд, мультимедийного оповещения удаленных пользователей о ситуации внутри зала и организации распределенных мероприятий.
9. Интерактивные приложения, реализованные на основе разработанных методов и созданных многомодальных интерфейсов, обеспечивающих естественную коммуникацию пользователя с интеллектуальными информационными сервисами.
Полученные результаты соответствуют п.1 «Модели и методы проектирования и анализа алгоритмов и программ, их эквивалентных преобразований и верификации», п.5 «Разработка и исследование человеко-машинных интерфейсов, программных средств распознавания образов и визуализации, мультимедийного общения», п.8 «Создание и исследование новых технологий проектирования, анализа, оценки качества, стандартизации и сопровождения программных систем» паспорта специальности 05.13.11 -«Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей».
Список литературы диссертационного исследования доктор технических наук Ронжин, Андрей Леонидович, 2010 год
1. Аванесов Р.И. Русское литературное произношение. Москва: Просвещение, 1972.
2. Авирн С.Б. О характеристиках надежности распознавания устных команд устройством ИКАР// Труды Всесоюзной школы-семинара АРСО-13, г. Новосибирск, 23-28 июля 1984г. Новосибирск, 1984. ч.1. - С. 170-180.
3. Александрова O.A., Иваницкий В.В. Пауза колебания комплексный феномен современной коммуникации // Вестник Новгородского государственного университета. Т. 25, 2003. - С. 95- 101.
4. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистический процессор для сложных информационных систем. М.: Наука, 1992.
5. Афанасьев В.П., Дегтярев Н.П., Карабаева Л.Ю. и др. Архитектура речевого телефонного терминала МАРС-2 "Электроника МС7602" // Труды Всесоюзной школы-семинара АРСО-14, 1986, ч.2. С. 77.
6. Баранников В.А., Кибкало A.A. Пакет программ построения систем распознавания речи. Труды III Всероссийской конференции «Теория и практика речевых исследований» АРСО-2003. Москва, МГУ им. М.В. Ломоносова, Сентябрь 2003. С.7-12.
7. Беллман Р. Динамическое программирование. М.: ИЛ, 1960. - 400 с.
8. Богданов Д.С., Кривнова О.Ф., Подрабинович А.Я. Современный инструментарий для разработки речевых технологий // Информационные технологии и вычислительные системы, 2, 2004. С. 11-24.
9. Ю.Бондарко Л.В. Звуковой строй современного русского языка. М., Просвещение, 1977. 175 с.
10. П.Викторов А.Б., Жаков M.Д., Форш Б.Н. Система распознавания дискретной речи до 1000 слов для персонального компьютера// Труды Всесоюзной школы-семинара АРСО-15, 1989. С. 314-315.
11. Винцюк Т. К. Распознавание слов устной речи методами динамического программирования. М.: Кибернетика, 1968. - №1. - С. 15-22.
12. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов.— Киев: Наук, думка, 1987. 264 с.
13. Винцюк Т.К., Скрипник А.Г. Модуль анализатора речи СРД "Речь-2" -Тезисы докладов 16-го всесоюзного семинара (АРСО 16), 1991. - С. 250251.
14. Геппенер В.В., Балтрашевич В.Э., Жукова H.A., Ильина И.В. Система идентификации телеметрических параметров на основе технологии Web-сервисов // Системы управления и информационные технологии, № 3(33), Воронеж: Научная книга, 2008. С.30-34.
15. Гойхман О .Я., Надеина Т.М. Речевая коммуникация // Инфра-М, 2006. 272 с.
16. Голд Б. Рэйдер Ч. Цифровая обработка сигналов. Пер. с англ.-М.: Советское радио, 1973. 368 с.
17. Горловский A.A., Лендяшев H.A., Петров H.A. и др. Система распознавания речи ДИС-332. Труды Всесоюзной школы-семинара АРСО-13, г. Новосибирск, 1984. ч.2. С. 95-96.
18. Городецкий В.И., Карсаев О.В., Самойлов В.В., Серебряков C.B. Агентская платформа для повсеместных вычислений // Информационные технологии и вычислительные системы. Вып. 4. М.: Наука, 2008. С. 51-60.
19. ГОСТ Р ИСО 9241-3-2003. Эргономические требования при выполнении офисных работ с использованием видеодисплейных терминалов (ВДТ). Часть 3. Требования к визуальному отображению информации.
20. Гринберг Дж. Квантитативный подход к морфологической типологии языков / Пер. с англ. // Новое в лингвистике. М.: ИЛ, 1963. Вып. 3. С.60-94.
21. Даджион Д., Мерсеро Р. Цифровая обработка многомерных сигналов. Пер. с англ., М.:Мир, 1988.-488 с.
22. Джелинек Ф. Распознавание непрерывной речи статистическими методами // ТИИЭР. 1976. - Т. 64. - № 4. - С. 131-160.
23. Дорохина Г.В., Павлюкова А.П. Модуль морфологического анализа слов русского языка // Искусственный интеллект. 2004. - № 3. - С. 636-642.
24. Зализняк A.A. Грамматический словарь русского языка. М.: Русские словари, 2003. -800 с.27.3латоустова JI.B., Потапова Р.К., Трунин-Донской В.Н. Общая и прикладная фонетика. М.: Издательство МГУ, 1986. 304с.
25. Иванова Т.И. Компьютерные технологии в телефонии. Эко-Трендз, М., 2002.
26. Карпов A.A., Ронжин A.JL, Ли И.В., Шалин А.Ю. Речевые технологии в многомодальных интерфейсах // Труды СПИИРАН. Вып. 2, т.1. СПб: СПИИРАН, 2004. С. 183-193.
27. Карпов A.A., Ронжин А.Л., Ли И.В. SIRIUS система дикторонезависимого распознавания слитной русской речи. // Известия ТРТУ, № 10, 2005. - С. 44-53.
28. Карпов A.A., Ронжин А. Л. Многомодальные интерфейсы в автоматизированных системах управления // Известия вузов. Приборостроение. 2005. Т. 48, № 7. С. 9-14.
29. Карпов А., Ронжин А., Лобанов Б., Цирульник Л., Железны М. Разработка бимодальной системы аудиовизуального распознавания русской речи // Информационно-измерительные и управляющие системы, Москва, № 10, Т. 6, 2008. С. 58-62.
30. Като Я. Система распознавания связной речи фирмы NEC // Зарубежная радиоэлектроника. 1980, №4.-С. 108-120.
31. Кипяткова И.С. Обзор подходов к моделированию спонтанной речи. Труды второго междисциплинарного семинара «Анализ разговорной русской речи» (АР3 2008), Санкт-Петербург, 2008. - С. 70-77.
32. Зб.Кириллов Н.П., Дашевский В.П., Соколов Б.В., Юсупов P.M. Перспективные варианты использования технологии радиочастотной идентификации в библиотечном и музейном деле. // Труды СПИИРАН. Вып. 7, т. 1. — СПб.: Наука, 2008. С. 48-53.
33. Классификация и кластер / Под ред. Райзина Дж.В. М.: Мир, 1980 - 389 с.
34. Косарев Ю.А. Естественная форма диалога с ЭВМ. Л.: Машиностроение, 1989.-143 с.
35. Крестьянинов C.B. Интеллектуальные сети и компьютерная телефония. М., «Радио и связь», 2001.
36. Левинсон С.Е. Структурные методы автоматического распознавания речи. //ТИЭР.- 1985.-Т. 73.-№ 11.-С. 100-129.
37. Леонович A.A. Современные технологии распознавания речи. Диалог 2005, http://www.dialog-21.ru/Archive/2005/Leonovich%20A/Leonovich%20A.htm
38. Леонтьева Ан.Б. Модуль морфофонетической обработки слов для построения словаря распознавателя русской слитной речи. Научно-теоретический журнал «Искусственный интеллект», № 3. Донецк, Украина, 2007. - С. 319-327.
39. Леонтьева Ал.Б. Разработка моделей мусора для устранения помех при распознавании спонтанной речи. Научно-теоретический журнал «Искусственный интеллект», № 3. Донецк, Украина, 2007. - С. 309-318.
40. Леонтьева Ал.Б., Кипяткова И.С. Учет особенностей спонтанной речи при создании систем автоматического распознавания // Известия вузов. Приборостроение. 2008. Т. 51, № 11. С. 51-56.
41. Лобанов Б.М., Цирульник Л.И., Железны М. и др. Система аудиовизуального синтеза русской речи // Информатика. Минск, 2008. № 4(20). С. 67-78.
42. Лобанов Б.М. Компьютерный синтез и клонирование речи // Минск: Белорусская Наука, 2008.
43. Мазуренко И.Л. Многоканальная система распознавания речи, Сборник трудов VI всероссийской конференции "Нейрокомпьютеры и их применение", Москва, 2000 г.
44. Макхоул Дж., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИЭР. 1985. - Т. 73. - №11. - С. 19-61.
45. Мальковский М.Г. Диалог с системой искусственного интеллекта. М.: Изд-во МГУ, 1985.-214 с.
46. Маркел Д.Д., Грей А.Х. Линейное предсказание речи: Пер. с англ. -М.: Связь, 1980.-308 с.
47. Методы автоматического распознавания речи: в 2-х кн. / Под ред. У. Ли. -М.: Мир, 1983.-716 с.
48. Моттль В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов / М.: Физматлит, 1999. 351 с.
49. Мясников Л.Л. Объективное распознавание звуков речи // ЖТФ. 1943. -№ 3. - С. 109-115.
50. Нариньяни A.C. Искусственный интеллект: стагнация или новая перспектива? Пущино: РАИИ / В сб. Трудов в 3-х томах Шестой национальной конференции по искусственному интеллекту с международным участием 5-11 октября, Пущино, Россия. Т.1. -1998. - С.15-29.
51. Пинкер С. Язык как инстинкт. Пер. с англ. / Общ. Ред. В.Д. Мазо. — М.: УРСС, 2004.-456 с.
52. Пиотровский Р.Г. Текст, машина, человек. JL: Наука, 1975. — 327 с.
53. Попов Э.В. Общение с ЭВМ на естественном языке. М.:УРСС, 2004. - 360 с.
54. Потапова Р.К. Речь: коммуникация, информация, кибернетика. 2003. — 568 с.
55. Распознавание слуховых образов / Под ред. Загоруйко Н.Г. Новосибирск: «Наука», 1970. - 340 с.
56. Ронжин A.JL, Карпов A.A., Ли И.В. Речевой и многомодальный интерфейсы. М.: Наука, 2006 - (Информатика: неограниченные возможности и возможные ограничения), 173 с.
57. Ронжин А.Л., Леонтьева А.Б. Применение техники «Гудвин» для моделирования человеко-машинного взаимодействия // Известия вузов. Приборостроение. 2006. Т. 49, № 11. С. 70-75.
58. Ронжин A.JL, Карпов A.A., Леонтьева Ан.Б., Костюченко Б.Е. Разработка многомодального информационного киоска // Труды СПИИРАН. Вып. 5, т. 1. — СПб.: Наука, 2007, С. 227-245.
59. Ронжин А.Л., Ли И.В. Автоматическое распознавание русской речи // Вестник Российской Академии Наук, Том 77, Вып. 2, 2007, С. 133-138.
60. Ронжин А.Л. Топологические особенности морфофонемного способа представления словаря для распознавания русской речи // Вестник компьютерных и информационных технологий, № 9, 2008, С. 12-19.
61. Ронжин А.Л. Сравнительный анализ и оценка моделей словаря для систем распознавания русской речи. // Информационные технологии, №1, 2009, С. 21-28.
62. Ронжин А.Л., Карпов A.A., Кагиров И.А. Особенности дистанционной записи и обработки речи в автоматах самообслуживания // Информационно-управляющие системы, Вып. 42, т. 5. — СПб.: ГУАП, 2009, С. 32-38.
63. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.-452 с.
64. Селфридж М. Интегральная обработка обеспечивает надежное понимание. // Новое в зарубежной лингвистике. Вып. 24: Пер. с англ. М.: Прогресс, 1989.-С. 161-208.
65. Скороходько Э.Ф. Семантические сети и автоматическая обработка текста. Киев, 1983. - 112 с.
66. Смирнов A.B., Пашкин М.П., Шилов Н.Г., Левашова Т.В. Онтологии в системах искусственного интеллекта: способы построения и организации. Новости искусственного интеллекта, 2002. № 1. Часть 1. С. 3-13.
67. Сокирко А. Диссертация "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)". http://www.aot.rU/docs/sokirko/sokirko-candid-2.html#2-3-l.
68. Сокирко A.B. Морфологические модули на сайте www.aot.ru // Диалог-2004. Компьютерная лингвистка и интеллектуальные технологии: Труды междунар. конф. М.: Наука, 2004.
69. Соколова E.H. Алгоритмы лемматизации для русского языка // Рабочий проект многоязычного автоматического словаря на 60 тыс. словарных статей. Т.1. Лингвистическое обеспечение. М. 1984. - С. 45-62.
70. Сорокин В.Н. Теория речеобразования М.: Радио и связь, 1985.
71. Сорокин В.Н. Синтез речи М.: Наука, 1992. - 392с.
72. Сорокин В.Н., ЦыплихинА.И. Сегментация и распознавание гласных // Информационные процессы, Том 4 , № 2, 2004. С. 202-220.
73. Сулейманов Д.Ш. Аналитический обзор отечественных и зарубежных работ обработки естественного языка в аспекте прагматически-ориентированного подхода. Электронный журнал Казанского госуниверситета «Информационные технологии».
74. Трунин-Донской В.Н. Опознавание набора слов с помощью цифровой вычислительной машины // Работы по технической кибернетике. -М.: ВЦ АН СССР, 1967. С. 37-51.
75. Уоссерман Ф. Нейрокомпьютерная техника. Теория и практика: Пер. с англ. -М.: Мир, 1992.
76. Ушакова Т.Н. Проблема внутренней речи в психологии и психофизиологии // Психологические и психофизиологические исследования речи. — М.: Наука, 1985. — С. 13-26.
77. Фант. Г. Акустическая теория речеобразования. Пер. с англ. М.: Наука, 1964.-284 с.
78. Чистович Л.А. и др. Физиология речи. Восприятие речи человеком. В серии руководство по физиологии. Л., Наука, 1976. 388 с.
79. Чучупал В .Я., Маковкин К. А., Чичагов A.B. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи. Искусственный интеллект, №2, "Наука i ocßiTa", 2002. С. 575-579.
80. Чучупал В.Я., Маковкин К.А., Ковков Д.В., Чичагов A.B. Распознавание речи и диктора в системе мультимедийной идентификации личности/ Сб. Трудов Конф. Математические Методы распознавания образов, ММРО-12, Москва, 2005.
81. Шаров С.А. Средства компьютерного представления лингвистической информации. Обзор. URL: http://nl-web/
82. Шелепов В.Ю., Ниценко В.Ю. К проблеме пофонемного распознавания // Искусственный интеллект. 2005. - № 4. - С. 662-668.
83. Шенк Р., Бирнбаум Л., Мей Дж. К интеграции семантики и прагматики. // Новое в зарубежной лингвистике. Вып. 24: Пер. с англ. М.: Прогресс, 1989.-С. 32-47.
84. Шинкарев В. Интерфейс налицо. http://www.hifinews.ru/print/article/details/765.hlm
85. Шиффман X. Ощущение и восприятие. СПб:Питер, 2003. 928 с.
86. P.M. Юсупов, А.Л. Ронжин. От умных приборов к интеллектуальному пространству. Вестник Российской Академии Наук: научный и общественно-политический журнал, Том 80, Вып. 1, 2010. С. 45-51.
87. Allen J. Natural Language Understanding. Benjamin Cummings, 1987, Second Edition 1994.
88. Aldrich F. Smart Homes: Past, Present and Future // Inside the Smart Home / Ed. Harper R. London: Springer-Verlag, 2003. pp. 17-39.104. www.auditech.ru
89. Back M., Lahlou S., Ballagas R., Lertsithichai S., Inagaki M., Horikiri K., Huang J. Usable ubiquitous computing in next-generation conference rooms: design, evaluation, and architecture // Proc. International workshop at UbiComp 2006, 2006.
90. Barnard P.J. Cognitive Resources and the Learning of Human-Computer Dialogs, Interfacing Thought, Cognitive Aspects of Human-Computer Interaction, J.M. Carroll Ed., MIT Press Publ., 1987. pp.112-158.
91. Bellik Y. MEDITOR: a Multimodal Text Editor for Blind Users. ACM UIST'96, Ninth Annual Symposium on User Interface Software, Seattle, Washington, USA, November 6-8, 1996.
92. Becker N. Multimodal Interface For mobile clients. Technical report TRITA-NA-E01102, 2001.
93. Benesty J. Adaptive eigenvalue decomposition algorithm for passive acoustic source localization. J.Acoust. Soc.Am. Vol. 107, 2000. pp. 384-391.
94. Bernsen, N. O., Dybkjeer, H. and Dybkjaer, L. Designing Interactive Speech Systems. From First Ideas to User Testing. Springer Verlag, 1998.
95. Boite R., Bourlard H., Dutoit T., Hancq J., Leich H. Traitement de la Parole, 2nd Edition, Presses Polytechnique Universitaires Romandes,Lausanne, 2000. -488p.
96. Bolt, R. A. (1980). Put-that-there: Voice and gesture at the graphies interface. Computer Graphics, 14 (3). pp. 262-270.
97. Bosch L., Boves L. Survey of spontaneous speech phenomena in a multimodal dialogue system and some implications for ASR. Proc. ICSLP, South Korea, 2004.
98. Bouguet J.-Y. et al. Pyramidal implementation of the Lucas-Kanade feature tracker // Technical Report, Intel Corporation, Microprocessor Research Labs, 2000.
99. Brandstein M., Ward D. Microphone Arrays Signal Processing Techniques and Applications, Springer-Verlag, Berlin Heidelberg New York, 2001. 398 p.118. http://www.callcentreworld.ru/articlel 12.html?oldpage=pages 62.html
100. Capon J. High-Resolution Frequency-Wavenumber Spectrum Analysis. Proc. IEEE, 57(8), Aug. 1969. pp. 2408-2418.
101. Card S.K., Moran T.P. and Newell A. The Psychology of Human-Computer Interaction, Lawrence Erlbaum Associates, 1983.
102. CarkiK., Geutner P., Schultz T. Turkish LVCSR: Towards better speech recognition for agglutinative languages // Proc. ICASSP-2000. Istanbul, Turkey, 2000. Vol. 3.-pp. 1563-1566.122. www.cognitive.ru/innovation/voice-recog.htm
103. Cook, P., Ellis, C. S., Graf, M., Rein, G., and Smith, T. (1987). Project Nick: meetings augmentation and analysis. ACM Trans. Inf. Syst., 5(2). pp. 132-146.
104. Chai J., Pan S., Zhou M. MIND: A Context-based Multimodal Interpretation Framework, Kluwer Academic Publishers, 2005.
105. Chomsky N. On certain formal properties of grammars. Inform. Control 2, 1959.
106. Dahlback N., Jonsson A., Ahrenberg L. Wizard of Oz Studies Why and How. Knowledge-Based Systems, Vol. 6, No. 4, 1993. - pp. 258-266.
107. Danielson, T., Panoke-Babatz, U. et al. The AMIGO project: Advanced Group Communication Model for Computer-based Communication Environment. In Proc. of CSCW'86 (1986)
108. Degler D., Battle L. Knowledge management in pursuit of performance the challenge of context // Performance Improvement. V. 39. Issue 6. 2007. pp. 2531.
109. DemuynckK., DuchateauJ., Van Compernolle D., WambacqP. An efficient search space representation for large vocabulary continuous speech recognition // Speech Communication. 2000. Vol. 30, no. 1. pp. 37-53.
110. Dines J., Vepa J., Hain T. The segmentation of multi-channel meeting recordings for automatic speech recognition, In: ICSLP-2006. pp. 1213-1216.
111. Ducatel K., Bogdanowicz M., Scapolo F., Leijten J., Burgelman, J-C. ISTAG Scenarios of Ambient Intelligence in 2010 // European Commission Community Research. Feb. 2001.
112. Flego F., Zieger C., Omologo M. Adaptive weighting of microphone arrays for distant-talking F0 and voiced/unvoiced estimation. In: Interspeech-2007, 2007.-pp. 2961-2964.
113. Foote, J. T., Jones, G. J. F., Sparck Jones, K., & Young, S. J. Talker-independent keyword spotting for information retrieval. In Proc. Eurospeech 95, volume 3, 1995. pp. 2145-2148.
114. Fredouille, C., Evans, N. The influence of speech activity detection and overlap on speaker diarization for meeting room recordings. In: Interspeech-2007, 2007. pp. 2953-2956.
115. Gaitanis C., Vybornova O., Gemo M., Macq B. Multimodal High Level Fusion of Input Commands as a Semantic Goal-Oriented Cooperative Process // The 12th International Conference on Speech and Computer, Moscow, Russia, 2007.
116. Gann D., Venables T., Barlow J. Digital Futures: Making Homes Smarter, Chartered Institute of Housing, Coventry, 1999.
117. Gatica-Perez, D., Lathoud, G., Odobez, J., McCowan, I. Multimodal multispeaker probabilistic tracking in meetings. In: ICMI2005. pp. 183-190.
118. Geppener V.V., D. M. Klionski, N. I. Oreshko, A. V. Vasiljev. Applications of empirical mode decomposition for processing nonstationary signals // Pattern Recognition and Image Analysis", Springer, vol. 18, No. 3, 2008. pp. 390-399.
119. Gorski N., Anisimov V., Augustin E., Baret O., Price D., Simon J. A2iA Check Reader: A Family of Bank Check Recognition Systems // ICDAR, 1999. -pp. 523-526.
120. Gorski N., Anisimov V., Augustin E., Baret O., Maximov S. Industrial bank check processing: the A2iA CheckReaderTM // IJDAR Vol. 3, 2001. pp. 196206.
121. Gorski N. Bank Cheque Data Mining: Integrated Cheque Recognition Technologies. In: Digital Document Processing, B.B.Chaudhuri ed. Advances in Pattern Recognition, Springer, 2007. pp 437-458.
122. Hoffmann R. Speech synthesis on the way to embedded systems. In Proc. SPECOM'2006. pp. 17-26.
123. Huang Y., Benesty J. Audio Signal Processing for Next-Generation Multimedia Communication Systems, Kluwer Academic Publishers, Norwell, MA, 2004.-375 p.147. http://www.isa.ru148. http://www.ipu.ru
124. Johnson D., Dugeon D. Array Signal Processing: Concepts and Techniques, Prentice-Hall, Inc. Englewood Cliffs, New Jersey, 1993. 512 p.
125. Johnston M., Bangalore S. MATCHkiosk: A Multimodal Interactive City Guide // In Proc. of Association of Computational Linguistics (ACL-2004), Barcelona, Spain, 2004. pp. 223-226.
126. Kaiser, E. Can Modeling Redundancy in Multimodal, Multi-Party Tasks Support Dynamic Learning? CHI '05 Workshop: CHI Virtuality 2005.
127. Kanevsky D., Monkowski M., Sedivy J. Large vocabulary speaker-independent continuous speech recognition in Russian language. Proc. International Workshop SPECOM'96, St. Petersburg, Russia, 1996. pp.117121.
128. Karpov A., Ronzhin A., Nechaev A., Chernakova S. Assistive multimodal system based on speech recognition and head tracking, In Proc. of 9-th International Conference SPECOM'2004, St. Petersburg, 2004. pp. 521-530.
129. Karpov A., Ronzhin A., Nechaev A., S. Chernakova. Multimodal system for hands-free PC control. In Proc. of 13-th European Signal Processing Conference EUSIPCO-2005, September, 2005, Antalya, Turkey.
130. Karpov A.A., Ronzhin A.L. Information Enquiry Kiosk with Multimodal User Interface // Pattern Recognition and Image Analysis, Moscow: MAIK Nauka/Interperiodica, Vol. 19, № 3, 2009. -pp.546-558.
131. A. Karpov, A. Ronzhin, I. Kipyatkova, Al. Ronzhin, L. Akarun. Multimodal Human Computer Interaction with MIDAS Intelligent Infokiosk. In Proc. 20-th International Conference on Pattern Recognition, IAPR Association, Turkey, Istanbul, 2010.
132. Karttunen L. Radical lexicalism. Alternative conceptions of phrase structure. University of Chicago Press, Chicago, 1989. -pp 43-65.
133. Kelley. J. An Iterative Design Methodology for User-Friendly Natural Language Office Information Applications // ACM Transactions on Office Information Systems, 2(1), 1984.
134. Kieras D., Poison P.G. An Approach to the Formal Analysis of User Complexity, International Journal of Man-Machine Studies, 22, 1985. pp. 365394.
135. Klemmer, S.R., et al., SUEDE: A Wizard of Oz Prototyping Tool for Speech User Interfaces. In Proc. UIST 2000, CHI Letters, 2000. 2(2). pp. 1-10.
136. Knapp C. H., Carter G.C. The generalized correlation method for estimation of time delay. IEEE Trans. Acoustics Speech Signal Proc., Vol. 24, 1979. -pp.320-327.
137. Kneissler J., KlakowD. Speech recognition for huge vocabularies by using optimized subword units // Proc. Eurospeech 2001. Aalborg, Denmark, 2001. -pp. 69-72.
138. Kosarev Yu.A., Ronzhin A.L. Quantitative methods in speech processing // Chapter in Quantitative Linguistics, HSK-vol. 27., Berlin: New York, DeGruyter, 2005. pp.834-846.
139. Krim H, Viberg M. Two decades of array signal processing research: the parametric approach. Cambridge, MA // Signal Processing Magazine, Jul 1996, Volume: 13, Issue: 4. pp. 67-94.
140. Kurematsu A., Nakano-Miyatake M., Perez-Meana H., Simancas-Acevedo E. Performance analysis of Gaussian Mixture Model speaker recognition system with different speaker features. Electronic Journal «Technical Acoustics» 2005, vol. 14.
141. Kurimo M., CreutzM., Varjokallio M., ArisoyE., SaraclarM. Unsupervised segmentation of words into morphemes — Morpho challenge 2005 application to automatic speech recognition // Proc. Interspeech 2006. Pittsburgh, USA, 2006. -pp. 1021-1024.
142. Laskowski K., Schultz T. Simultaneous multispeaker segmentation for automatic meeting recognition. In Proc. of EUSIPCO, Poznan, Poland, September 2007. pp. 1294-1298.
143. Lathoud G., McCowan I.A. A Sector-Based Approach for Localization of Multiple Speakers with Microphone Arrays. Proc. of SAPA-2004, Korea, 2004. -pp.93-105.
144. Lewis C., Poison P., Wharton C., Rieman J. Testing a Walkthrough Methodology for Theory-Based Design of Walk-Up-and-Use Interfaces. In Proc. CHI '90.-pp. 235-241.171. http://www.ldc.upenn.edu/Catalog/CatalogEnti-y.isp?catalogId=LDC2003S05
145. Lienhart R., Maydt J. An Extended Set of Haar-like Features for Rapid Object Detection // In Proc. of IEEE International Conference on Image Processing ICIP, 2002.-pp. 900-903.
146. Liddell S.K. American Sign Syntax Language. The Hague. 1980.
147. Liu, D., Kubala, F. Fast speaker change detection for broadcast news transcription and indexing. In: Eurospeech-1999, 1999. pp. 1031-1034.
148. Lôwgren J., Nordqvist T. A Knowledge-Based Tool for User Interface Evaluation and its Integration in a UIMS, Human-Computer Interaction INTERACT '90, 1990. pp. 395-400.
149. Madisetti V., Williams D. The Digital Signal Processing Handbook. CRC Press, New York, 1999. 1776 p.
150. Markov, K., Nakamura, S. Never-Ending Learning System for Online Speaker Diarization. In: IEEE ASRU Workshop, 2007. pp. 699-704.
151. Masakowski Y. Cognition-Centric Systems Design: A Paradigm Shift in System Design. Proc. of 7th International Conference on Computer and IT Applications in the Maritime Industries, 2008. pp. 603-607.
152. Maulsby D., Greenberg S., Mander R. Prototyping an Intelligent Agent through Wizard of Oz. In Proc. InterCHI'93, 1993. pp. 277-284.
153. McCauley L., D'Mello S. MIKI: a speech enabled intelligent kiosk // Intelligent virtual agents. LNCS, Springer, 2006, Vol. 4133. pp. 132-144.
154. McCowan, I., Gatica-Perez, D., Bengio, S., Moore, D., Bourlard, H. Towards computer understanding of human interactions. In: Aarts E et al. (ed) Ambient intelligence, Lecture Notes in Computer Science, Springer, Heidelberg, 2003. -pp 235-251.
155. McGurk H., MacDonald J. W. Hearing lips and seeing faces. Nature, 264, 1976.-pp. 746-748.
156. Moran, D., Cheyer, A., Julia, L., Park, S. Multimodal user interfaces in the Open Agent Architecture. In Proceedings of IUI-97. Orlando, Jan. 1997.-pp. 61-68.
157. Multimodal User Interfaces: From Signals to Interaction / Ed. Tzovaras D. Springer, 2008.
158. Neti C., Potamianos G., Luettin J., et al. Audio-visual speech recognition. Final Workshop 2000 Report, Center for Language and Speech Processing, The Johns Hopkins University, Baltimore, 2000.
159. Ney H., Ortmanns S., Lindam I. Extensions to the Word Graph Method for Large Vocabulary Continuous Speech Recognition," Proc. of ICASSP'97, Vol. 3, 1997. pp.1787-1790.
160. NIST, Rich Transcription 2009 Evaluation, http://www.itl.nist.gov/iad/894.01/tests/rt/2009
161. Norman D. The Invisible Computer: Why Good Products Can Fail, the Personal Computer Is So Complex, and Information Appliances Are the Solution // The MIT Press, 1999. 316 p.189. http://nuance.com
162. Omologo M., Svaizer P. Acoustic event localization using a crosspower-spectrum phase based technique. Proc. of ICASSP, Vol. 2, 1994. pp. 273-276.
163. Omologo M., Svaizer P., Brutti A., Cristoforetti L. Speaker Localization in CHIL Lectures: Evaluation Criteria and Results. Proc. of Machine MLMI 2005.
164. Eds. Steve Renals, Samy Bengio, LNCS 3869, Springer-Yerlag Berlin Heidelberg, 2006. pp. 476-487.
165. Op den Akker, R., Hofs, D., Hondorp, H., Akker, H., Zwiers J., Nijholt, A. Supporting Engagement and Floor Control in Hybrid Meetings. Springer, LNAI 5641, 2009.-pp. 276-290.
166. Oparin I., Talanov A. Stem-Based Approach to Pronunciation Vocabulary Construction and Language Modeling for Russian. In Proc. of 10-th International Conference "Speech and Computer" SPECOM'2005, Patras, Greece, 2005. pp. 575-578.
167. Ortmanns, S., Eiden, A., Ney, H. Improved Lexical Tree Search for Large Vocabulary Recognition. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Seattle, WA, 1998. pp. 817-820.
168. Oviatt, S. L. Multimodal interactive maps: Designing for human performance. Human-Computer Interaction. Special issue on Multimodal Interfaces, 12, 1997. -93-129.
169. Oviatt, S. L. Mutual disambiguation of recognition errors in a multimodal architecture. Proceedings of the Conference on Human Factors in Computing Systems (Cffl'99), New York: ACM Press, 1999. pp. 576-583.
170. Oviatt, S.L. Ten myths of multimodal interaction. Communications of the ACM, 42(11), New York: ACM Press. 1999. -pp.74-81.
171. Oviatt, S. L. Multimodal interfaces. In The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies and Emerging Applications, J. Jacko and A. Sears, Eds. Lawrence Erlbaum Assoc. Mahwah, NJ, chap. 14, 2003.-pp. 286-304.
172. Petajan, E.D. Automatic Lipreading to Enhance Speech Recognition, University of Illinois at Urbana-Champaign, 1984.
173. Pfau T., Ellis D., Stolcke D. Multispeaker Speech Activity Detection for the ICSI Meeting Recorder. In: IEEE ASRU Workshop, 2001. pp. 107-110.
174. Picone J. Signal Modeling Techniques In Speech Recognition. IEEE Proceedings, Vol. 81, No. 9, 1993.
175. Pietquin O. A framework for unsupervised learning of dialogue strategies. UCL presses, 2004. 246 p.
176. Podlesskaya V., Kibrik A. Methods of oral speech corpora research: discourse transcription development experience. Proc. of Cognitive Modeling in Linguistics, Varna, Bulgaria, 2003.
177. PrazäkA., PsutkaJ., HoidekrJ., Kanis J., Müller L., Psutka, J. Adaptive language model in automatic online subtitling // Proc. 2nd IASTED International Conference on Computational Intelligence CI 2006. San Francisco, California, USA, 2006.-pp. 479^83.
178. Rabiner L., Juang B. Fundamentals of Speech Recognition. New Jersey: Prentice-Hall, Englewood Cliffs, USA, 1993.
179. Rienks R, Nijholtl A., Barthelmess P. Pro-active meeting assistants: attention please! AI & Society Vol. 23(2), Springer London, 2009. pp. 213-231.
180. Ronzhin A., Yusupov R., Li I., Leontieva A. Survey of Russian Speech Recognition Systems. In Proc. of 11-th International Conference SPECOM'2006, St. Petersburg: "Anatoliya", 2006. pp. 54-60.
181. Ronzhin A.L., Karpov A.A. Russian Voice Interface. Pattern Recognition and Image Analysis, 2007, Vol. 17, No. 2. pp. 321-336.
182. Ronzhin A.L., Budkov V.Yu. Multimodal Interaction with Intelligent Meeting Room Facilities from Inside and Outside // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.), LNCS 5764, 2009. pp. 77-88.
183. Salber, J. Coutaz. Applying the Wizard of Oz Technique to the Study of Multimodal Systems. In Proc. EWHCI'93, Springer-Verlag, Berlin, 1993. pp. 219-230.213. http://scansoft.com214. http://www.similar.cc
184. SIMILAR Dreams, Multimodal Interfaces in Our Future Life, UCL Presses Universitaires de Louvain, 2005, ISBN: 2-930344-91-1. 350 p.
185. Schomaker L. et al. A Taxonomy of Multimodal Interaction in the Human Information Processing System. Report of the ESPRIT PROJECT 8579, 1995.217. http://speechpro.com/production/?id=471 &fid=44
186. Strom N. Continuous Speech Recognition in the WAXHOLM Dialogue System. STL QPSR, 1996. - pp. 67-95.
187. Szarvas M., Furui S. Finite-state transducer based modeling of morphosyntax with applications to Hungarian LVCSR // Proc. ICASSP'2003. Hong Kong, China, 2003. Vol. 1. pp. 368-371.
188. Tranter S., Reynolds D. An Overview of Automatic Speaker Diarization Systems. IEEE Trans. ASLP, vol.14, no. 5, 2006. pp. 1557-1565.
189. Trees H. Optimum Array Processing, John Wiley & Sons, New York, 2002, 1456 p.
190. Trifa V., Koene A., Moren J., Cheng G. Real-time acoustic source localization in noisy environments for human-robot multimodal interaction. Proceedings of RO-MAN 2007, Korea, 2007.
191. Van Veen B.D., Buckley K.M. Beamforming: A Versatile Approach to Spatial Filtering // IEEE ASSP Magazine, April 1988. pp. 4-24.
192. Waibel, A., Steusloff, H., Stiefelhagen, R.: CHIL—Computers in the human interaction loop. In: Proc. of 5th IAMIS Workshop, 2004.
193. Wallhoff F., Zobl M., Rigoll G. Action segmentation and recognition in meeting room scenarios // Proc. of The International Conference on Image Processing (ICIP 2004), 2004.
194. Wuerger, S.M., Hofbauer, M. and Meyer G. The integration of auditory and visual motion signals at threshold. Perception & Psychophysics 65(8), 2003. -pp. 1188-1196.
195. Yankelovich, N., Kaplan, J., Simpson, N., Provino, J.: Porta-person: telepresence for the connected meeting room. In: Proceedings of CHI 2007, 2007. pp. 2789-2794.
196. Young S., Evermann G., Gales M., Hain T., Kershaw D., Moore G., Ollason J.O.D., Povey D., Valtchev V., Woodland P. The HTK book: version 3.3. Technical Report, Cambridge University, UK, 2005. http://htk.eng.cam.ac.uk.
197. ZadehL. A fuzzy-algorithmic approach to the definition of complex or imprecise concepts. In International Journal of Man-Machine Studies. Vol. 8, No. 3,1976.
198. Zhang, C., Yin, P., Rui, Y., Cutler, R., Viola, P., Sun, X., Pinto, N., Zhang, Z. Boosting-Based Multimodal Speaker Detection for Distributed Meeting Videos // MultMed( 10),No. 8, December 2008.-pp. 1541-1552.
199. Zelezny M., Cisar P., Krnoul Z., Ronzhin A., Li I., Karpov A. Design of Russian Audio-Visual Speech Corpus for Bimodal Speech Recognition. In Proc. of 10-th International Conference "Speech and Computer" SPECOM'2005, Patras, Greece, 2005. pp. 397-400.
200. Zhai, S., Morimoto, C., & Ihde, S. Manual and gaze input cascaded (MAGIC) pointing. Proceedings of the Conference on Human Factors in Computing Systems (Cffl'99), New York: ACM Press, 1999. pp. 246-253.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.