Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях тема диссертации и автореферата по ВАК РФ 05.13.11, доктор технических наук Карпов, Алексей Анатольевич
- Специальность ВАК РФ05.13.11
- Количество страниц 325
Оглавление диссертации доктор технических наук Карпов, Алексей Анатольевич
Введение.
Положения, выносимые на защиту.
Глава 1. Аналитический обзор ассистивных технологий и человеко-машинных интерфейсов.
1.1. Анализ проблем и постановка задачи.
1.2. Систематизация ассистивных информационных средств и технологий.
1.3. Этапы развития человеко-машинных интерфейсов.
1.4. Концептуальная модель универсальной ассистивной информационной технологии с аудиовизуальными интерфейсами.
1.5. Выводы по главе 1.
Глава 2. Модели и методы распознавания аудиовизуальной русской речи.
2.1. Анализ проблем автоматического распознавания речи.
2.2. Обзор подходов и способов многомодального распознавания речи.
2.3. База данных аудиовизуальной русской речи.
2.4. Автоматическая система распознавания аудиовизуальной русской речи.
2.4.1. Архитектура многомодального распознавателя речи.
2.4.2. Параметрическое представление звучащей речи.
2.4.3. Параметрическое представление визуальной речи.
2.4.4. Методы моделирования аудиовизуальных модальностей речи.
2.5. Показатели оценки систем распознавания речи.
2.6. Экспериментальные исследования и анализ результатов.
2.7. Выводы по главе 2.
Глава 3. Компьютерная система синтеза аудиовизуальной русской речи по тексту.
3.1. Анализ моделей и методов синтеза аудиовизуальной речи.
3.2. Архитектура синтезатора аудиовизуальной русской речи.
3.3 Компьютерный синтез звучащей и видимой речи.
3.4. Метод моделирования асинхронности аудиовизуальных модальностей речи.
3.5. Экспериментальные исследования и анализ результатов.
3.6. Выводы по главе 3.
Глава 4. Универсальный интерфейс и система синтеза аудиовизуальной речи и элементов русского жестового языка.
4.1. Анализ специфики и характеристик русского жестового языка глухих люд ей.
4.1.1. Характеристика разговорного жестового языка.
4.1.2. Область применения и специфика дактильной речи.
4.2. Информационные ресурсы и словари русского жестового языка.
4.3. Компьютерный синтезатор русского жестового языка по тексту.
4.3.1. Основные требования к системе синтеза жестовой и дактильной речи.
4.3.2. Формализация и представление машинного словаря языка жестов
4.3.3. Машинный синтез элементов русского языка жестов посредством жестового аватара.
4.4.4. Многомодальная система синтеза аудиовизуальной речи и жестов.
4.5. Выводы по главе 4.
Глава 5. Многомодальный человеко-машинный интерфейс и система для бесконтактной работы с компьютером.
5.1 Анализ способов и интерфейсов бесконтактного взаимодействия с компьютером.
5.2. Ассистивная многомодальная система для бесконтактной работы с компьютером.
5.2.1. Бесконтактный человеко-машинный интерфейс.
5.2.2. Архитектура ассистивной многомодальной системы.
5.2.3. Распознавание речевых команд пользователя.
5.2.4. Видеоанализ движений головы пользователя.
5.2.5. Метод синхронизации и объединения аудио- и видеомодальностей.
5.3. Экспериментальные исследования и анализ результатов.
5.3.1. Методика количественной оценки указательных человеко-машинных интерфейсов.
5.3.2. Анализ и сравнение производительности бесконтактного человеко-машинного взаимодействия.
5.4. Выводы по главе 5.
Глава 6. Многомодальные человеко-машинные интерфейсы в ассистивном интеллектуальном пространстве.
6.1. Анализ моделей и прототипов ассистивных интеллектуальных пространств.
6.2. Методы и алгоритмы обработки аудиовизуальной информации в модели интеллектуального пространства.
6.2.1. База данных акустических событий.
6.2.2. Методы распознавания аудиоинформации и речи.
6.2.3. Методы анализа видеоинформации в модели.
6.3. Экспериментальные исследования и анализ результатов.
6.4. Программно-аппаратный комплекс универсальной ассистивной информационной технологии.
6.5. Выводы по главе 6.
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях2010 год, доктор технических наук Ронжин, Андрей Леонидович
Модели и методы автоматического распознавания элементов русского жестового языка для человеко-машинного взаимодействия2020 год, кандидат наук Рюмин Дмитрий
Модели и программные средства интерактивного взаимодействия с подвижным информационно-навигационным комплексом самообслуживания2013 год, кандидат технических наук Прищепа, Мария Викторовна
Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний2013 год, кандидат технических наук Будков, Виктор Юрьевич
Модели и программная реализация распознавания русской речи на основе морфемного анализа2007 год, кандидат технических наук Карпов, Алексей Анатольевич
Введение диссертации (часть автореферата) на тему «Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях»
Актуальность темы диссертации. Как в России, так и во всем мире очень многие люди ограничены в своих возможностях в связи с дисфункциями слуха, зрения, речеобразования, опорно-двигательного аппарата, когнитивными нарушениями. Для помощи, социальной и профессиональной реабилитации людей с инвалидностью, а также пожилых людей в мире существуют специальные государственные программы, наиболее развитые из которых действуют в Японии, США, Израиле, Великобритании, Германии, Франции, скандинавских странах (например, е-Accessibility и e-Inclusion). В последние годы высшее руководство России также обращает внимание на проблемы жизни инвалидов. В мае 2012 года Президентом РФ была ратифицирована «Конвенция о правах инвалидов», принятая ранее Генеральной Ассамблеей ООН, ключевой пункт которой состоит в том, чтобы создать условия для полноценной интеграции инвалидов в жизнь общества на всех уровнях. Недавно в России был дан старт государственной программе «Доступная среда», рассчитанной до 2015 года, в рамках которой предполагается настройка под нужды инвалидов правил работы социальных, информационных и прочих государственных служб, а также обеспечение информационной и компьютерной доступности для людей с ограниченными возможностями, внедрение новых способов взаимодействия и продвижение новых товаров и услуг, использующих специальные органы и средства управления, доступные конкретным группам инвалидов. Кроме того, 30 декабря 2012 года Президент РФ подписал поправки к закону «О социальной защите инвалидов в РФ», существенно повышающие статус русского жестового языка глухих у нас в стране, который теперь является официальным языком общения людей при наличии нарушений слуха или речи, в том числе в сферах устного использования государственного языка РФ.
Современное общество прикладывает значительные усилия по реализации различных информационно-коммуникационных технологий (ИКТ) для обеспечения общедоступности информации, сервисов и услуг для людей с инвалидностью. Такие средства получили название «ассистивные технологии» ("Assistive Technology"), т.е. помогающие (вспомогательные) людям с ограниченными возможностями здоровья и индивидуальными особенностями. Этот термин неоднократно упоминается в «Конвенции о правах инвалидов» ООН, «Европейской социальной хартии», паспорте программы «Доступная среда», проектах ЮНЕСКО и документах, учитывающих международное и российское законодательство.
Ассистивные средства и технологии могут быть самого разного характера (программные, электрические, механические, оптические и т.д.) и назначения: инвалидные кресла-коляски, протезы для конечностей, трости, слуховые аппараты, оптические очки, телевизионные субтитры, роботы-помощники и роботы телеприсутствия, лифты-подъемники для колясок, звуковые сигналы светофоров, собаки-поводыри с соответствующим снаряжением, а также пандусы, направляющие на дорогах, и многое другое. В данной диссертации разрабатываются и исследуются ассистивные информационные технологии -специальное программное и/или аппаратное обеспечения, которое повышает доступность информации и средств коммуникации для людей с ограниченными возможностями здоровья.
По данным Минздрава, в России насчитывается около 14 млн людей с инвалидностью (а это 10% населения страны), из которых около 700 тыс. детей-инвалидов, и каждый год порядка 1 млн человек впервые признаются инвалидами, что обусловлено целым комплексом причин (экологическими, техногенными, медицинскими, психологическими и др.). Однако в России современные научные работы, посвященные исследованию человеко-машинных интерфейсов и способов общения, направлены, в основном, на создание вычислительных средств, оборудованных большим количеством различных датчиков и сенсоров, а также сложных систем управления. Широко применяемые в настоящее время графические и текстовые интерфейсы ориентированы на опытных пользователей, и в исследованиях практически не затрагиваются вопросы человеко-машинной коммуникации для лиц с ограниченными возможностями.
Проблема, рассматриваемая в диссертации, заключается в наличии несоответствия требований различных групп потенциальных пользователей, особенно людей с разными видами нарушений, и возможностей, предоставляемых существующими и перспективными человеко-машинными интерфейсами для доступа к информационно-коммуникационным системам, сервисам и технологиям. Данное несоответствие порождает научно-техническую проблему потребности разработки и применения методологического, математического, программного и информационного обеспечения многомодальных интерфейсов (в том числе, речевых, жестовых, аудиовизуальных) пользователя для предоставления людям с ограниченными возможностями доступа к электронной информации (мультимедийному контенту Интернета, электронным библиотекам, образовательным ресурсам, государственным услугам и т.д.) для их интеграции в информационное общество.
Связь с государственными и международными программами. Основные результаты диссертационной работы получены в ходе поисковых НИР по госконтрактам с Минобрнауки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» (госконтракты № 11.519.11.4025 «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства» и № 11.519.11.4020 «Разработка методов и моделей автоматической обработки речевых сигналов в интеллектуальных информационно-коммуникационных системах») и ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы» (госконтракты № П2579 «Разработка методов, моделей и алгоритмов для автоматического распознавания аудиовизуальной русской речи» и № П2360 «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем»). Работа также выполнена в рамках следующих российских проектов: гранты Президента РФ
02.120.11.64898-МК «Разработка компьютерной многомодальной системы для аудиовизуального синтеза разговорной русской речи и жестового языка глухих» (2010-2011 гг.) и МК-1880.2012.8 «Разработка автоматической системы распознавания аудиовизуальной русской речи с применением высокоскоростной видеокамеры» (2012-2013 гг.), грант международного фонда «Научный потенциал» № 201 «Многомодальная ассистивная система на базе технологий распознавания русской речи и машинного зрения» (2010 г.), проектов фондов РФФИ № 07-07-00073-а, 08-08-00128-а, 08-07-90002-Бела, 09-07-91220-СТа и РГНФ № 12-04-12062-в, а также грантов Комитета по науке и высшей школе (КНВШ) Правительства Санкт-Петербурга и Санкт-Петербургского научного центра (СПбНЦ) РАН. Исследования также производились в рамках международных проектов Евросоюза: EU FP6 Network of Excellence SIMILAR IST-2002-507609 (2003-2007 гг.), INTAS № 04-77-7404 и № 05-1000007-426 (2006-2008 гг.).
Целью диссертационной работы является повышение эффективности и универсальности способов человеко-машинного взаимодействия на основе речевых и многомодальных интерфейсов пользователя в ассистивных информационно-коммуникационных технологиях. Для достижения цели в диссертационной работе поставлены и решены следующие задачи:
1) Анализ основных направлений исследований и проблем в области ассистивных средств и технологий для помощи людям с ограниченными возможностями и обеспечения универсального информационного доступа посредством организации аудиовизуальных человеко-машинных интерфейсов.
2) Создание концептуальной модели универсальной ассистивной информационной технологии с аудиовизуальными интерфейсами пользователя.
3) Создание метода объединения аудио- и видеоинформации для многомодального распознавания речи.
4) Создание метода моделирования асинхронности аудиовизуальных речевых модальностей, естественной для речеобразования человека, для компьютерного синтезатора аудиовизуальной русской речи по тексту.
5) Создание способа для бесконтактной работы с компьютером при помощи движений головы и голосовых команд, а также многомодальной системы, объединяющей средства автоматического распознавания голосовых команд и машинного зрения для видеоотслеживания движений головы пользователя.
6) Разработка метода и системы автоматического распознавания и классификации голосовых сообщений пользователя и неречевых акустических событий в модели ассистивного интеллектуального пространства.
7) Разработка автоматической системы аудиовизуального распознавания русской речи с применением методов и средств анализа речи и чтения по губам говорящего для повышения точности и надежности анализа русской речи.
8) Разработка компьютерной системы аудиовизуального синтеза русской речи с применением методов и средств аудиосинтеза речи по входному тексту и видеосинтеза артикуляции губ виртуальной модели головы человека.
9) Разработка универсального пользовательского интерфейса вывода информации и компьютерной системы синтеза аудиовизуальной русской речи и жестового языка глухих.
Объект исследования. Математическое, программное и информационное обеспечение компьютерного распознавания и синтеза речи и жестов на акустическом и визуальном уровнях, а также способы речевого и многомодального общения и интерфейсы человеко-машинного взаимодействия.
Предмет исследования. Способы, принципы, модели, методы, алгоритмы и системотехнические решения для распознавания и синтеза аудио- и видеоинформации (речи, жестов, и т.д.) для организации многомодальных интерфейсов пользователя в ассистивных информационных технологиях.
Методы исследования. Методы цифровой обработки сигналов, искусственного интеллекта, распознавания образов, вероятностного моделирования, статистического анализа, автоматической обработки текстов, когнитивных исследований, объектно-ориентированного проектирования и программирования.
Научная новизна. Разработана совокупность оригинальных способов, моделей, методов, алгоритмов и программных систем распознавания и синтеза аудиовизуальной речи и жестов, а также организации многомодальных человеко-машинных интерфейсов в ассистивных технологиях, в том числе:
1) Предложена концептуальная модель универсальной ассистивной информационной технологий с аудиовизуальными пользовательскими интерфейсами на основе многомодального распознавания русской речи, компьютерного синтеза аудиовизуальной русской речи и элементов русского жестового языка, бесконтактного человеко-машинного взаимодействия.
2) Предложен метод объединения аудио- и видеоинформации в процессе распознавания речи, отличающийся применением асинхронных вероятностных моделей с индивидуальными весами информативности речевых модальностей.
3) Разработан способ и многомодальный человеко-машинный интерфейс для бесконтактной работы с компьютером посредством движений головы пользователя и голосовых команд, а также компьютерная система, отличающаяся объединением методов, алгоритмов и программных средств автоматического распознавания русскоязычных голосовых команд/речи и машинного зрения для отслеживания набора естественных реперных точек на лице человека с целью управления перемещением указателя мыши на экране.
4) Разработан метод распознавания и классификации типов голосовых сообщений пользователя и неречевых акустических событий, предназначенный для анализа и оценки информации об акустической обстановке (ситуации) в ассистивном интеллектуальном пространстве.
5) Разработана система аудиовизуального распознавания русской речи, отличающаяся интеграцией моделей, методов и программных средств анализа и распознавания речи и чтения речи по губам говорящего для повышения точности и надежности анализа русской речи и предназначенная для организации бесконтактного ввода информации в речевых интерфейсах.
6) Разработана и исследована компьютерная система аудиовизуального синтеза русской речи по произвольному русскоязычному тексту, отличающаяся интеграцией виртуальных моделей, методов и программных средств аудиосинтеза речи и видеосинтеза мимики и артикуляции губ модели головы человека с применением метода моделирования асинхронности аудиовизуальных модальностей речи для улучшения разборчивости и естественности синтезируемой речи, предназначенная для организации вывода информации в речевых интерфейсах.
7) Разработан универсальный многомодальный интерфейс вывода информации и компьютерная система для аудиовизуального синтеза русского языка жестов и речи по тексту, объединяющая бимодальную виртуальную "говорящую голову" для синтеза речи и трехмерную модель тела и рук человека для видеосинтеза динамических жестов, и предназначенная для вывода текстовых данных посредством речи, жестового языка и артикуляции губ аватара.
Обоснованность научных положений и выводов обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей и методов, а также апробации основных положений диссертации в печатных работах и докладах на ведущих международных научных конференциях. Новизна технических решений подтверждается полученными патентами и свидетельствами об официальной регистрации программного обеспечения ЭВМ и баз данных в Роспатенте.
Практическая ценность работы. Математическое, программное и информационное обеспечение ЭВМ, разработанное в диссертационной работе, предназначено для повышения эффективности и расширения возможностей человеко-машинных интерфейсов для организации взаимодействия с различными группами пользователей, включая людей с ограниченными возможностями здоровья. Созданный программный комплекс ассистивных информационных технологий и систем (в том числе многомодальная система аудиовизуального распознавания русской речи, система компьютерного синтеза аудиовизуальной русской речи и элементов русского жестового языка, многомодальная система для бесконтактной работы с компьютером, прототип ассистивного интеллектуального пространства) предназначен для организации универсальных человеко-машинных интерфейсов для доступа потенциальных пользователей к информации, а также помощи, информационной поддержки и реабилитации людей с ограниченными возможностями. Разработанные и используемые ассистивные информационные технологии дают возможность людям с различными видами нарушений интегрироваться в динамично развивающееся информационное общество, предоставляя возможность пользователям выбирать доступные им способы взаимодействия, компенсируя недоступные интерфейсы альтернативными коммуникативными каналами, что улучшает качество их жизни, а также делая их более независимыми от помощи со стороны других лиц. Также они могут применяться людьми без ограничений по здоровью как в обычных, так и нестандартных условиях (например, в невесомости), когда возможности человека ограничены окружающей средой.
Реализация результатов работы. Разработанное математическое и программное обеспечение, технические и технологические решения были использованы в ходе выполнения НИОКР по госконтрактам с Минобрнауки РФ (в 2009-2013 гг.), а также в рамках договоров с Санкт-Петербургским государственным университетом (СПбГУ), Западночешским университетом г. Плзень (Чехия), Богазичи университетом г. Стамбул (Турция), работ, выполненных по заказам Правительства Санкт-Петербурга (Администрации Василеостровского района), корпорации LG Electronics R&D Russia, ОАО «Концерн «Океанприбор», ООО «Кварцприбор-М», а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного политехнического университета (СПбГПУ) и Санкт-Петербургского государственного университета аэрокосмического приборостроения (СПбГУАП).
Апробация результатов работы. Результаты диссертационного исследования представлялись в докладах на ведущих научных конференциях и конгрессах, в частности: международных конференциях INTERSPEECH (Флоренция, Италия 2011; Макухари, Япония 2010; Брайтон, Великобритания 2009; Питтсбург, США 2006); 20-й международной конференции по распознаванию образов ICPR (Стамбул, Турция, 2010); международных конференциях по человеко-машинному взаимодействию HCI International (Лас Вегас, США 2013; Орландо, США 2011; Сан Диего, США 2009); Европейских конференциях по обработке сигналов EUSIPCO (Лозанна, Швейцария 2008; Флоренция, Италия 2006); 11-й IEEE международной конференции по обработке сигналов ICSP (Пекин, Китай 2012); 17-м международном фонетическом конгрессе ICPhS (Гонконг 2011); 19-м международном акустическом конгрессе ICA (Мадрид, Испания 2007); 8-й международной конференции по языковым ресурсам и оцениванию LREC (Стамбул, Турция, 2012); 3-й международной конференции по речевым технологиях для малоресурсных языков SLTU (Кейптаун, ЮАР 2012); международных конференциях «Текст, Речь и Диалог» TSD (Брно, Чехия 2008, 2010); международных конференциях «Речь и Компьютер» SPECOM (Санкт-Петербург 2009, 2006; Москва 2007); международных семинарах по многомодальным интерфейсам eNTERFACE (Плзень, Чехия 2011; Амстердам, Голландия 2010; Орсе, Франция 2008; Стамбул, Турция 2007); международных конференциях по компьютерной графике и зрению Графикон (Санкт-Петербург 2010; Москва 2011); международных конференциях «Распознавание образов и анализ изображений» РОАИ (Санкт-Петербург 2010; Нижний Новгород 2008); 10-й международной конференции NEW2AN/ruSMART (Санкт-Петербург, 2010); 5-й Всероссийской научно-практической конференция «Перспективные системы и задачи управления» (Домбай, 2010); 5-й международной конференции по нейронным сетям и искусственному интеллекту ICNNAI (Минск, Беларусь 2008); международной конференции «Искусственный Интеллект» (Кацивели, Украина 2009); международной конференции «Интеллектуальные и многопроцессорные системы» (Дивноморское 2008); 20-й сессии российского акустического общества (Москва, 2008); Санкт-Петербургской международной конференции «Региональная информатика» (Санкт-Петербург 2008).
За научные результаты, полученные в ходе диссертационного исследования, соискателем получен ряд персональных наград и премий, в частности: Медаль
РАН для молодых ученых за лучшую научную работу в области информатики, вычислительной техники и автоматизации по итогам 2011 г.; дипломы победителя конкурса грантов Президента РФ для государственной поддержки молодых российских ученых в 2012-2013 и 2010-2011 гг., победителя конкурса грантов Санкт-Петербурга для молодых кандидатов наук и молодых ученых от КНВШ Правительства Санкт-Петербурга в 2004-2012 гг., конкурса научных работ и проектов Комиссии по научной молодежи при Президиуме СПбНЦ РАН в 2009 г.; диплом лауреата программы «Выдающиеся ученые. Кандидаты и доктора наук РАН» Фонда содействия отечественной науке в 2008-2009 гг.
Публикации. По материалам диссертации опубликовано свыше 130 печатных работ, включая 10 публикаций в международных рецензируемых журналах, индексируемых в базах данных Web of Science и Scopus, 24 публикации в ведущих научных журналах из перечня ВАК Минобрнауки РФ, 2 монографии, 1 глава в зарубежной книге, 1 учебное пособие, также получен 1 патент и 10 свидетельств о государственной регистрации программ для ЭВМ и баз данных в Роспатенте.
Под научным руководством к.т.н. Карпова A.A. подготовлены и защищены 2 кандидатские диссертационные работы по специальности 05.13.11: «Методы и программное обеспечение для фонетико-языкового моделирования разговорной русской речи» (Кипяткова И.С., 27 октября 2011 г.) и «Методы и программные средства автоматизации аудиовизуального мониторинга участников мероприятий в интеллектуальном зале» (Ронжин А.Л., 2 апреля 2013 г.).
Структура и объем работы. Диссертация содержит введение, шесть глав, заключение, список литературы (230 наименований), два приложения. Основной материал изложен на 270 стр., включая 20 таблиц и 84 рисунка.
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Методы и алгоритмы аудиовизуального распознавания эмоционального состояния типично и атипично развивающихся детей2023 год, кандидат наук Матвеев Антон Юрьевич
Математическое обеспечение визуального распознавания русской речи в ассистивных транспортных системах2023 год, кандидат наук Аксёнов Александр
Речевые технологии в автоматизированных системах массового обслуживания2012 год, доктор технических наук Фархадов, Маис Паша оглы
Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах2008 год, доктор технических наук Харламов, Александр Александрович
Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных2003 год, кандидат технических наук Ронжин, Андрей Леонидович
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Карпов, Алексей Анатольевич
6.5. Выводы по главе 6
Выполнен анализ технологий прототипов ассистивных интеллектуальных пространств, предназначенных для сопровождения и информационно-коммуникационной поддержки повседневной жизни людей с ограниченными возможностями, пожилых и больных людей, маленьких детей и т.д. Такой тип интеллектуальных жилых пространств активно исследуется в развитых странах Европы (население которой быстро стареет), США и Японии. За рубежом он получил название "Ambient Assisted Living" (AAL) и развивается в направлении создания окружающего интеллекта ("Ambient Intelligence). Приведены основные научно-исследовательские проекты и прототипы ассистивных интеллектуальных пространств, разрабатываемых в рамках программ Евросоюза FP7 и FP6. Исследования и разработки в данной области в России практически не проводились, что определяет актуальность, а также научно-техническую и социально-экономическую значимость создания и использования ассистивных интеллектуальных пространств. Создана полунатурная модель (прототип) ассистивного интеллектуального пространства, предназначенного для организации информационной поддержки, сопровождения и помощи одиноким людям с инвалидностью и пожилым людям, а также их попечителям. В случае экстренной ситуации, например, при непредвиденном падении человека на пол, его крике или плаче, вербальной просьбе о помощи, ассистивное интеллектуальное пространство может автоматически распознать это и сообщить попечителю о ситуации. В модели ассистивного интеллектуального пространства применяются программные информационно-коммуникационные технологии, а также аппаратные массивы микрофонов и видеокамер. Для ассистивного интеллектуального жилого пространства предложены методы и алгоритмы анализа аудио- и видеоинформации. Реализована система распознавания и классификации типов голосовых команд/запросов пользователя и неречевых акустических событий (крик, стон, кашель, и т.д.), включая тревожные звуковые события, предназначенная для анализа и оценки информации об акустической обстановке в помещении, на основе которой возможно производить автоматизированный аудиовизуальный мониторинг и сопровождение, а также определять и предупреждать экстренные ситуации с пользователем пространства, такие как, падение человека на пол или вербальная просьба о помощи.
Проведены экспериментальные исследования и выполнена количественная оценка созданной системы автоматического распознавания аудиоинформации (САРГАС) по собранной базе данных речевых и неречевых акустических событий (САРГАС-БД), включающей аудиозаписи 12 типов неречевых акустических событий, имитированных пользователями, и 5 типов речевых команд, среди которых выделены 6 типов тревожных звуковых явлений. Средняя точность распознавания типа акустических событий в многоканальном аудиосигнале составила 94%, а речевых команд -99%, что позволяет говорить о высокой точности и надежности определения акустической ситуации в ассистивном интеллектуальном пространстве. Выполнена интеграция разработанных в ходе диссертационной работы программных реализаций и методов в едином программно-аппаратном комплексе универсальной ассистивной информационной технологии. В архитектуре комплекса представлены 5 основных уровней: аппаратного обеспечения ЭВМ, системного программного обеспечения ЭВМ, специального программного обеспечения цифровой обработки сигналов, специального программного обеспечения человеко-машинных интерфейсов, программного обеспечения ассистивных информационных технологий. Результаты данного научного исследования опубликованы в цикле научных работ автора [34,77,121,195], а также получены свидетельства о государственной регистрации базы данных [76] и программы для ЭВМ [78] в Роспатенте. Разработанная модель ассистивного интеллектуального пространства использована в работах, выполненных по договорам с Богазичи университетом и Западночешским университетом.
Заключение
Совокупность полученных в диссертационном исследовании результатов составляет научно обоснованные технические и технологические решения значимой социально-экономической проблемы организации универсального доступа пользователей, включая людей с ограниченными возможностями здоровья, к информационно-коммуникационным системам и сервисам на основе аудиовизуальных человеко-машинных интерфейсов, внедрение которых вносит значительный вклад в развитие страны. В ходе исследования получены следующие основные теоретические и практические результаты:
1) Предложена концептуальная модель универсальной ассистивной информационной технологий с аудиовизуальными пользовательскими интерфейсами на основе многомодального распознавания русской речи, компьютерного синтеза аудиовизуальной русской речи и элементов русского жестового языка, бесконтактного человеко-машинного взаимодействия.
2) Предложен метод объединения аудио- и видеоинформации в процессе распознавания речи, отличающийся применением асинхронных вероятностных моделей с индивидуальными весами информативности модальностей речи в моделях.
3) Разработан способ и многомодальный человеко-машинный интерфейс для бесконтактной работы с компьютером посредством движений головы пользователя и голосовых команд, а также компьютерная система, отличающаяся объединением методов, алгоритмов и программных средств автоматического распознавания русскоязычных голосовых команд/речи и машинного зрения для отслеживания набора естественных реперных точек на лице человека с целью управления перемещением указателя мыши на экране.
4) Разработан метод распознавания и классификации типов голосовых сообщений пользователя и неречевых акустических событий, предназначенный для анализа и оценки информации об акустической обстановке (ситуации) в ассистивном интеллектуальном пространстве.
5) Разработана система аудиовизуального распознавания русской речи, отличающаяся интеграцией моделей, методов и программных средств анализа и распознавания речи и чтения речи по губам говорящего для повышения точности и надежности анализа русской речи и предназначенная для организации бесконтактного ввода информации в речевых интерфейсах.
6) Разработана и исследована компьютерная система аудиовизуального синтеза русской речи по произвольному русскоязычному тексту, отличающаяся интеграцией виртуальных моделей, методов и программных средств аудиосинтеза речи и видеосинтеза мимики и артикуляции губ модели головы человека с применением метода моделирования асинхронности аудиовизуальных модальностей речи для улучшения разборчивости и естественности синтезируемой речи, предназначенная для организации вывода информации в речевых интерфейсах.
7) Разработан универсальный многомодальный интерфейс вывода информации и компьютерная система для аудиовизуального синтеза русского языка жестов и речи по тексту, объединяющая бимодальную виртуальную "говорящую голову" для синтеза речи и трехмерную модель тела и рук человека для видеосинтеза динамических жестов, и предназначенная для вывода текстовых данных посредством речи, жестового языка и артикуляции губ аватара.
Разработка и исследование математического и программного обеспечения ЭВМ была выполнена в ходе реализации государственных программ Минобрнауки РФ, направленных на создание новых способов человеко-машинного взаимодействия и коммуникации, поддержана российскими и зарубежными грантами. Разработанные ассистивные информационные технологии/системы и их компоненты внедрены в ряде государственных и коммерческих организаций (в том числе LG Electronics, ОАО «Концерн «Океанприбор», ООО «Кварцприбор-М»), используются Правительством Санкт-Петербурга (в частности, Администрацией Василеостровского района Санкт-Петербурга), Филологическим факультетом Санкт-Петербургского государственного университета (СПбГУ), Западночешским университетом г. Плзень (Чешская республика) и Богазичи университетом г. Стамбул (Турция), а также применяются в учебном процессе в Санкт-Петербургского государственного политехнического университета (СПбГПУ) и Санкт-Петербургского государственного университета аэрокосмического приборостроения (СПбГУАП).
Полученные результаты соответствуют п. 7 «Человеко-машинные интерфейсы, модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработки изображений, систем виртуальной реальности, мультимедийного общения», п. 8 «Модели и методы создания программ и программных средств для параллельной и распределенной обработки данных, языки и инструментальные средства параллельного программирования» и п. 10 «Оценка качества, стандартизация и сопровождение программных систем» паспорта специальности 05.13.11 «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей».
Список сокращений и условных обозначений
АЦП Аналого-цифровой преобразователь
БД База данных
БПФ Быстрое преобразование Фурье вое Всероссийское общество слепых
ВОГ Всероссийское общество глухих вой Всероссийское общество инвалидов
ГОСТ Государственный стандарт жя Жестовый язык
ЗПР Задержка психического развития икт Информационно-коммуникационные технологии
КЖР Калькирующая жестовая речь мпемм Многопоточныя скрытыя марковская модель
МФА Международная фонетическая ассоциация
НИР Научно-исследовательская работа
ООН Организация Объединенных Наций
ОС Операционная система
ПК Программный комплекс по Программное обеспечение
РЖЯ Русский жестовый язык емм Скрытая марковская модель ссмм Сдвоенная скрытая марковская модель
ФЦП Федеральная целевая программа
ЦРТ Центр речевых технологий
ЭВМ Электронная вычислительная машина
ЭОС Электронная обучающая система
3D Трехмерный
AAL Ambient Assisted Living
AdaBoost Adaptive Boosting
ASL American Sign Language
ASR Automatic Speech Recognition
AVI Audio Video Interleave
DCT Discrete Cosine Transformation
GMM Gaussian Mixture Models
GUI Graphical User Interface
HamNoSys Hamburg Notation System
HCI Human-computer interaction
HMM Hidden Markov Model
HTK Hidden Markov Model Toolkit
ICANDO Intellectual Computer AssistaNt for Disabled Operators
JAWS Job access with speech
LDA Linear Discriminant Analysis
MFCC Mel-Frequency Cepstral Coefficients
MMI Multimodal User Interface
MOS Mean Opinion Score
MS Microsoft
OpenCV Open Source Computer Vision Library
OpenGL Open Graphics Library
PCA Principal Component Analysis
QR Quick Response
RFID Radio Frequency IDentification
RGB Red Green Blue
ROI Region of interest
RT Real Time
SAMPA Speech Assessment Methods Phonetic Alphabet
SF Speed Factor
SILK Speech, Image, Language, Knowledge
SIRIUS Spiiras Interface for Recognition and Integral Understanding of Speech
SNR Signal-to-Noise Ratio
SVM Support Vector Machine
TTS Text-to-Speech
VAD Voice Activity Detector
VGA Video Graphics Array
VRML Virtual Reality Modeling Language
WER Word Error Rate
WIMP Window, Image, Menu, Pointer
WRR Word Recognition/Accuracy Rate
273
Словарь терминов
Архитектура системы: Структурная схема, которая представляет все существенные компоненты системы и их свойства, а также отношения между ними и окружением.
Ассистивные информационные технологии: Специальное программное и/или аппаратное обеспечение, которое обеспечивает доступ к информации и средствам коммуникации для людей с ограниченными возможностями. Ассистивные технологии: Устройства, средства или услуги, направленные на усиление, поддержку или улучшение функциональных возможностей людей с ограниченными возможностями здоровья.
Визема: Изображение формы (области) губ человека при произнесении определенного звука речи (фонемы).
Дактиль: Элемент жестового языка глухих людей, визуально описывающий букву алфавита.
Инвалидность: Препятствия или ограничения деятельности человека с физическими, умственными, сенсорными и психическими отклонениями, вызванные существующими в обществе условиями, при которых люди исключаются из активной жизни.
Информационная система: Взаимосвязанная совокупность средств, методов и персонала, используемая для сохранения, обработки и выдачи информации с целью решения конкретной задачи.
Информационные технологии (информационно-коммуникационные технологии): Класс областей деятельности, относящихся к способам и технологиям создания, сбора, хранения, обработки и использования информации в интересах ее пользователей, в том числе с применением вычислительной техники.
Концептуальная модель: Абстрактная модель, определяющая структуру моделируемой системы, свойства ее элементов и причинно-следственные связи, присущие системе и существенные для достижения цели моделирования.
Математическое обеспечение ЭВМ: Совокупность программ, предназначенная для обеспечения использования ЭВМ, а также математические методы и алгоритмы решения задач, по которым составлены данные программы. Метод: Совокупность теоретических принципов и практических приемов для осуществления какого-либо действия.
Многомодальный пользовательский интерфейс: Способ информационного человеко-машинного взаимодействия с одновременным использованием нескольких средств автоматической обработки разнородной информации, передаваемой пользователем (аудио-, видеоинформации, текста, и т.д.). Модель: Упрощенное представление реального устройства и/или протекающих в нем процессов и явлений.
Программа для ЭВМ: Упорядоченная последовательность команд компьютера, составленных для решения задачи.
Программное обеспечение ЭВМ: Совокупность программ системы обработки информации для ЭВМ и программных документов, необходимых для эксплуатации этих программ.
Программный модуль: Программа или функционально завершенный фрагмент программы, предназначенный для хранения, трансляции, объединения с другими программными модулями и загрузки в оперативную память ЭВМ. Распознавание речи: Автоматическое преобразование речевого сигнала в последовательность произнесенных диктором слов.
Синтез речи: Автоматическое преобразование текста на определенном языке в речь (аудио- и.или видеосигнал) данного языка.
Технология: Совокупность методов и инструментов для достижения желаемого результата, а также способ производства.
Фонема: Минимальная единица звукового строя любого языка (звук речи). Язык жестов (жестовый язык): Официальный язык визуально-кинетической природы, используемый для общения людьми с нарушениями слуха.
Список литературы диссертационного исследования доктор технических наук Карпов, Алексей Анатольевич, 2013 год
1. Аграновский, A.B. Аппаратно-программные инструментальные средства проектирования виртуальных акустических объектов и сцен для слепых пользователей персональных компьютеров / А.В.Аграновский, Г.Е.Евреинов,
2. A.С.Яшкин // Материалы IX Международной конференции-выставки «Информационные технологии в образовании». Москва, 1999.
3. Библиотека Hidden Markov Model Toolkit (НТК) Электронный ресурс. -Режим доступа: http://htk.eng.cam.ас.uk.
4. Библиотека компьютерного зрения Open Source Computer Vision Library (OpenCV) Электронный ресурс. Режим доступа: http://sourceforge.net/proiects/opencvlibrary.
5. Билик, P.B. Анализ речевого интерфейса в интерактивных сервисных системах/ Р.В.Билик, В.А.Жожикашвили, Н.В.Петухова, М.П.Фархадов // Автоматика и телемеханика, № 2, 2009.- С. 80-89.
6. Бондарко, Л.В. Основы общей фонетики / Л.В.Бондарко, Л.А.Вербицкая, М.В.Гордина//Л., 1983.
7. Борякова, Н. Ю. Педагогические системы обучения и воспитания детей с отклонениями в развитии, 2008.
8. Вежневец, A. Boosting Усиление простых классификаторов / А.Вежневец,
9. B.Вежневец // Компьютерная графика и мультимедиа. Вып. 4(2), 2006, Электронный ресурс. Режим доступа: http://cgm.computergraphics.ru/content/view/112.
10. Воскресенский, А.Л. О распознавании жестов языка глухих/ А.Л.Воскресенский, С.Н.Ильин, М.Железны // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог12010», М.: РГГУ, Вып. 9(16), 2010.
11. Гамбургская система жестовой нотации НатЫоЗуз Электронный ресурс. -Режим доступа: www.sign-lang.uni-hamburg.de/proiects/liamnosys.html.
12. Гейльман, И.Ф. Специфические средства общения глухих. Дактилология и мимика (в 4-х томах). Л., 1975-1979.
13. Гейльман, И.Ф. Дактилология. Л, 1981.
14. Гейльман, И.Ф. Знакомьтесь: ручная речь. М.: Загрей, 2001.
15. Геппенер, В.В. Вейвлет-преобразование в задачах цифровой обработки сигналов: Учебное пособие / В.В. Геппенер, Д.А. Черниченко, С.А. Экало // СПб.: Изд-во СПбГЭТУ, 2002.- 78 с.
16. ГОСТР 51079-2006 (ИСО 9999:2002) Технические средства реабилитации людей с ограничениями жизнедеятельности. Классификация. М.: Стандартинформ, 2006.
17. Государственная программа РФ «Доступная среда» Электронный ресурс. -Режим доступа: http://zhit-vmeste.ru.
18. Гриф, М.Г. Интерлингва в системах машинного перевода для жестовых языков / М.Г.Гриф, М.К.Тимофеева // Труды СПИИРАН, Вып. 20, 2012.- С. 116-137.
19. Гриф, М.Г. Лексические и грамматические аспекты разработки компьютерного сурдопереводчика русского языка: монография / М.Г.Гриф, О.О.Королькова, Л.Г.Панин, М.К.Тимофеева, Е.Б.Цой // Новосибирск : Изд-во НГТУ, 2013.- 260 с.
20. Губочкин, И.В. Система отслеживания контура губ говорящего // Современная наука: актуальные проблемы теории и практики. Серия: естественные и технические науки. № 4 5, 2012.- С. 20-26.
21. Денисов, Ю.А. Операционные системы: правила работы. Серия "Основы информационных систем", Выпуск I (11), Электронный ресурс. Режим доступа: http://citforum.ru/operating systems/ois/index.shtml.
22. Димскис, Л.С. Изучаем жестовый язык. М., 2002.
23. Зайцева, Г.Л. Жестовая речь. Дактилология. М.: Владос, 2000.
24. Институт ЮНЕСКО по информационным технологиям в образовании. ИКТ для инклюзивного образования Электронный ресурс. Режим доступа: http://iite.unesco.org/pics/publications/ru/files/3214675.pdf.
25. Интернет-портал «Сурдосервер» Электронный ресурс. Режим доступа: www.sudroserver.ru.
26. Карпов, А. Разработка бимодальной системы аудиовизуального распознавания русской речи / А.Карпов, А.Ронжин, Б.Лобанов, Л.Цирульник, М.Железны // Информационно-измерительные и управляющие системы, Москва, № ю, Т. 6, 2008.- С. 58-62.
27. Карпов, A.A. ICanDo: Интеллектуальный помощник для пользователей с ограниченными физическими возможностями // Вестник компьютерных и информационных технологий, №7, 2007.- С. 32-41.
28. Карпов, A.A. Автоматическое распознавание аудиовизуальной русской речи с применением асинхронной модели // Информационно-измерительные и управляющие системы, М.: Радиотехника, № 7, т. 8, 2010.- С. 91-96.
29. Карпов, A.A. Аудиовизуальный речевой интерфейс для систем управления и оповещения // Известия ЮФУ. Технические науки. Таганрог: ТТИ ЮФУ, №3 (104), 2010.- С. 218-222.
30. Карпов, A.A. Когнитивные исследования ассистивного многомодального интерфейса для бесконтактного человеко-машинного взаимодействия // Информатика и ее применения. М.: ИЛИ РАН, Т. 6, № 2, 2012,- С. 77-86.
31. Карпов, A.A. Компьютерная программа для синхронизации, захвата и объединения аудиовизуальных модальностей речи RusAVSpeechRecorder. Свидетельство о государственной регистрации ПрЭВМ №2011611037 от 28.01.2011 г.
32. Карпов, A.A. Компьютерный анализ и синтез русского жестового языка // Вопросы языкознания. М.: Наука, № 6, 2011.- С. 41-53.
33. Карпов, A.A. Машинный синтез русской дактильной речи по тексту // Научно-техническая информация. Серия 2: Информационные процессы и системы, № 1, 2013.- С. 20-26.
34. Карпов, A.A. Многомодальные ассистивные системы для интеллектуального жилого пространства / А.А.Карпов, Л.Акарун, Ал.Л.Ронжин // Труды СПИИРАН, Вып. 19, 2011.- С. 48-64.
35. Карпов, A.A. Многомодальный пользовательский интерфейс для бесконтактного управления компьютером (ICANDO) / А.А.Карпов, А.Л.Ронжин // Свидетельство о регистрации ПрЭВМ №2008611031 от 26.02.2008г.
36. Карпов, A.A. Модели и программная реализация распознавания русской речи на основе морфемного анализа: дис. . канд. техн. наук: 05.13.11 / Карпов Алексей Анатольевич. СПб., 2007.- 132 с.
37. Карпов, A.A. Мультимедиа корпус аудиовизуальной русской речи -RusAVSpeechCorpus / А.А.Карпов, А.Л.Ронжин, И.С.Кипяткова // Свидетельство о государственной регистрации базы данных №2011620085 от 28.01.2011 г.
38. Карпов, A.A. Разработка компьютерной системы "говорящая голова" для аудиовизуального синтеза русской речи по тексту / А.А.Карпов, Л.И.Цирульник, М.Железны // Информационные технологии. -М.: Новые Технологии, № 8, т. 9, 2010.- С. 13-18.
39. Карпов, A.A. Универсальная компьютерная система аудиовизуального синтеза русской звучащей речи и языка жестов по тексту. Свидетельство о государственной регистрации ПрЭВМ №2012618286 от 12.09.2012 г.
40. Карпов, A.A. Формализация лексикона системы компьютерного синтеза языка жестов / А.А.Карпов, И.А.Кагиров // Труды СПИИРАН. СПб.: Наука, Вып. 16, 2011.-С. 123-140.
41. Кибрик, A.A. Референциальный выбор в русском жестовом языке/ А.А.Кибрик, Е.В.Прозорова // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог'2007». Бекасово, 2007.
42. Кипяткова, И. С. Аналитический обзор систем распознавания русской речи с большим словарем / И. С.Кипяткова, А. А.Карпов. // Труды СПИИРАН. Вып. 12, СПб.: Наука, 2010.- С. 7-20.
43. Кипяткова, И.С. Автоматическая обработка разговорной русской речи/ И.С.Кипяткова, А.Л.Ронжин, А.А.Карпов // СПб.: ГУАП, 2013. 314 с.
44. Кипяткова, И.С. Методы и программные средства фонетико-языкового моделирования в системах автоматического распознавания русской речи: дис. . канд. техн. наук: 05.13.11 / Кипяткова Ирина Сергеевна. СПб., 2011.136 с.
45. Кипяткова, И.С. Программный модуль создания расширенного фонематического словаря системы распознавания разговорной русской речи / И.С.Кипяткова, А.А.Карпов // Свидетельство о государственной регистрации ПрЭВМ №2012613488 от 13.04.2012 г.
46. Концепция программы «Применение ИКТ для реабилитации и интеграции инвалидов в современное общество», Санкт-Петербург, 2006.- 75 с.
47. Кордун, З.М. Некоторые примеры современных ассистирующих технологий. / Дефектология. № 6. 2004.- С. 61-66.
48. Крак, Ю.В. Информационная технология для автоматического чтения по губам украинской речи / Ю.В .Крак, А.В.Бармак, А.С.Тернов // Компьютерная математика. Киев, № 1, 2009.- С. 86-95.
49. Крак, Ю. Компьютерная система виртуального общения людей с нарушениями слуха / Ю.Крак, А.Бармак, А.Ганджа, А.Тернов, Н.Шатковский // Advanced Studies in Software and Knowledge Engineering, 2008.- C. 161-165.
50. Кричевец, А. Шлемомышь // Компьютерра, № 434, 2002.- С. 48-51, Электронный ресурс. Режим доступа: www.computerra.ru/offline/2002/434/16588
51. Кукушкина, О.И. Использование информационных технологий в различных областях специального образования: дис. . д-ра пед. наук: 13.00.03 / Кукушкина Ольга Ильинична. М., 2005. - 381 с.
52. Левенштейн, В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР, Т. 163, № 4, 1965.- С. 845-848.
53. Лобанов, Б.М. Система аудиовизуального синтеза русской речи/ Б.М.Лобанов, Л.И.Цирульник, М.Железны, З.Крноул, А.Ронжин, А.Карпов // Информатика. Минск, Беларусь № 4 (20). 2008.- С. 67-78.
54. Малофеев, Н.Н Специальное образование в меняющемся мире. Европа: учеб. пособие для студентов пед. вузов М. : Просвещение, 2009. - 319с.
55. Матвеев Ю.Н., Симончик К.К., Тропченко А.Ю., Хитров М.В. Цифровая обработка сигналов / Ю.Н.Матвеев, К.К.Симончик, А.Ю.Тропченко, М.В.Хитров // Учебное пособие, СПб НИУ ИТМО, 2013.- 166 с.
56. Международный фонетический алфавит БАМРА Электронный ресурс. -Режим доступа: http://www.phon.ucl.ac.uk/home/sampa/home.htm.
57. Методика паспортизации и классификации объектов и услуг с целью их объективной оценки для разработки мер, обеспечивающих их доступность. Методическое пособие. М., 2012.- 144 с.
58. Набокова, Л. А. Современные ассистивные устройства для лиц с когнитивными нарушениями // Дефектология. N 3. - 2009. - С. 84-91.
59. Набокова, Л.А. Зарубежные "ассистивные технологии", облегчающие социальную адаптацию лиц с нарушениями развития // Дефектология. N 2. -2009. - С. 84-92.
60. Набокова, Л.А. Современные ассистивные устройства для лиц с нарушениями двигательного аппарата // Дефектология. N 4. - 2009. - С. 7380.
61. Паспорт государственной программы РФ "Доступная среда" на 2011 2015 годы (утв. постановлением Правительства РФ от 17.03.2011 г. N 175).
62. Пенин, Г.Н. Калькирующая жестовая речь: особенности, сфера употребления // Сборник докладов конференции «Покровские педагогические чтения 20042005 гг.». СПб, 2005.
63. Потапова, Р.К. Речевое управление роботом // М.: КомКнига, 2005.- 328 с.
64. Прозорова, Е.В. Российский жестовый язык как предмет лингвистического исследования // Вопросы языкознания. 2007. № 1.
65. Рабинер, JI. СММ и их применение в избранных приложениях при распознавании речи // ТИИЭР, Т. 77, № 2, 1989.- С. 86-120.
66. Райхман, В.М. Проект "Говорящий город". Коммуникативная система для информирования и ориентирования инвалидов по зрению // Социальная работа. № 1. - 2011. - С. 28-30.
67. Ронжин, A.JI. Исследование многомодального человеко-машинного взаимодействия на базе информационно-справочного киоска / А.Л.Ронжин, А.А.Карпов // Информационно-измерительные и управляющие системы, Москва, № 4, Т. 7, 2009.- С. 22-26.
68. Ронжин, A.JI. Методы и программные средства автоматизации аудиовизуального мониторинга участников мероприятий в интеллектуальном зале: дис. . канд. техн. наук: 05.13.11 / Ронжин Александр Леонидович. -СПб., 2013.- 158 с.
69. Ронжин, А.Л. Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях дис. . д-ра. техн. наук: 05.13.11 / Ронжин Андрей Леонидович. СПб., 2010.- 330 с.
70. Ронжин, А.Jl. Многомодальный пользовательский интерфейс для интеллектуальной информационной системы / А.Л.Ронжин, А.А.Карпов, И.С.Кипяткова // Свидетельство о государственной регистрации ПрЭВМ №2010617640 от 18.11.2010 г.
71. Ронжин, А.Л. Особенности дистанционной записи и обработки речи в автоматах самообслуживания / А.Л.Ронжин, А.А.Карпов, И.А.Кагиров // Информационно-управляющие системы, СПб.: ГУАП, Вып. 42, Т. 5, 2009.- С. 32-38.
72. Ронжин, А.Л. Система протоколирования дикторов на базе алгоритма определения речевой активности в многоканальном аудиопотоке / А.Л.Ронжин, В.Ю.Будков // Речевые технологии, № 3, 2010.- С. 98-102.
73. Ронжин, А.Л. Речевой и многомодальный интерфейсы/ А.Л.Ронжин, A.A. Карпов, И.В. Ли // М.: Наука, 2006 (Информатика: неограниченные возможности и возможные ограничения). 2006,- 173 с.
74. Ронжин, Ал.Л. Система аудиовизуального мониторинга участников совещания в интеллектуальном зале / Ал.Л.Ронжин, Ан.Л.Ронжин // Доклады ТУСУРа, № 1 (22), часть 1, 2011.- С. 153-157.
75. Саакян, A.A. Исследование свойств показателей качества систем распознавания речи // Проблемы управления, № 4, 2009.- С. 66-73.
76. Скрелин, П.А. Сегментация и транскрипция / П.А. Скрелин // СПб.: СПбГУ, 1999.
77. Соколов, В.В. Краткий обзор современных компьютерных тифлоинформационных средств, которые могут быть использованы в процессе обучения детей с глубоким нарушением зрения // Вестник тифлологии. № 2. - 2010. - С. 84-87.
78. Специфические средства общения глухих России: Видеокурс в 3 ч., Павловск: ГОУ Межрегиональный центр реабилитации лиц с проблемами слуха (МРЦ), 2002.
79. Федеральный закон от 24.11.1995 N 181-ФЗ «О социальной защите инвалидов в Российской Федерации».
80. Фрадкина, Р.Н. Говорящие руки: Тематический словарь жестового языка глухих России. М., 2001.
81. Харламов, А. А. Семантическая сеть предметной области как основа для формирования сети переходов при автоматическом распознавании слитной речи / А. А. Харламов, Т. В. Ермоленко // Программная инженерия. № 6. -2013. - С. 33-40.
82. Чистович, Л.А. Физиология речи. Восприятие речи человеком / Л.А.Чистович и др. // В серии руководство по физиологии. Л., Наука, 1976.- 388 с.
83. Шилов, В.В. Говорящие головы: мифы и реальность в истории механических генераторов речи // Информационные технологии. № 12. 2010.- С. 1-32 (приложение к журналу).
84. Юсупов, P.M. Модели и программно-аппаратные решения автоматизированного управления интеллектуальным залом / Р.М.Юсупов, А.Л.Ронжин, М.В.Прищепа, Ал.Л.Ронжин // Автоматика и телемеханика, №7, 2011.-С. 39-49.
85. Ablimit, M. Uyghur Morpheme-based Language Models and ASR/ M.Ablimit, G.Neubig, M.Mimura, S.Mori, T.Kawahara, A.Hamdulla // In Proc. 10th IEEE International Conference on Signal Processing ICSP-2010, Beijing, China, 2010.-pp. 581-584.
86. Aran, O. Sign Language Tutoring Tool / O.Aran, C.Keskin, L.Akarun // In Proc. EUSIPCO'05, Antalya, Turkey, 2005.
87. Aran, O. SignTutor: An Interactive Sign Language Tutoring Tool / O.Aran, I.Ari,
88. A.Benoit, A.Carrillo, F.Fanard, P.Campr, L.Akarun, A.Caplier, M.Rombaut,
89. B.Sankur // In Proc. eNTERFACE'2006 Summer Workshop on Multimodal Interfaces, Dubrovnik, Croatia, 2006.
90. Aronoff, M. The Paradox of Sign Language Morphology / M.Aronoff, I.Meir, W.Sandler // Language, 81 (2), 2005.- pp. 301-344.
91. Balci, К. X face Open Source Project and Smil-Agent Scripting Language for Creating and Animating Embodied Conversational Agents / K.Balci, E.Not,
92. M.Zancanaro, F.Pianesi // in Proc. 15-th International Conference on Multimedia2007, Augsburg, Germany, 2007.
93. Bates, R. Why are eye mice unpopular? A detailed comparison of head and eye controlled assistive technology pointing devices / R.Bates, H.O.Istance // In Proc. 1st Cambridge Workshop on Universal Access and Assistive Technology, USA, 2002.
94. Besacier, L. Automatic speech recognition for under-resourced languages: A Survey / L.Besacier, E.Barnard, A.Karpov, T.Schultz // Speech Communication. 2013, http://dx.doi.org/10.1016/i.specom.2013.07.008.
95. Bhanuprasad, K. Errgrams A Way to Improving ASR for Highly Inflective Dravidian Languages / K.Bhanuprasad, M.Svenson // In Proc. 3rd International Joint Conference on Natural Language Processing IJCNLP'08, India, 2008.
96. Bisani, M. Bootstrap Estimates for Confidence Intervals in ASR Performance Evaluation / M.Bisani, H.Ney // Proc. 29th IEEE Int. Conf. on Acoustics, Speech, and Signal Processing ICASSP-2004, Montreal, Canada, 2004.- pp. 409-412.
97. Bolt, R. A. Put-that-there: Voice and gesture at the graphics interface. Computer Graphics, 14 (3), 1980.- pp. 262-270.
98. Bouguet, J.-Y. Pyramidal Implementation of the Lucas-Kanade Feature Tracker Description of the algorithm // Intel Corporation Microprocessor Research Labs, 2000.
99. Bradsky, G. Learning OpenCV/ G.Bradsky, A.Kaehler // O'Reilly Publisher,2008,- 571 p.
100. Browman, C.P. Articulatory phonology: An overview / C.P.Browman, L.Goldstein // Phonetica 49 (3-4), 1992.- pp. 155-180.
101. Burger, T. Cued Speech Gesture Recognition: A First Prototype Based on Early Reduction/ T.Burger, A.Caplier, P.Perret // EURASIP Journal on Image and Video Processing, Special issue on Image and Video Processing for Disability, 2007.
102. Carbini, S. Evaluation of contactless multimodal pointing devices/ S.Carbini, J.E.Viallet // In Proc. 2-nd IASTED International Conference on Human-Computer Interaction, Chamonix, France, 2006.- pp. 226-231.
103. Castrillyn, M. A Comparison of Face and Facial Feature Detectors based on the Viola-Jones General Object Detection Framework/ M.Castrillyn, O.Deniz,
104. D.Hernandez, J.Lorenzo // Machine Vision and Applications, V. 22, Issue 3, 2011.-pp. 481-494.
105. Chahuara, P. Location of an inhabitant for domotic assistance through fusion of audio and non-visual data / P.Chahuara, F.Portet, M.Vacher // In Proc. 5th Intern. Conf. on Pervasive Computing Technologies for Healthcare, 2011.- pp. 242-245.
106. Chan, M. Smart Homes Current Features and Future Perspectives / M.Chan,
107. E.Campo, D.Esteve, J.Fourniols // Maturitas, Vol. 64, № 2, 2009.- pp. 90-97.
108. Chu, S. Multi-Modal sensory Fusion with Application to Audio-Visual Speech Recognition/ S.Chu, T.Huang // In Proc. Multi-modal Speech Recognition Workshop-2002, Greensboro, USA, 2002.
109. Cisar, P. 3D Lip-tracking for Audio-Visual Speech Recognition in Real Applications / P.Cisar, M.Zelezny, Z.Krnoul // In Proc. of the ICSLP 2004, Jeju island, Korea, 2004.
110. Cisar, P. Audio-Visual Speech Recognition for Slavonic Languages (Czech and Russian) / P.Cisar, J.Zelinka, M.Zelezny, A.Karpov, A.Ronzhin // In Proc. of 11-th International Conference SPECOM'2006, St. Petersburg, 2006.- pp. 493-498.
111. Cisar, P. Design and recording of Czech speech corpus for audio-visual continuousVspeech recognition / P.Cisar, M.Zelezny, Z.Krnoul, J.Kanis, J.Zelinka, L.Miiller // In Proc. of the AVSP 2005. Causal Productions, Adelaide, Australia, 2005.
112. Conrey, B. Audiovisual asynchrony detection for speech and nonspeech signals/ B.Conrey, D.Pisoni // Proc. International Conference on Audio-Visual Speech Processing AVSP, St. Jorioz, France, 2003.- pp. 25-30.
113. Cosatto, E. Sample-based synthesis of photo-realistic talking heads / E.Cosatto, H.Graf. // Proc. of Computer Animation, 1998.- pp. 103-110.
114. Cosi, P. LUCIA a New Italian Talking Head Based on a Modified Cohen-Massaro's Labial Coarticulation Model / P.Cosi, A.Fusaro, G.Tisato // in Proc. International Conference Eurospeech-2003, Geneva, Switzerland, Vol. 3, 2003.-pp.2269-2272.
115. Cucchiara, R. A multi-camera vision system for fall detection and alarm generation / R.Cucchiara, A.Prati, R.Vezzani // in Expert Systems, Vol. 24, No. 5, 2007.
116. De Silva, G. Human Factors Evaluation of a Vision-Based Facial Gesture Interface / G.De Silva, M.Lyons, S.Kawato, N.Tetsutani // in Proc. CVPRHCI IEEE Workshop, Madison, USA, 2003.
117. Drugman, Т. Assessment of audio features for automatic cough detection/ T.Drugman, J.Urbain, T.Dutoit // European Conference on Signal Processing EUSIPCO-2011, Barcelona, Spain, 2011.- pp. 1289-1293.
118. Ducatel, K. ISTAG Scenarios of Ambient Intelligence in 2010/ K.Ducatel, M.Bogdanowicz, F.Scapolo, J.Leijten, J-C.Burgelman // European Commission Community Research, 2001.
119. Feldhoffer, G. Temporal asymmetry in relations of acoustic and visual features of speech / G.Feldhoffer, T.Bardi, G.Takacs, A.Tihanyi // In Proc 15th European Signal Processing Conference EUSIPCO, Poznan, Poland, 2007.- pp. 2341-2345.
120. Framling, K. Smart Spaces for Ubiquitously Smart Buildings/ K.Framling, I.Oliver, J.Honkola, J.Nyman // In Proc. 3rd International Conference on Mobile Ubiquitous Computing, Systems, Services and Technologies UBICOMM-2009, 2009.- pp. 295-300.
121. Glotin, H. Weighting schemes for audio-visual fusion in speech recognition/ H.Glotin, D.Vergyri, C.Neti, G.Potamianos, J.Lüttin // In Proc. ICASSP-2001, Salt Lake City, Utah, USA, 2001.- pp. 173-176.
122. Gorodnichy, D. Nouse 'Use your nose as a mouse' perceptual vision technology for hands-free games and interfaces / D.Gorodnichy, G.Roth // Image and Vision Computing, vol. 22, no. 12, 2004.- pp. 931-942.
123. Govokhina, O. Learning optimal audiovisual phasing for a HMM-based control model for facial animation/ O.Govokhina, G.Bailly, G.Breton // Proc. ISCA Speech Synthesis Workshop, Bonn, Germany, 2007.
124. Govokhina, O. Modèles de génération de trajectoires pour l'animation de visages parlants // PhD thesis, 2008.
125. Grant, K.W. Detection of auditory (cross-spectral) and auditory-visual (cross-modal) synchrony / K.W.Grant, V.Wassenhove, D.Poeppel // Speech Communication, EURASIP Association, 44(1-4), 2004.- pp. 43-53.
126. Grauman, K. Communication via Eye Blinks and Eyebrow Raises: Video-Based Human-Computer Interfaces / K.Grauman, M.Betke, J.Lombardi, J.Gips, G.Bradski // Universal Access in the Information Society, vol. 4, 2003.-pp. 359-373.
127. Grishina, E. Multimodal Russian corpus (MURCO): first steps. In Proc. 7th Int. Conf. on Language Resources and Evaluation LREC'10, Valetta, Malta, 2010.-pp. 2953-2960.
128. Gurban, M. Dynamic modality weighting for multi-stream HMMs in audio-visual speech recognition/ M.Gurban, J.-pp.Thiran, T.Drugman, T.Dutoit // In Proc. ICMI-2008, Chania, Greece, 2008.- pp. 237-240.
129. Hasegawa-Johnson, M. Audiovisual speech recognition with articulator positions as hidden variables / M.Hasegawa-Johnson, K.Livescu, P.Lai, K.Saenko // Proc. 16th ICPhS Saarbrücken, 2007.- pp. 297-302.
130. Heckmann, M. Noise adaptive stream weighting in audio-visual speech recognition / M.Heckmann, F.Berthommier, K.Kroschel // EURASIP Journal on Applied Signal Processing, № 1, 2002.- pp. 1260-1273.
131. Hirschman, L. Overview of Evaluation in Speech and Natural Language Processing / L.Hirschman, H.S.Thompson // In: Survey of the State of the Art in Human Language Technology, 1996.
132. Huang, C. Accent modeling based on pronunciation dictionary adaptation for large vocabulary Mandarin speech recognition / C.Huang, E.Chang, J.Zhou, K.Lee // In Proc. INTERSPEECH-2000, Beijing, China, 2000.- pp. 818-821.
133. Huiyu, Z. Human motion tracking for rehabilitation. A survey / Z.Huiyu, H.Hu // Biomedical Signal Processing and Control, Vol. 3, Issue 1, 2008.- pp. 1-18.
134. Huynh, T.H. Semi-supervised tree support vector machine for online cough recognition/ T.H. Huynh, V.A. Tran, H.D.Tran // INTERSPEECH-2011 International Conference, Florence, Italy, 2011.
135. International Phonetic Association. Handbook of the International Phonetic Association: A guide to the use of the International Phonetic Alphabet. Cambridge: Cambridge University Press, 1999.
136. ISO 9241-9:2000(E) Ergonomie Requirements for Office Work with Visual Display Terminals (VDTs), Part 9: Requirements for Non-Keyboard Input Devices, International Standards Organization, 2000.
137. Istrate, D. Embedded Implementation of Distress Situation Identification Through Sound Analysis / D.Istrate, M.Vacher, J.Serignat // The J. on Information Technology in Healthcare, Vol. 6(3), 2008.- pp. 204-211.
138. Juang, B.H. Speech recognition in adverse environments // Computer Speech and Language, USA, 1991, pp. 275-294.
139. Kara, Y. E. Human action recognition in videos using keypoint tracking/ Y.E.Kara, L.Akarun // In Proc. IEEE 19th Signal Processing and Communications Applications Conference SIU, 2011.- pp. 1129-1132.
140. Karpov, A. A multi-modal system ICANDO: Intellectual Computer AssistaNt for Disabled Operators / A.Karpov, A.Ronzhin, A.Cadiou // In Proc. Interspeech'2006-ICSLP Conference, Pittsburgh, PA, USA, 2006.
141. Karpov, A. Audio-Visual Speech Asynchrony Modeling in a Talking Head / A.Karpov, L.Tsirulnik, Z.Krnoul, A.Ronzhin, B.Lobanov, M.Zelezny // In Proc. 10-th International Conference Interspeech'2009, Brighton, UK, 2009. -pp. 2911-2914.
142. Karpov, A. Influence of Phone-viseme Temporal Correlations on Audiovisual STT and TTS Performance / A.Karpov, A.Ronzhin, I.Kipyatkova, M.Zelezny // In Proc. 17th International Congress of Phonetic Sciences ICPhS-2011, Hong Kong, 2011.
143. Karpov, A. Large vocabulary Russian speech recognition using syntactico-statistical language modeling / A.Karpov, K.Markov, I.Kipyatkova, D.Vazhenina, A.Ronzhin // Speech Communication. 2013, http://dx.d0i.0rg/l 0.1016/i .specom.2013.07.004
144. Karpov, A. Towards Russian Sign Language Synthesizer: Lexical Level/ A. Karpov, M. Zelezny // In Proceedings of the 5th International Workshop on Representation and Processing of Sign Languages at the LREC-2012, Istanbul, Turkey, 2012.-pp. 83-86.
145. Karpov, A. Very Large Vocabulary ASR for Spoken Russian with Syntactic and Morphemic Analysis / A.Karpov, I.Kipyatkova, A.Ronzhin // In Proc. INTERSPEECH-2011, Florence, Italy, 2011.- pp. 3161-3164.
146. Karpov, A. Viseme-Dependent Weight Optimization for CHMM-Based AudioVisual Speech Recognition / A.Karpov, A.Ronzhin, K.Markov, M.Zelezny // In Proc. INTERSPEECH-2010 International Conference, ISCA Association, Makuhari, Japan, 2010.- pp. 2678-2681.
147. Karpov, A.A. Information Enquiry Kiosk with Multimodal User Interface/ A.A.Karpov, A.L.Ronzhin // Pattern Recognition and Image Analysis, Vol. 19, № 3, 2009.- pp.546-558.
148. Khokhlov, Y. Speech Recognition Performance Evaluation for LVCSR System/ Y.Khokhlov, N.Tomashenko // In Proc. 14th International Conference "Speech and Computer" SPECOM-2011, Kazan, Russia, 2011.- pp. 129-135.
149. Kim, K. Real-time foreground-background segmentation using codebook model / K.Kim, T.Chalidabhongse, D.Harwood, L.Davis // Real-Time Imaging, 11(3), 2005.- pp.172-185.
150. Kimmelman, V. Reflexive pronouns in Russian Sign Language and Sign Language of the Netherlands. Master thesis, University of Amsterdam, The Netherlands, 2009.
151. Kipyatkova, I. Creation of Multiple Word Transcriptions for Conversational Russian Speech Recognition/ I.Kipyatkova, A.Karpov // In Proc. 13-th International Conference SPECOM'2009, St. Petersburg, 2009.- pp. 71-75.
152. Lang, S. Rojas Sign language recognition using Kinect / S.Lang, M.Block, R.Rojas // In Proc. 11th International Conference on Artificial Intelligence and Soft Computing, Zakopane, Poland, 2012.
153. Leone, A. A 3D Range Vision System for Abnormal Behavior Monitoring of Elderly People in Ambient Assisted Living Applications / A.Leone, G.Diraco, P.Siciliano // in Proceedings of AALIANCE conference, 2010.
154. Li, Y. Acoustic Fall Detection Using a Circular Microphone Array / Y.Li, Z.Zeng, M.Popescu, K.C.Ho // In Proc. IEEE Int. Conf. Engineering in Medicine and Biology Society EMBS-2010, Buenos Aires, Argentina, 2010.
155. Liang, L. Speaker independent audio-visual continuous speech recognition/ L.Liang, X.Liu, Y.Zhao, X.Pi, A.Nefian // In Proc. International Conference on Multimedia and Expo ICME-2002, Lausanne, Switzerland, 2002.
156. Lienhart, R. An Extended Set of Haar-like Features for Rapid Object Detection/ R.Lienhart, J.Maydt // In Proc. IEEE International Conference on Image Processing ICIP'2002, Rochester, New York, USA, 2002.- pp. 900-903.
157. Lo, B. From Imaging Networks to Behavior Profiling: Ubiquitous Sensing for Managed Homecare of the Elderly / B.Lo, J.L.Wang, G.Z.Yang // in Proc. 3rd International Conference on Pervasive Computing, 2005.- pp. 101-104.
158. Lucas, B.D. An Iterative Image Registration Technique with an Application to Stereo Vision / B.D.Lucas, T.Kanade // IJCAI, 1981.- pp. 674-679.
159. Marcheret, E. Efficient Likelihood Computation in Multi-Stream HMM Based Audio-Visual Speech Recognition / E.Marcheret, S.Chu, V.Goel, G.Potamianos // In Proc. Int. Conf. on Speech and Language Processing ICSLP-2004, Korea, 2004.
160. McGurk, H. Hearing Lips and Seeing Voices / H.McGurk, J.MacDonald // Nature, №264, 1976.-pp. 746-748.
161. Morris, A.C. From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition / A.C.Morris, V.Maier, P.Green // In Proc. INTERSPEECH- 2004, Jeju Island, Korea, 2004.- pp. 2765-2768.
162. Moustakas, K. Multimodal tools and interfaces for the intercommunication between visually impaired and deaf and mute people / K.Moustakas, G.Nikolakis,
163. D.Tzovaras, B.Deville, G.Bologna, I.Marras, J.Pavlek // In Proc. eNTERFACE'2006 Summer Workshop on Multimodal Interfaces, Dubrovnik, Croatia, 2006.
164. Nakashima, H. Handbook of Ambient Intelligence and Smart Environments/ H.Nakashima, H.Aghajan, J.C.Augusto, H.Nakashima, H.Aghajan // Boston, MA: Springer. 2009.
165. Nefian, A.V. A Coupled HMM for Audio-Visual Speech Recognition/
166. A.V.Nefian, L.H.Liang, X.Pi, X.Xiaoxiang, C.Mao, K.Murphy // In Proc. Int. Conf. ICASSP'02, Orlando, USA, 2002.- pp. 2013-2016.
167. Neti, C. Audio-visual speech recognition / C.Neti, G.Potamianos, J.Luettin, et al. // Final Workshop 2000 Report, Center for Language and Speech Processing, The Johns Hopkins University, Baltimore, MD, 2000.
168. Ong. Ranganath: Automatic Sign Language Analysis: A Survey and the Future beyond Lexical Meaning // IEEE Transactions on PAMI, Vol. 27, 2005.- pp. 873891.
169. Patel, P. Comparison of fixed and variable weight approaches for viseme classification / P.Patel, K.Ouazzane // In Proc. IASTED International Conference on Signal and Image Processing SIP-2007, Honolulu, USA, 2007.- pp. 110-115.
170. Popescu, M. An acoustic fall detector system that uses sound height information to reduce the false alarm rate / M.Popescu, Y.Li, M.Skubic, M.Rantz // In Proc. 30th Annual Intern. IEEE EMBS Conference, 2008.- pp. 4628^1631.
171. Poppe, R. A survey on vision-based human action recognition/ R.Poppe,
172. B.V.Elsevier // Image and Vision Computing, 28(6), 2010.- pp. 976-990.
173. Porter, T. Compositing Digital Images / T.Porter, T.Duff // Computer Graphics, 18 (3), 1984.- pp. 253-259.
174. Portet, F. Design and evaluation of a smart home voice interface for the elderly: acceptability and objection aspects / F.Portet, M.Vacher, C.Golanski, C.Roux, B.Meillon // Personal and Ubiquitous Computing. Vol. 32, № 1, 2011.- pp. 1-18.
175. Potamianos, G. Audio-Visual Automatic Speech Recognition: An Overview / G.Potamianos, et al. // Chapter in Issues in Visual and Audio-Visual Speech Processing, MIT Press, 2005.
176. Rabiner, L. Fundamentals of Speech Recognition / L.Rabiner, B.Juang // New Jersey: Prentice-Hall, Englewood Cliffs, USA, 1993.
177. Rabiner, L. Speech Recognition/ L.Rabiner, B.Juang // Chapter in Springer Handbook of Speech Processing (Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng, eds.), NY: Springer, 2008.
178. Ronzhin, A., Karpov, A., Kipyatkova, I., Zelezny, M. Client and Speech Detection System for Intelligent Infokiosk. // In Proc. International Conference on Text, Speech and Dialogue TSD-2010, Springer LNAI 6231, Czech Republic, Brno, 2010, pp. 560-567.
179. Ronzhin, Al.L. A Video Monitoring Model with a Distributed Camera System for the Smart Space / Al.L.Ronzhin, M.V.Prischepa, A.A. Karpov // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2010, LNCS 6294, 2010.-pp. 102-110.
180. Rosten, E. Machine learning for high-speed corner detection/ E.Rosten, T.Drummond // Computer Vision ECCV, 2006.- pp. 430-443.
181. Schapira, E. Experimental evaluation of vision and speech based multimodal interfaces / E.Schapira, R.Sharma // In Proc. Workshop on Perceptive User Interfaces PUI, USA, 2001.- pp. 1-9.
182. Schlippe, T. Grapheme-to-Phoneme Model Generation for Indo-European Languages/ T.Schlippe, S.Ochs, T.Schultz // In Proc. ICASSP-2012, Kyoto, Japan, 2012.
183. Sekiyama, K. Differences in auditory-visual speech perception between Japanese and America: McGurk effect as a function of incompatibility // Journal of the Acoustical Society of Japan, Vol. 15, 1994.- pp. 143-158.
184. Sekiyama, K. Inter-language differences in the influence of visual cues in speech perception / K.Sekiyama, Y.Tohkura, // J. Phonetics 21, 1993.- pp. 427-444.
185. Soldatov, S. Lip Reading: Preparing Feature Vectors // Proc. Int. Conf. Graphicon'03, Moscow, Russia, 2003.- pp. 254-256.
186. Soukoreff, R.W. Towards a standard for pointing device evaluation, perspectives on 27 years of Fitts' law research in HCI / R.W.Soukoreff, I.S.MacKenzie // Int. Journal of Human Computer Studies, Vol. 61, No. 6, 2004.- pp. 751-789.
187. Stokoe, W.C. Sign language structure: an outline of the visual communication systems of the American deaf // Studies in linguistics: Occasional papers, № 8, 1960.
188. Takahashi, S. Cough detection in spoken dialogue system for home health care / S.Takahashi, T.Morimoto, S.Maeda, N.Tsuruta // INTERSPEECH-2004 International Conference, Jeju Island, Korea, 2004.- pp. 1865-1868.
189. Tamura, S. A stream-weight optimization method for audio-visual speech recognition using multi-stream HMMs / S.Tamura, K.Iwano, S.Furui // In Proc. ICASSP-2004, Montreal, Canada, 2004.
190. Tekalp, M. Face and 2-D mesh animation in MPEG-4 / M.Tekalp, J.Ostermann // Signal Processing: Image Communication, Special Issue on MPEG-4, Vol. 15,2000.-pp. 387-421.
191. Temko, A. Acoustic event detection in meeting-room environments / A.Temko, C.Nadeu // Pattern Recognition Letters, Vol. 30, 2009.- pp. 1281-1288.
192. Tinto Garcia-Moreno, F. Eye Gaze Tracking System Visual Mouse Application Development // Technical Report, Ecole Nationale Superiere de Physique de Strasbourg (ENSPS) and School of Computer Science, Queen's University Belfast,2001.- 77 p.
193. Tran, B.-H. A word graph based N-best search in continuous speech recognition / B.-H.Tran, F.Seide, T.Steinbiss // In Proc. ICSLP-96, Philadelphia, USA, 1996.-pp. 2127-2130.
194. US NIST 2009 (RT-09) Rich Transcription Meeting Recognition Evaluation Plan, Электронный ресурс. Режим доступа: http://www.itl.nist.gov/iad/mig/tests/rt/2009
195. Van den Broek, G. AALIANCE Ambient Assisted Living Roadmap / G.Van den Broek, F.Cavallo, C.Wehrmann // in Ambient Intelligence and Smart Environments, Volume 6, 2010.
196. Vilar, J.M. Efficient computation of confidence intervals for word error rates // In Proc. ICASSP-2008, Las Vegas, USA, 2008.- pp. 5101-5104.
197. Viola, P. Rapid Object Detection using a Boosted Cascade of Simple Features/ P.Viola, M.Jones // In Proc. 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR-2001, 2001.- pp. 511-515.
198. Vogler, C. Handshapes and Movements: Multiple-Channel American Sign Language Recognition / C.Vogler, D. N.Metaxas //In Proc. Gesture Workshop, 2003.
199. Wang, D. Computational Auditory Scene Analysis: Principles, Algorithms and Applications / D.Wang, G.Brown // Wiley-IEEE Press, 2006.
200. Ward, D. Dasher: A data entry interface using continuous gestures and language models / D.Ward, A.Blackwell, D.MacKay // In Proc. of the ACM Symposium on User Interface Software and Technology UIST'2000, New York: ACM, 2000.-pp. 129-137.
201. Weinland D., Ronfard R., Boyer E. A survey of vision-based methods for action representation, segmentation and recognition / D.Weinland, R.Ronfard, E.Boyer // Computer Vision and Image Understanding, 115(2), 2011.- pp. 224-241.
202. Whittaker, E.W.D. Efficient class-based language modeling for very large vocabularies/ E.W.D. Whittaker, P.C.Woodland // in Proc. ICASSP'01 Conference, Salt Lake City, USA, 2001.- pp. 545-548.
203. Williams, A. Aging in place: fall detection and localization in a distributed smart camera network/ A.Williams, D.Ganesan, A.Hanson // in ACM Multimedia,2007.-pp. 892-901.
204. Wilson, A. FlowMouse: A computer vision-based pointing and gesture input device / A.Wilson, E.Cutrell // In Proc. Human-Computer Interaction INTERACT Conference, Rome, Italy, 2005.- pp. 565-578.
205. Wood, A. Context-aware wireless sensor networks for assisted living and residential monitoring/ A.Wood, J.Stankovic, G.Virone, L.Selavo, H.Zhimin, C.Qiuhua, D.Thao, W.Yafeng, F.Lei, R.Stoleru // Network, IEEE, Vol. 22, № 4,2008.- pp. 26-33.
206. Wuerger, S. The integration of auditory and visual motion signals at threshold / S.Wuerger, M.Hofbauer, G.Meyer // Perception & Psychophysics 65(8), 2003.-pp. 1188-1196.
207. Young, S.The HTK Book (for HTK Version 3.4)/ S.Young, G.Evermann, M.Gales, T.Hain, D.Kershaw, X.Liu, G.Moore, J.Odell, D.Ollason, D.Povey, V.Valtchev, P.Woodland // (Cambridge University Engineering Department, 2006), 2006.- 368 p.
208. Yu, H. A direct LDA algorithm for high-dimensional data — with application to face recognition / H.Yu, J.Yang // Pattern Recognition 34(10), 2001.- pp. 20672070.
209. Zelezny, M. Design, implementation and evaluation of the Czech realistic audioVvisual speech synthesis / M.Zelezny, Z.Krnoul, P.Cisar, J.Matousek // Signal Processing, Vol. 86, № 12, 2006.- pp. 3657-3673.
210. Zigel, Y. A Method for Automatic Fall Detection of Elderly People using Floor Vibrations and Sound Proof of concept on human mimicking doll falls / Y.Zigel, D.Litvak, I.Gannot // IEEE Trans, on Biomedical Eng., Vol. 56, No. 12, 2009.-pp. 2858-2867.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.