Модели и методы автоматического распознавания элементов русского жестового языка для человеко-машинного взаимодействия тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Рюмин Дмитрий
- Специальность ВАК РФ05.13.17
- Количество страниц 352
Оглавление диссертации кандидат наук Рюмин Дмитрий
РЕФЕРАТ
SYNOPSIS
ВВЕДЕНИЕ
ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР СОВРЕМЕННОГО СОСТОЯНИЯ ИССЛЕДОВАНИЙ В ПРЕДМЕТНОЙ ОБЛАСТИ
1.1. Опр еделение рамок обзора
1.2. Подходы к автоматическому распознаванию жестовой информации
1.2.1. Базовые подходы:
1.2.2. Современные подходы:
1.3. Области применения жестовых человеко -машинных интерфейсов
1.4. Выводы по главе
ГЛАВА 2. УНИВЕРСАЛЬНАЯ МЕТОДИКА СОЗДАНИЯ МНОГОМОДАЛЬНЫХ ЖЕСТОВЫХ КОРПУСОВ
2.1. Обзор жестовых наборов данных и корпусов
2.2. Методика создания жестовых корпусов
2.3. Многомодальный жестовый корпус TheRuSLan
2.3.1. Формирование лексического словаря
2.3.2. Логическая структура базы данных
2.3.3. Физическая структура базы данных
2.3.4. Фонологические характеристики жестов
2.3.5. Система признаков конфигурации и локализации
2.4. Выводы по главе
ГЛАВА 3. МЕТОД МНОГОМОДАЛЬНОГО ВИДЕОАНАЛИЗА ДВИЖЕНИЙ РУК ДЛЯ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ ЖЕСТОВ РУК И
ЭЛЕМЕНТОВ ЖЕСТОВОГО ЯЗЫКА
3.1. Общее описание предлагаемого метода
3.2. Извлечение пространственно-временных визуальных признаков
3.3. Динамическое распознавание изолированных жестов рук и элементов жестового языка
3.4. Выводы по главе
ГЛАВА 4. ПРОГРАММНЫЙ КОМПЛЕКС АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ЭЛЕМЕНТОВ РУССКОГО ЖЕСТОВОГО ЯЗЫКА ДЛЯ ОРГАНИЗАЦИИ ЖЕСТОВЫХ ИНТЕРФЕЙСОВ
4.1. Внедрение результатов исследований
4.2. Прототип ассистивного мобильного информационного робота
4.3. Описание программного комплекса
4.4. Выводы по главе
ЗАКЛЮЧЕНИЕ
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ
СПИСОК ЛИТЕРАТУРЫ
СПИСОК РИСУНКОВ
СПИСОК ТАБЛИЦ
Приложение А
РЕФЕРАТ
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях2013 год, доктор технических наук Карпов, Алексей Анатольевич
Математическое обеспечение визуального распознавания русской речи в ассистивных транспортных системах2023 год, кандидат наук Аксёнов Александр
МОДЕЛИ И МЕТОДЫ ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ КОММУНИКАЦИЙ ЛЮДЕЙ С ОГРАНИЧЕННЫМИ ВОЗМОЖНОСТЯМИ2016 год, доктор наук Орлова Юлия Александровна
Методы и алгоритмы аудиовизуального распознавания эмоционального состояния типично и атипично развивающихся детей2023 год, кандидат наук Матвеев Антон Юрьевич
Функционально-семантическая категория аспектуальности в русском жестовом языке2016 год, кандидат наук Филимонова Елизавета Владимировна
Введение диссертации (часть автореферата) на тему «Модели и методы автоматического распознавания элементов русского жестового языка для человеко-машинного взаимодействия»
Общая характеристика работы
Актуальность темы исследования. Задача повышения уровня автоматизации и роботизации всех сфер деятельности человека является одной из ключевых в современном информационном обществе. В связи с этим руководства развитых и развивающихся стран в сотрудничестве с мировыми научными центрами и компаниями уделяют значительное внимание технологиям для организации эффективного, естественного и универсального человеко-машинного взаимодействия.
В настоящее время интеллектуальные информационные системы получают применение в сферах социального обслуживания, медицины, образования, робототехники, военной сфере, центрах обслуживания населения, а также для взаимодействия с людьми в различных чрезвычайных ситуациях. Кроме того, все более широкое распространение находят роботы-ассистенты, которые предназначены для выполнения определенных прикладных задач для взаимодействия с людьми. Для взаимодействия с ними классических графических и сенсорных пользовательских интерфейсов недостаточно. Помимо них необходимы интуитивные и естественные для человека интерфейсы (речевой, жестовый, многомодальный и т.п.). Так, например, с помощью жестов рук, головы и иных частей тела можно передавать простые управляющие команды интеллектуальной информационной системе, которые будут нести однозначный смысл и сохранять свою эффективность на некотором расстоянии и в шумных условиях, когда речь малоэффективна.
Также известно, что инвалиды по слуху ограничены в возможностях при общении со слышащими, а при обращении в различные государственные учреждения им иногда предоставляются сурдопереводчики, которых зачастую
оказывается недостаточно. Согласно Всемирной организации здравоохранения на 2019 год по статистике официально в мире порядка 466 млн человек стр адают полной глухотой или испытывают проблемы со слухом, из которых 432 млн взрослых людей и 34 млн детей. Кроме того, каждый третий человек в возрасте старше 65 лет сталкивается с проблемой снижения качества слуха и, согласно оценкам, к 2050 году более 900 млн человек будут страдать глухотой или испытывать проблемы со слухом. Поэтому необходимы технологии автоматизированного распознавания жестовых языков (далее ЖЯ) глухих людей для осуществления машинного сурдоперевода, а также организации межчеловеческого и человеко-машинного взаимодействия.
Разработка моделей и методов автоматического распознавания элементов русского жестового языка (далее РЖЯ) входит в область «ассистивных технологий», а также соответствует направлению стратегии научно -технического развития Российской Федерации «Переход к передовым цифровым, интеллектуальным производственным технологиям, роботизированным системам, новым материалам и способам конструирования, создание систем обработки больших объемов данных, машинного обучения и искусственного интеллекта», что также говорит об актуальности исследования. Кроме того, данное исследование полностью лежит в русле Стратегии развития отрасли информационных технологий в Российской Федерации на 2014 -2020 годы и на перспективу до 2025 года (утвержденной распоряжением Правительства Российской Федерации от 01.11.2013 г. N 2036-р2 с изменениями и дополнениями от 18.10.2018 г.), которая выделяет приоритетные (прорывные) направления государственной политики по исследованиям и разработкам в области информационных технологий, в том числе «человеко-машинное взаимодействие», «машинное обучение», «робототехника», и прикладные исследования из списка приоритетных направлений исследований и разработок, в частности «Новые человеко-машинные интерфейсы, включая новые методы использование жестов,
1 Электронный ресурс: http://www.who.int/mediacentre/factsheets/fs300/ru/ (дата обращения: 07.11.2020)
2 Электронный ресурс: http://base.garant.ru/70498122/#ixzz3ltgFi64Z (дата обращения: 07.11.2020)
зрения для управления компьютерными и робототехническими системами, новые методы, инфраструктурные решения и программное обеспечение для дополненной (измененной) реальности, а также новые программные средства и устройства, повышающие социальную адаптацию людей с ограниченными возможностями».
Степень разработанности темы исследования. В последние пару десятилетий за рубежом активно проводятся исследования и разрабатываются технологии автоматизированного распознавания ЖЯ глухих людей. Наиболее весомый вклад в развитие данной области внесли работы таких ученых, как Hanke T., Keskin C., Akarun L., Zelezny M., Hruz M., Kanis J. и т.д. Также следует отметить ряд других исследовательских групп, в частности, ученых из института компьютерных технологий при Китайской академии наук, разработавших прототип системы «Kinect Sign Language Translator» для распознавания китайского жестового языка в режиме реального времени; исследовательскую компанию Dolphio Technologies, которая разработала систему «SignAll» для автоматического р аспознавания американского ЖЯ, за что удостоилась награды: в конкурсе Global Impact; ученых из Университета Карнеги-Меллона, которые р аботают над системой анализа языка тела и жестов вплоть до положения пальцев (библиотека OpenPose). Помимо этого, компания Google активно развивает новый подход для определения ориентиров рук человека, который реализован в кроссплатформенной среде с открытым исходным кодом MediaPipe. Также группа исследователей из научного центра Facebook AI Research разрабатывают библиотеку FrankMocap, ориентированную на двумерный (далее 2 D) трекинг всех частей тела человека включая области рук с дальнейшей их трехмерной (далее 3D) визуализацией.
В России в последние годы изучением и анализом русского жестового языка активно занимаются ряд исследовательских групп, в частности, лаборатория речевых и многомодальных интерфейсов СПб ФИЦ РАН (институт СПИИРАН), группа под руководством д.т.н. Грифа М.Г. в Новосибирском государственном техническом университете и центр когнитивных исследований при
филологическом факультете Московского государственного университета под руководством д.ф.н. Кибрика А.А. Исследования по машинному анализу РЖЯ ведутся также в лаборатории автоматизированных систем массового обслуживания и обработки сигналов в Институте проблем управления им. В.А. Трапезникова Российской академии наук под руководством д.т.н. Фархадова М.П., в том числе в рамках развития интернет-портала «Сурдосервер». Кроме того, известны отдельные научные работы по машинной обработке составляющих РЖЯ таких российских и зарубежных ученых, как: Кур акин А.В., Воскресенский А.Л., Дорофеев Н.С., Стародубцев И.С., Орлова Ю.А. Также основой для диссертационного исследования послужили работы Алфимцева А.Н., Котюжанского Л.А., Нагапетяна В.Э. и др.
Несмотря на большой практический потенциал проблема эффективного распознавания ЖЯ до сих пор не решена из -за серьезных различий в семантико -синтаксической структуре письменного и жестового языков, вследствие чего пока невозможно выполнять однозначный перевод ЖЯ. Поэтому действующих полностью автоматизированных моделей и методов для систем сурдоперевода на данный момент не существует. Для создания таких полноценных моделей необходимо производить глубокий семантический анализ и разбор письменных фраз, а это пока возможно лишь на поверхностном уровне из-за несовершенства алгоритмов анализа текстов и баз знаний. Так стоит отметить, что вышеперечисленные проблемы возникают, в том числе, и за счет отсутствия универсальных методик создания многомодальных жестовых корпусов, а также методов и алгоритмов, обеспечивающих повышение эффективности машинного обучения и точности автоматического распознавания ЖЯ с использованием различных устройств захвата видеоинформации, которые позволяют получать не только высококачественные изображения в оптическом режиме, но и дополнительные данные о координатах графических областей интереса (режим карты глубины, инфр акрасный р ежим и др.).
Целью диссертационной работы является разработка моделей, методов, алгоритмов и программных средств позволяющих повысить точность
автоматического распознавания элементов русского жестового языка. Для достижения цели поставлены следующие задачи:
1. Анализ современных методов и подходов к автоматическому распознаванию жестовой информации.
2. Разработка универсальной методики, алгоритмов и программных средств для создания многомодальных жестовых корпусов.
3. Запись и аннотирование нового многомодального жестового корпуса, состоящего из элементов русского жестового языка.
4. Разработка и усовершенствование математических средств (моделей, методов и алгоритмов) для эффективного видеоанализа движений рук человека и распознавания статических и динамических жестов.
5. Разработка программных средств и количественное оценивание качества автоматического распознавания элементов русского жестового языка в прикладной системе человеко-машинного взаимодействия.
Объектом исследования являются визуальные составляющие русского жестового языка.
Предметом исследования являются модели, методы, способы и системы для автоматического распознавания элементов русского жестового языка.
Методология и методы исследования. В диссертационной работе использованы подходы: и методы цифровой обработки сигналов, распознавания образов, машинного обучения, вероятностного моделирования, системного и лингвистического анализа, корпусных исследований, объектно -ориентированного проектирования и программирования.
Научная новизна диссертационной работы состоит в следующем:
1. Предложена универсальная методика создания многомодальных жестовых корпусов, отличающаяся использованием многомодальных видеоданных, с использованием которой был выполнен сбор и аннотирование многомодального корпуса элементов русского жестового языка.
2. Предложен новый метод многомодального распознавания жестов рук, отличающийся анализом пространственно-временных визуальных признаков элементов жестового языка.
3. Разработана программная реализация (комплекс) автоматического распознавания элементов русского жестового языка, отличающаяся многомодальным анализом значимых движений рук в условиях сложной динамической фоновой обстановки.
Теоретическая значимость диссертационной работы заключается в исследовании и разработке новых и усовершенствовании существующих моделей и методов автоматического распознавания жестовых языков, а также в разработке универсальной методики создания многомодальных жестовых корпусов.
Практическая значимость диссертационной работы определяется возможностью интеграции разработанных моделей и методов в системы машинного сурдоперевода и мобильных информационных роботов, что позволит повысить качество жизни людей с ограниченными возможностями здоровья, в частности, инвалидов по слуху.
Основные положения, выносимые на защиту:
1. Универсальная методика создания многомодальных жестовых корпусов для изучения жестовых языков и создания автоматических систем их распознавания.
2. Метод многомодального видеоанализа движений рук для распознавания изолированных жестов рук и элементов жестового языка.
3. Программный комплекс автоматического распознавания элементов русского жестового языка для организации жестовых интерфейсов.
Достоверность и обоснованность научных достижений, полученных в рамках диссертационной работы, обусловлена наличием результатов экспериментальных исследований и успешным представлением основных положений, выносимых на защиту, на ведущих международных и всер о ссийских конференциях в виде докладов.
Апробация результатов работы. Основные результаты диссер тационного исследования представлялись и обсуждались в докладах на следующих конференциях и конгрессах, в частности: 5-й Международной конференции по интерактивной коллаборативной робототехнике ICR-2020 « International Conference on Interactive Collaborative Robotics» (Санкт-Петербург, РФ, 2020); 21-й Международной конференции «Речь и Компьютер» SPECOM-2019 «International Conference on Speech and Computer » (Стамбул, Турция, 2019); 3 -й Международной конференции по интерактивной коллаборативной робототехнике ICR-2018 «International Conference on Interactive Collaborative Robotics » (Лейпциг, Германия, 2018); 17-й Международной конференции по распределенным вычислениям PerCom-2019 « IEEE International Conference on Pervasive Computing and Communications » (Киото, Япония, 2019 ); Международной конференции «Photogrammetric and computer vision techniques for video surveillance, biometrics and biomedicine (PSBB)» (Москва, РФ, 2017, 2019); 9-й конференции «Информационные технологии в упр авлении (ИТУ-2016)» в р амках МКПУ-2016 (Санкт-Петербург, РФ 2016); XLVI, XLVII и XLVIII научно и учебно -методических конференциях университета ИТМО (Санкт-Петербург, Российская Федерация (РФ) 2017 -2019); VI, VII и VIII Всероссийских конгрессах молодых ученых (Санкт-Петербург, РФ 2017-2019).
Личный вклад автора. Автором диссертационной работы лично проведен анализ современных методов и подходов к автоматическому распознаванию жестовой информации. На основе проведенного анализа автором лично разработано программного обеспечение MulGesRecDB для записи многомодальных видеоданных. Также автором в составе коллектива собран и лично аннотирован многомодальный корпус элементов РЖЯ. Кроме того, автором лично разработан новый метод многомодального распознавания жестов рук, а также разработана программная реализация (комплекс) автоматического распознавания элементов русского жестового языка. Автор лично представлял все опубликованные материалы на конференциях.
Внедрение результатов работы. Результаты диссертационной работы использовались при проведении фундаментальных и прикладных научных исследований:
- Научно-исследовательская работа (НИР), выполняемая в рамках Университета ИТМО на тему «Синтез эмоциональной речи на основе генеративных состязательных сетей» №2 618278.
- НИР, выполняемая в рамках Университета ИТМО на тему «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах» (проект 5 -100) № 718574.
- НИР, выполняемая в рамках Университета ИТМО на тему «Исследование методов и алгоритмов многомодальных биометрических и р ечевых систем» (проект 5 -100) №2 713554.
- Проект «Многомодальный интерфейс на основе жестов и речи для управления ассистивным мобильным информационным роботом», Соглашение СПб ФИЦ РАН о субсидии с Минобрнауки России № 14.616.21.0095 (075-152019-1295) от 12.02.2018 г., уникальный идентификатор проекта RFMEFI61618X0095, выполняемый в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям р азвития научно -технологического комплекса России на 2014 -2020 годы».
Публикации. По материалам диссертационного исследования опубликовано 16 работ, включая 11 публикаций в международных рецензируемых изданиях, индексируемых в базах данных Web of Science и Scopus, 2 публикации в ведущих научных журналах из перечня ВАК Минобрнауки России, 1 глава в зарубежной монографии, также получено 3 свидетельства о государственной регистрации программ для ЭВМ и баз данных в Роспатенте.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы и списка сокращений. Полный объем диссертации составляет 121 машинописных стр аниц, включая 47 рисунко в и 11 таблиц. Список литературы содержит 157 наименований.
Содержание работы
Во введении приводится обоснование важности и актуальности темы диссертации, формулируется основная цель работы и перечисляются задачи, которые необходимо решить для ее достижения, характеризуется научная новизна и указывается теоретическая и практическая ценность результатов исследования. Кратко излагаются основные результаты с разделением на теоретические, практические и экспериментальные. Приводится общая структура работы с описанием содержания всех глав.
Первая глава посвящена аналитическому обзору современного состояния исследований в области автоматического распознавания жестовой информации и жестовых интерфейсов. В первой части главы поясняется, что область исследований человеко-машинного взаимодействия является одной из самых быстро развивающихся научных направлений за счет объединения информационных технологий и искусственного интеллекта с когнитивными науками. За счет этого повышается уровень бесконтактного взаимодействия различных групп пользователей, включая людей с ограниченными возможностями по слуху с интеллектуальными информационными системами посредством жестовых человеко -машинных интерфейсов. Описываются процессы взаимодействия человека с различными автоматизированными системами, которые, как правило, позволяют автоматически распознавать и синтезировать жестовую информацию.
Предложена систематизация рассматриваемых жестовых человеко -машинных интерфейсов по сфере их применения и выполнен анализ следующих их параметров: а) количество модальностей; б) сфера применения; в) роль при взаимодействии с человеком; г) внешний вид и эффективность. При этом особенный интерес представляют интерфейсы, состоящие из технологий автоматического распознавания жестовой информации по нескольким модальностям (режим карты глубины, оптический и инфракрасные спектры) для повышения точности автоматического распознавания элементов ЖЯ.
В свою очередь, во второй части главы проведен анализ современной научно-технической литературы, который позволил выявить, что распознавание жестов направлено на понимание значимых движений рукой или частями тела человека. Поэтому в большинстве случаев распознавание жестов сводится к обработке видеопоследовательности, которая предоставляет информацию о какой -либо части человеческого тела, например, кисти руки или обеих рук во времени и в пространстве. Исключением являются статические жесты, при показе которых не возникает необходимости в непрерывном движении рук, так как положение кисти и пальцев рук неизменчиво в пространстве по истечении времени. Также определено, что присутствие на кадрах видеопотока сложных сцен приводит к довольно серьезным проблемам распознавания в виду не эффективного извлечения пространственных особенностей жестов относительно небольших размеров рук и кистей человека по сравнению со всей сценой. Кроме этого, задачи по распознаванию жестовой информации любого ЖЯ характеризуются и другими немаловажными параметрами, в первую очередь, размер словаря распознавания, вариативность дикторов и жестов, характеристики канала передачи информации. Границы слов в потоке слитной жестовой речи могут быть определены лишь в процессе распознавания (декодирования знаков) посредством подбора оптимальной последовательности жестов, наилучшим образом согласующейся с входным потоком жестов по математическим моделям. Лексические компоненты ЖЯ (законченные жесты рук) формируются из нескольких составляющих: конфигурация рук (форма руки или рук), место исполнения (нахождения рук в пространстве во время показа жеста), характер движения рук, мимика. Задача распознавания жестовой информации сама по себе является важной, однако более актуальной задачей является понимание смысла высказывания по распознанному ряду жестов. Следовательно, процесс распознавания жестов разумно строить одновременно на их пространственно -временной составляющей.
Проведенный обзор существующих моделей, методов, способов, принципов, а также интеллектуальных решений для автоматического распознавания жестовой
информации показал, что методы распознавания жестов рук можно р азделить на три основные категории:
1. Методы, основанные на анализе оптических признаков жеста в 2D пространстве.
2. Методы, основанные на анализе 3D модели руки с использованием информации о дальности (глубине) визуальных элементов.
3. Гибридные методы, основанные на анализе 2D и 3D пространств одновременно.
Однако замечено, что все методы базируются на анализе исключительно 2 D и 3D внешнего вида графического объекта (формы и позиции рук). В этом случае не используется информация о физических свойствах рассматриваемого объекта. К таковым методам относятся: 1) распознавание позиции и ориентации (кисти) руки с помощью моментов изображения, которое осуществляется только в том случае, если получаемое изображение включает в себя однородный фон, а также наличие одной руки человека, при условии, что рука является преобладающим объектом; 2) распознавание движения рук на основе анализа разности изображений через нахождение центра масс рук при движении; 3) распознавание конфигурации рук на основе анализа гистограмм направленных градиентов; 4) распознавание конфигурации и позиции рук на основе анализа контура изображения рук; 5) распознавание методом случайных лесов; 6) распознавание жестов рук с применением скрытых марковских моделей и искусственных нейронных сетей, включая глубокие нейронные сети и методы глубокого обучения.
Современные результаты исследований дают понять, что методы машинного обучения, основанные на глубоких нейронных сетях по сравнению с традиционными классическими подходами, которые базируются на линейных классификаторах (например, метод опорных векторов), позволяют демонстрировать довольно неплохие результаты в сегментации, классификации, а также распознавании как статических, так и динамических элементов ЖЯ. Так, с помощью двухпоточных сверточных нейронных сетей возможно извлекать
пространственно-временные особенности жеста из полноцветных изображений (формат RGB) и 3D кадров (карта глубины) видеопотоков по отдельности. В свою очередь, рекуррентные сверточные сети с долговременной памятью (от англ. Long-term Recurrent Convolutional Networks, сокращенно LRCN), позволяют получать пространственные признаки каждой отдельно взятой области с жестом и далее, используя рекуррентную нейронную сеть, извлекать временные признаки жеста на основе ранее полученной пространственной информации. Кроме того, выявлено, что архитектура нейронной сети VideoLSTM с помощью долгой кратковременной памяти (от англ. Long Short-Term Memory, сокращенно LSTM) способна извлекать пространственно-временные характеристики жеста из последовательностей ранее аннотированных 2D областей с жестом. Принимая во внимание тот факт, что рассмотренные методы извлекают пространственную и временную информацию на разных этапах либо вовсе отдельно, извлечение одновременно и пространственной и временной составляющей жеста будет эффективным решением в случае наличия сложной динамической фоновой составляющей на сцене. Так 3D сверточные нейронные сети (от англ. 3D Convolution Neural Networks, сокращенно 3D CNN) возможно использовать для одновременного извлечения кратковременных пространственно -временных признаков. Однако для хранения временных признаков лучше всего подходят LSTM сети. Поэтому утверждается, что разумно использовать 3D сверточную нейронную сеть для извлечения кратковременных пространственно -временных характеристик и затем использовать LSTM для извлечения пространственно -временных зависимостей из последовательностей видеоданных. Такая 3D сверточная LSTM нейронная сеть за счет хранения 3D пространственной информации может формировать более эффективные пространственно -временные хар актеристики жеста.
В заключении главы поясняется, что в рамках диссертационной работы исследуется исключительно математическое, программное и информационное обеспечение (жестовый интерфейс), направленное на автоматическое визуальное распознавание элементов исключительно русского ЖЯ. Подчеркивается, что
проблема эффективности распознавания жестов до сих пор не решена из-за серьезных различий в семантико-синтаксической структуре письменного и жестового языков, что пока не позволяет выполнять однозначный перевод ЖЯ. Поэтому на данный момент не существует эффективных методов и моделей для автоматического сурдоперевода. Для создания таких полноценных моделей необходимо производить глубокий семантический анализ и разбор письменных фраз, а это пока возможно лишь на поверхностном уровне из -за несовер шенства алгоритмов анализа текстов и баз знаний.
Вторая глава посвящена описанию универсальной методики создания многомодальных жестовых корпусов для изучения ЖЯ и обучения автоматических систем распознавания ЖЯ.
В начале главы, поясняется, что среди множества проблем машинного обучения к наиболее критически важным относятся сбор данных и формирование сбалансированной вычислительной инфраструктуры. Кроме того, отмечается, что большая часть времени из полного цикла вероятностного машинного моделирования и обучения тратится на подготовку данных, которая включает в себя не только сбор, но и фильтрацию, анализ, а также визуализацию данных. В результате возникает потребность в разработке и усовершенствовании масштабируемых методик сбора данных. Поэтому анализируются существующие на текущий момент жестовые корпусы. Описываются отличительные особенности русского жестового языка с целью определения оптимального количества информантов, лексических единиц словаря и принципов их отбора.
Проведенный анализ показал полное отсутствие корпусов РЖЯ с многомодальным (несколько типов данных) представлением жестов. Наряду с этим выявлено, что большинство существующих корпусов ЖЯ направлены на исследование процесса невербального общения исключительно посредством жестов рук и исключая такие не менее важные коммуникативные способы естественного взаимодействия, как мимика и поза человека в целом. Данные недостатки существующих корпусов ЖЯ (включая РЖЯ) выявили необходимость в разработке собственной универсальной методики сбора и аннотирования
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях2010 год, доктор технических наук Ронжин, Андрей Леонидович
Алгоритмы распознавания жестов на видеопоследовательностях2014 год, кандидат наук Нгуен Тоан Тханг
Алгоритмы распознавания жестов на видеопоследовательностях2014 год, кандидат наук Нгуен- Тханг- Тоан-
Алгоритмы и комплекс программ моделирования персонифицированного естественно-языкового взаимодействия оператора с ЭВМ2013 год, кандидат наук Суранова, Дарья Александровна
Методы и средства двунаправленного преобразования текстовой и графической информации для альтернативной коммуникации2022 год, кандидат наук Матюшечкин Дмитрий Сергеевич
Список литературы диссертационного исследования кандидат наук Рюмин Дмитрий, 2020 год
Литература
1. Ryumin D., Karpov A. Towards Automatic Recognition of Sign Language Gestures using Kinect 2.0 // 19th International Conference on Human Computer Interaction HCII-2017. 2017. P. 89-104.
2. Karpov A., Krnoul Z., Zelezny M., Ronzhin A. Multimodal Synthesizer for Russian and Czech Sign Languages and Audio-Visual Speech // UAHCI/HCII 2013. P. 520-529.
3. Ryumin D., Ivanko D., Axyonov A., Kagirov I., Karpov A., Zelezny M. Human-Robot Interaction with Smart Shopping Trolley using Sign Language: Data Collection // Proc. of IEEE International Conference on Pervasive Computing and Communications. PerCom-2019. P. 949-954.
4. Lin W., Du L., Harris-Adamson C., Barr A., RempelD. Design of hand gestures for manipulating objects in virtual reality // International Conference on Human-Computer Interaction. 2017. P. 584-592.
5. Cao Z, Hidalgo G., Simon T., Wei S.-E., Sheikh Y. OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018. arXiv preprint arXiv:1812.08008.
6. Oyedotun O., Khashman A. Deep learning in vision-based static hand gesture recognition // Neural Computing and Applications. 2017. V. 28. P. 3941-3951.
7. Zhu Y., Lan Z., Newsam S., Hauptmann A.G. Hidden two-stream convolutional networks for action recognition // 2017 arXiv preprint arXiv:1704.00389.
8. Ouyang D., Zhang Y., Shao J. Video-based person re-identification via spatio-temporal attentional and two-stream fusion convolutional networks // Pattern Recognition Letters. 2019. V. 117. P. 153-160.
9. Li Z., Gavves E., Jain M., Snoek C.G. VideoLSTM convolves, attends and flows for action recognition // 2016. arXiv preprint arXiv:1607.01794.
10. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. 1997. V. 9. № 8. P. 1735-1780.
11. Ji S., Xu W., Yang M., Yu K. 3D Convolutional Neural Networks for Human Action Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2010. V. 35. P. 221-231.
12. Nanni L., Ghidoni S., Brahnam S. Handcrafted vs. Non-Handcrafted Features for computer vision classification // Pattern Recognition. 2017. V. 71. P. 158-172.
13. Chang C., Lin C. LIBSVM: A library for support vector machines // ACM transactions on intelligent systems and technology. TIST. 2011.V. 2. № 3. P. 27.
14. Escalante H., Ponce-Lopez V., Wan J., RieglerM., Chen B., Clapes A., Escalera S., Guyon I., BaroX., Halvorsen P., MüllerH. Chalearn joint contest on multimedia challenges beyond visual analysis: An overview // 23rd International Conference on Pattern Recognition. ICPR-2016. P. 67-73.
15. Zhu G., Zhang L., Mei L., Shao J., Song J., Shen P. Large-scale isolated gesture recognition using pyramidal 3D convolutional networks // 23rd International Conference on Pattern Recognition. ICPR-2016. P. 19-24.
16. Duan J., Zhou S., Wan J., GuoX., Li S. Multi-modality fusion based on consensus-voting and 3D convolution for isolated gesture recognition // 2016. arXiv preprint arXiv:1611.06689.
17. Duan J., Wan J., Zhou S., GuoX., Li S. A unified framework for multi-modal isolated gesture recognition // ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM). 2018. V. 14. № 1s. P. 21.
18. He K., ZhangX., Ren S., Sun J. Spatial pyramid pooling in deep convolutional networks for visual recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2015. V. 37. № 9. P. 1904-1916.
19. Kudubayeva S., Ryumin D., Kalghanov M. The influence of the Kazakh language semantic peculiarities on computer sign language // International Conferences on Information and Communication Technology, Society, and Human Beings. ICT-2016. P. 221-226.
20. Karpov A., Kipyatkova I., ZeleznyM. Automatic Technologies for Processing Spoken Sign Languages // 5th Workshop on Spoken Language Technologies for Under-resourced languages. SLTU-2016. V. 81. P. 201-207.
21. Wang P., Li W., Liu S., Gao Z., Tang C., Ogunbona P. Large-scale isolated gesture recognition using convolutional neural networks // Proc. of 23rd Int. Conf. Pattern Recognition. ICPR-2016. P. 7-12.
22. Ryumin D., Kagirov I., Ivanko D., Axyonov A. and Karpov A.A. Automatic detection and recognition of 3D manual gestures for human-machine interaction // Int. Arch. Photogramm. Remote Sens. Spatial Inf. Sci., XLII-2/W12. 2019. P. 179-183. URL = https://doi.org/10.5194/isprs-archives-XLII-2-W12-179-2019.
23. Kagirov I., Ryumin D., Axyonov A. Method for Multimodal Recognition of One-Handed Sign Language Gestures Through 3D Convolution and LSTM Neural Networks // SPECOM 2019. Lecture Notes in Computer Science. 2019. V. 11658. P. 191-200.
24. Abadi M., Barham P., Chen J., Chen Z., Davis A., Dean J., Devin M., Ghemawat S., Irving G., Isard M., Kudlur M. Tensorflow: A system for large-scale machine learning // 12th Symposium on Operating Systems Design and Implementation. 2016. P. 265-283.
25. GulliA., Pal S. Deep Learning with Keras. Packt Publishing Ltd. 2017.
26. Liu L., Shao L. Learning discriminative representations from RGB-D video data // 23rd International Joint Conference on Artificial Intelligence. 2013.
27. Tung P., Ngoc L. Elliptical density shape model for hand gesture recognition // International Proc. of the ICTD. 2014.
28. Molchanov P., Yang X., Gupta S., Kim K., Tyree S., Kautz J. Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network // Proc. of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. P. 4207-4215.
29. Zheng J., Feng Z., Xu C., Hu J., Ge W. Fusing shape and spatiotemporal features for depth-based dynamic hand gesture recognition // Multimedia Tools and Applications. 2016. P. 1-20.
Поступила 18 июля 2019 г.
Artificial Intelligence Methods in Information-Mefsuiring and ControlSystems
UDC 004.934.2
A method for multimodal recognition of one-handed sign language gestures
© Authors, 2019 © Radiotekhnika, 2019
A.A. Aksenov - Junior Research Scientist, St. Petersburg Institute for Informatics and E-mail: a.aksenov95@mail.ru D.A. Ryumin - Research Scientist, St. Petersburg Institute for Informatics and E-mail: dl_03.03.1991@mail.ru I.A. Kagirov - Junior Research Scientist, St. Petersburg Institute for Informatics and E-mail: kagirov@iias.spb.su D.V. Ivanko - Research Scientist, St. Petersburg Institute for Informatics and E-mail: denis.ivanko11@gmail.com
Abstract
Gestures as a form of nonverbal communication are of great importance in everyday life and constitute different language systems and sub-systems: from the «body language» to sign languages. Nowadays gesture recognition increasingly finds applications in various domains associated with computer vision tasks, such as human-machine interaction (HMI) or virtual reality. In a general sense, the gesture recognition aims at comprehension of any meaningful movement of a person's hand, or hands, or other body parts. The problem of gesture recognition has not been resolved so far due to variations between the sign languages of the world, noisy signing environment, small size of articulators (hands, fingers).
The gesture recognition, in most cases, comes down to processing of a video sequence, which provides the viewer with information about a part of the human body and its coordinates in space and time. The exceptions are the so-called static gestures, involving no constant, dynamic articulator movements, and the time-space coordinates are mostly one and the same for all the gesture time. Complex gestures involving different articulators and localizations also contribute to difficulties of gesture recognition due to challenges of spatial feature extraction, where it finds out that the articulators are relatively small if compared to the whole picture. It seems reasonable, therefore, that the process of gesture recognition should be based on processing of a video sequence, not a single video picture, so that not only spatial coordinates, but also time features could be extracted.
The paper presents an approach to the multimodal recognition of dynamic and static gestures of Russian sign language through 3D convolutional and LSTM neural networks. A set of data in color format and a depth map, consisting of 48 one-handed gestures of Russian sign language, is presented as well. The set of data was obtained with the use of the Kinect sensor v2 and contains records of 13 different native signers of Russian sign language. The obtained results are compared with these of other methods. The experiment on classification showed a great potential of neural networks in solving this problem. Achieved recognition accuracy was of 74.07%, and, compared to other approaches to the problem, this turns out to be the best result.
Keywords
Gesture Recognition, Sign Language, 3D CNN, Convolution LSTM, Human-Machine Interaction.
The study is supported by the Ministry of Education and Science of the Russian Federation in the framework of Agreement № 075-15-2019-1295 (identifier RFMEFI61618X0095) and partially in the framework of budget theme № 0073-2019-0005.
DOI: 10.18127/j20700814-201905-11
References
1. Ryumin D., Karpov A. Towards Automatic Recognition of Sign Language Gestures using Kinect 2.0. 19th International Conference on Human Computer Interaction HCII-2017. 2017. P. 89-104.
2. Karpov A., Krnoul Z., Zelezny M., Ronzhin A. Multimodal Synthesizer for Russian and Czech Sign Languages and Audio-Visual Speech. UAHCI/HCII 2013. P. 520-529.
3. Ryumin D., Ivanko D., Axyonov A., Kagirov I, Karpov A., Zelezny M. Human-Robot Interaction with Smart Shopping Trolley using Sign Language: Data Collection. Proc. of IEEE International Conference on Pervasive Computing and Communications. PerCom-2019. P. 949-954.
4. Lin W., Du L., Harris-Adamson C, Barr A., RempelD. Design of hand gestures for manipulating objects in virtual reality. International Conference on Human-Computer Interaction. 2017. P. 584-592.
5. Cao Z., Hidalgo G., Simon T., WeiS.-E., Sheikh Y. OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018. arXiv preprint arXiv:1812.08008.
6. Oyedotun O., Khashman A. Deep learning in vision-based static hand gesture recognition. Neural Computing and Applications. 2017.
V. 28. P. 3941-3951.
Automation of RAS Automation of RAS Automation of RAS Automation of RAS
Artificial Intelligence Methods in Informatlon-Measuiing and ControlSystems
7. Zhu Y., Lan Z., Newsam S., Hauptmann A.G. Hidden two-stream convolutional networks for action recognition. 2017 arXiv preprint arXiv:1704.00389.
8. Ouyang D., Zhang Y., Shao J. Video-based person re-identification via spatio-temporal attentional and two-stream fusion convolutional networks. Pattern Recognition Letters. 2019. V. 117. P. 153-160.
9. LiZ., Gavves E, Jain M., Snoek C.G. VideoLSTM convolves, attends and flows for action recognition. 2016. arXiv preprint arXiv:1607.01794.
10. HochreiterS., Schmidhuber J. Long short-term memory. Neural computation. 1997. V. 9. № 8. P. 1735-1780.
11. JiS., Xu W., Yang M., Yu K. 3D Convolutional Neural Networks for Human Action Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2010. V. 35. P. 221-231.
12. NanniL., GhidoniS., Brahnam S. Handcrafted vs. Non-Handcrafted Features for computer vision classification. Pattern Recognition. 2017. V. 71. P. 158-172.
13. Chang C., Lin C. LIBSVM: A library for support vector machines. ACM transactions on intelligent systems and technology. TIST. 2011.V. 2. № 3. P. 27.
14. Escalante H., Ponce-Lopez V., Wan J., Riegler M., Chen B., Clapes A., Escalera S., Guyon I., Baro X., Halvorsen P., Muller H. Chalearn joint contest on multimedia challenges beyond visual analysis: An overview. 23rd International Conference on Pattern Recognition. ICPR-2016. P. 67-73.
15. Zhu G., Zhang L., Mei L., Shao J., Song J., Shen P. Large-scale isolated gesture recognition using pyramidal 3D convolutional networks. 23rd International Conference on Pattern Recognition. ICPR-2016. P. 19-24.
16. Duan J., Zhou S., Wan J., Guo X., Li S. Multi-modality fusion based on consensus-voting and 3D convolution for isolated gesture recognition. 2016. arXiv preprint arXiv:1611.06689.
17. Duan J., Wan J., Zhou S., Guo X., LiS. A unified framework for multi-modal isolated gesture recognition. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM). 2018. V. 14. № 1s. P. 21.
18. He K, Zhang X., Ren S., Sun J. Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2015. V. 37. № 9. P. 1904-1916.
19. Kudubayeva S., Ryumin D., Kalghanov M. The influence of the Kazakh language semantic peculiarities on computer sign language. International Conferences on Information and Communication Technology, Society, and Human Beings. ICT-2016. P. 221-226.
20. Karpov A., Kipyatkova I., Zelezny M. Automatic Technologies for Processing Spoken Sign Languages. 5th Workshop on Spoken Language Technologies for Under-resourced languages. SLTU-2016. V. 81. P. 201-207.
21. Wang P., Li W., Liu S., Gao Z., Tang C., Ogunbona P. Large-scale isolated gesture recognition using convolutional neural networks. Proc. of 23rd Int. Conf. Pattern Recognition. ICPR-2016. P. 7-12.
22. Ryumin D., KagrrovI., Ivanko D., AxyonovA. andKarpovA.A. Automatic detection and recognition of 3D manual gestures for human-machine interaction. Int. Arch. Photogramm. Remote Sens. Spatial Inf. Sci., XLII-2/W12. 2019. P. 179-183. URL = https://doi.org/10.5194/isprs-archives-XLII-2-W12-179-2019.
23. Kagrrov I., Ryumin D., Axyonov A. Method for Multimodal Recognition of One-Handed Sign Language Gestures Through 3D Convolution and LSTM Neural Networks. SPECOM 2019. Lecture Notes in Computer Science. 2019. V. 11658. P. 191-200.
24. Abadi M., Barham P., Chen J., Chen Z., Davis A., Dean J., Devin M., Ghemawat S., Irving G., Isard M., Kudlur M. Tensorflow: A system for large-scale machine learning. 12th Symposium on Operating Systems Design and Implementation. 2016. P. 265-283.
25. GulliA., PalS. Deep Learning with Keras. Pack: Publishing Ltd. 2017.
26. Liu L., Shao L. Learning discriminative representations from RGB-D video data. 23rd International Joint Conference on Artificial Intelligence. 2013.
27. Tung P., Ngoc L. Elliptical density shape model for hand gesture recognition. International Proc. of the ICTD. 2014.
28. MolchanovP., Yang X., Gupta S., Kim K., Tyree S., Kautz J. Online detection and classification of dynamic hand gestures with recurrent 3d convolutional neural network. Proc. of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. P. 4207-4215.
29. Zheng J., Feng Z., Xu C., Hu J., Ge W. Fusing shape and spatiotemporal features for depth-based dynamic hand gesture recognition. Multimedia Tools and Applications. 2016. P. 1-20.
НАУЧНО-ТЕХНИЧЕСКИИ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИИ, МЕХАНИКИ И ОПТИКИ июль-август 2020 Том 20 № 4 ISSN 2226-1494 http://ntv.itmo.ru/
SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS July-August 2020 Vol. 20 No 4 ISSN 2226-1494 http://ntv.itmo.ru/en/
HHIIIDPMAPDHHhlX ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ
УДК 004.855.5 doi: 10.17586/2226-1494-2020-20-4-525-531
МЕТОД АВТОМАТИЧЕСКОГО ВИДЕОАНАЛИЗА ДВИЖЕНИЙ РУК И РАСПОЗНАВАНИЯ ЖЕСТОВ В ЧЕЛОВЕКО-МАШИННЫХ ИНТЕРФЕЙСАХ
Д. Рюмин
Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН), Санкт-Петербург,
199178, Российская Федерация
Адрес для переписки: dl_03.03.1991@mail.ru
Информация о статье
Поступила в редакцию 20.05.20, принята к печати 25.06.20 Язык статьи — русский
Ссылка для цитирования: Рюмин Д. Метод автоматического видеоанализа движений рук и распознавания жестов в человеко-машинных интерфейсах // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 4. С. 525-531. doi: 10.17586/2226-1494-2020-20-4-525-531
Аннотация
Предмет исследования. Предложено одно из решений автоматического анализа и распознавания жестов рук человека. Распознавание элементов жестовых языков является актуальной задачей в современном информационном мире. Проблема эффективности распознавания жестов не решена из-за наличия культурных различий жестовых языков мира, различий в условиях показа жестов. Проблема усложняется небольшим размером пальцев рук. Метод. Представленный метод основан на анализе последовательностей кадров видеопотока, получаемого с помощью оптической камеры. Для обработки полученных видеопоследовательностей предложено использовать карту глубины и комбинации современных классификаторов на основе архитектур глубоких нейронных сетей Single Shot MultiBox Detector с уменьшенной моделью сети ResNet-10, NASNetMobile и LSTM. Основные результаты. Эксперименты по автоматическому видеоанализу движений рук и распознаванию жестов в режиме реального времени показали большие возможности предложенного метода для задач человеко-машинного взаимодействия. Точность распознавания 48 одноручных жестов на базе данных TheRuSLan составила 79 %. Это является лучшим результатом по сравнению с другими подходами к решению данной проблемы. Практическая значимость. Результаты работы могут использоваться в автоматических системах распознавания жестовых языков, а также в тех ситуациях, когда необходимо бесконтактное взаимодействие различных групп пользователей, включая людей с ограниченными возможностями по слуху и зрению, с мобильными информационными роботами посредством автоматического распознавания жестовой информации. Ключевые слова
видеоанализ движений рук, карта глубины, распознавание жестов, детектирование лиц, глубокие нейронные сети
doi: 10.17586/2226-1494-2020-20-4-525-531
AUTOMATED HAND DETECTION METHOD FOR TASKS OF GESTURE RECOGNITION IN HUMAN-MACHINE INTERFACES
D. Ryumin
St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS), Saint Petersburg, 199178, Russian Federation
Corresponding author: dl_03.03.1991@mail.ru Article info
Received 20.05.20, accepted 25.06.20 Article in Russian
For citation: Ryumin D. Automated hand detection method for tasks of gesture recognition in human-machine interfaces. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2020, vol. 20, no. 4, pp. 525-531 (in Russian). doi: 10.17586/2226-1494-2020-20-4-525-531
Abstract
Subject of Research. The paper presents a solution for automatic analysis and recognition of human hand gestures. Recognition of the elements of sign languages is a topical task in the modern information world. The problem of gesture recognition efficiency has not been resolved due to the presence of cultural diversities in the world sign languages,
the differences in the conditions for showing gestures. The problem becomes more complicated by the small size of fingers. Method. The presented method is based on the analysis of frame sequences of a video stream obtained using an optical camera. For processing of the obtained video sequences, it is proposed to use a depth map and a combination of modern classifiers based on Single Shot MultiBox Detector deep neural network architectures with a reduced network model of ResNet-10, NASNetMobile and LSTM type. Main Results. Experiments on automatic video analysis of hand movements and gesture recognition in real time show great potential of the proposed method for human-machine interaction tasks. The recognition accuracy of 48 one-handed gestures based on TheRuSLan database is 79 %. This result is better as compared to the other approaches to solving this problem. Practical Relevance. The results can be used in automatic systems for recognition of sign languages, as well as in the situations where contactless interaction of various user groups is necessary, for example, people with hearing and vision impairments, mobile information robots through automatic recognition of sign information. Keywords
hand movement video analysis, depth map, gesture recognition, face detection, deep neural networks
Введение
Прогресс цифровых технологий в последние годы достиг такого уровня, что различные группы пользователей, включая людей с ограниченными возможностями по слуху и зрению могут бесконтактно взаимодействовать с мобильными информационными роботами [1-3] посредством многомодальных человеко-машинных интерфейсов [4-6]. Это обусловлено тем, что процесс взаимодействия человека с автоматизированными системами включает в себя множество областей исследований [7-12]. Такие системы, как правило, позволяют автоматически распознавать и синтезировать речевую [13] и жестовую [14] информации. Так, с помощью жестов можно взаимодействовать с роботом на некотором расстоянии через простые команды, которые будут нести однозначный смысл и эффективны в шумных условиях, когда речь малоэффективна [15, 16]. Кроме того, жесты являются наиболее основными и выразительными формами человеческого общения. Слышащие люди используют жесты как вспомогательные средства при межличностной речевой коммуникации, а для людей, лишенных слуха, они являются основополагающим средством общения. Согласно Всемирной организации здравоохранения, на 2019 год по статистике официально в мире порядка 466 млн человек страдают глухотой или испытывают проблемы со слухом, из которых 432 млн взрослых людей и 34 млн детей. Кроме того, каждый третий человек в возрасте старше 65 лет страдает от потери слуха и, согласно оценкам, к 2050 году более 900 млн человек будут страдать глухотой или испытывать проблемы со слухом1. Также, по статистике Министерства здравоохранения Российской Федерации на 2018 год в стране насчитывалось около 13 млн людей с нарушением слуха, из которых более 1 млн детей в возрасте до 18 лет2.
Таким образом, цель данной работы заключалась в получении автоматической технологии видеоанализа
1 Глухота и потеря слуха [Электронный ресурс]. Ы^:// www.who.int/ru/news-room/fact-sheets/detail/deafness-and-hearing-loss, свободный. Яз. рус. (дата обращения: 13.05.2020).
2 Статистический сборник Министерства здравоохранения Российской Федерации за 2018 год [Электронный ресурс]. https://www.rosminzdrav.ru/ministry/61/22/stranitsa-979/ statisticheskie-i-informatsionnye-materialy/statisticheskiy-sbornik-2018-god, свободный. Яз. рус. (дата обращения: 13.05.2020).
движений и распознавании жестов в режиме реального времени с помощью оптической камеры и карты глубины для задач человеко-машинного взаимодействия.
Метод видеоанализа движений рук и распознавания жестов
Автоматическое распознавание жестов направлено на машинный анализ и интерпретацию (понимание) значимых движений артикуляторов (рук, головы, туловища) и мимики лица человека. До сих пор проблема эффективности распознавания жестов не решена из-за различий жестовых языков мира, различных условий показов жестов, относительно небольших размеров пальцев рук.
В большинстве случаев распознавание жестов сводится к обработке видеопоследовательности, которая предоставляет информацию о какой-либо части человеческого тела, например, кисти руки или обеих рук во времени и в пространстве [17]. Исключением являются статические жесты, при показе которых не возникает необходимости в непрерывном движении рук, так как положение кисти и пальцев рук неизменчиво в пространстве по истечении времени [4]. Также присутствие на кадрах видеопотока сложных сцен приводит к довольно серьезным проблемам распознавания ввиду сложности извлечения пространственных особенностей жестов относительно небольших размеров рук и кистей человека по сравнению со всей сценой. Следовательно, процесс распознавания жестов разумно строить на пространственно-временной оценке движения рук человека.
Функциональная схема метода видеоанализа движений рук для распознавания жестов жестового языка представлена на рис. 1. Входными видеоданными являются цветной (RGB) видеопоток и карта глубины, получаемые от сенсора Kinect v2, на котором демонстратор воспроизводит жесты русского жестового языка (РЖЯ). В случае недоступности сенсора Kinect v2 метод автоматически прерывается, иначе осуществляется циклическая, синхронная обработка кадров, на каждой итерации которой происходит проверка на получение определенного кадра. На данном этапе остановка возможна в следующих случаях: возникновение ошибки при получении как RGB-видеокадров, так и карты глубины; завершение одного из описанных видеопотоков.
Рис. 1. Функциональная схема метода видеоанализа движений рук и распознавания жестов жестового языка
На каждом 3D-кадре карты глубины с помощью набора средств разработки1, который поставляется вместе с сенсором Ктей у2, происходит поиск людей (максимум до 6 человек) на расстоянии от 1,2 до 3,5 м и вычисление 3D 25-ти точечных моделей всех найденных скелетов людей. Затем по оси Z трехмер-
1 Kinect for Windows SDK 2.0 [Электронный ресурс]. https://developer.microsoft.com/en-us/windows/kinect/, свободный. Яз. англ. (дата обращения: 13.05.2020).
ного пространства определяется ближайшая скелетная модель и устанавливается слежение за ней. Далее 3D-координаты преобразуются в 2D при помощи все того же SDK Kinect v2 (рис. 2, а).
Следующий этап позволяет формировать прямоугольные области с ближайшим человеком на 2D-кадре цветного видеопотока на основе 2D 25-ти точечной модели скелета, как можно заметить на рис. 2, б.
На следующем шаге в пределах сформированной прямоугольной области с человеком происходит
Рис. 2. 25-ти точечная модель скелета человека (а); прямоугольная область с ближайшим человеком (б); определение графических областей лица и форм рук (в)
определение графической области лица и формы руки (рис. 2, в).
Экспериментальное исследование метода
Для выявления оптимального результата по детектированию лиц демонстраторов были протестированы детекторы лиц с помощью базы данных TheRuSLan [18] на основе:
— усовершенствованного метода Виолы-Джонса;
— архитектуры Single Shot MultiBox Detector (SSD) [19] с уменьшенной моделью сети ResNet-10 [20];
— гистограммы направленных градиентов (HOG) и метода опорных векторов (SVM);
— метода Max-Margin Object Detection (MMOD) [21]. В таблице представлен сравнительный анализ
используемых детекторов лиц. Для оценки качества работы детекторов использовались такие метрики1, как среднее от средней точности (mAP), AP50, AP75,
APSmall (S> APMedium (M> APLarge (L> приблизительная
скорость обработки кадра (FPS).
Эксперименты по выявлению оптимального детектора лиц производились на вычислительной машине Intel NUC в следующей комплектации: процессор Intel Core i7-8559U с частотой 2,7 ГГц; объем оперативной памяти равный 16 ГБ; твердотельный накопитель формата SSD; графический ускоритель Intel Iris Plus Graphics 655.
Таким образом, в ходе экспериментов выявлено, что для поставленной задачи по определению графической области лица оптимальным детектором является детектор лиц на основе глубокого обучения, который реализован в библиотеке OpenCV2. При сравнении с
1 Detection Evaluation [Электронный ресурс]. http:// cocodataset.org/#detection-eval, свободный. Яз. англ. (дата обращения: 25.05.2020).
2 Deep Neural Network module [Электронный ресурс]. https://docs.opencv.org/4.3.0/d6/d01/group_dnn.html, свободный. Яз. англ. (дата обращения: 13.05.2020).
другими детекторами можно отменить, что он работает при разных ориентациях лица, устойчив к окклюзиям, а также работает в режиме реального времени как на графическом процессоре (GPU), так и на центральном процессоре (CPU).
В случае с определением графической области с формой руки человека использовалась глубокая свер-точная нейронная сеть с архитектурой NASNetMobile. Данная архитектура включена в модуль распознавания объектов библиотеки с открытым исходным кодом Keras3.
Обучение глубокой сверточной нейронной сети производилось с помощью размеченных данных с формами рук из базы данных TheRuSLan (48 одноручных жестов) [18] (рис. 3).
Весь процесс аннотирования осуществлялся при помощи инструмента Labelimg4. Аннотированные области сохраняются в специальном формате PASCAL VOC [22] в виде текстовых файлов XML. Данный формат широко используется, например, в нейросети ImageNet [23, 24].
Набор данных, состоящий из жестов, был разбит на обучающую и тестовую выборки в примерном соотношении 10:3 демонстраторов (80:20 %).
Распознавание формы руки осуществлялось при следующих условиях:
— обученная модель глубокой сверточной нейронной сети определяет форму руки;
— центральная координата руки, полученная от сенсора Kinect v2, находится в пределах распознанной области с формой руки.
3 Instantiates a Mobile NASNet model in ImageNet mode [Электронный ресурс]. https://keras.io/api/applications/ nasnet/#nasnetmobile-function, свободный. Яз. англ. (дата обращения: 13.05.2020).
4 Labellmg is a graphical image annotation tool [Электронный ресурс]. https://github.com/tzutalin/labelImg, свободный. Яз. англ. (дата обращения: 13.05.2020).
Таблица. Сравнительный анализ детекторов лиц
Детекторы лиц Реализация Метрики, отн. ед. Время распознавания, мс
mAP AP50 AP75 APS APM APl FPS
Метод Виолы-Джонса OpenCV 0,15 0,56 0,02 0,04 0,10 0,21 19
SSD + ResNet-10 0,41 0,86 0,25 0,06 0,37 0,46 62
HOG и SVM Dlib 0,12 0,65 0,01 0,03 0,09 0,17 15
MMOD 0,08 0,44 0,01 0,02 0,07 0,13 9
Рис. 3. Примеры форм рук жестов русского жестового языка
Следующие этапы направлены на вычисление координат области лица и рук с их последующей нормализацией. Затем подсчитывается 2D-расстояние между самой верхней левой координатой области лица и такими же координатами областей рук. Кроме того, подсчитывается площадь пересечения областей лица и рук.
Таким образом, отличительными характеристиками жеста в определенный момент времени являются:
— нормализованные 2D-расстояния от лица до рук (зона артикуляции жеста);
— нормализованные 2D-площади пересечения лица и рук;
— формы рук (представляются числовым значением);
— результат детектирования области рта (представлен числовым значением).
Заключительный этап направлен на распознавание жестов РЖЯ с помощью глубокой нейронной сети с длинной кратковременной памятью ^БТМ).
На вход данной нейронной сети подавались функциональные ядра жестов, которые состоят из контекстно-независимых движений рук по отношению к другим жестам. В более расширенном понимании LSTM нейронная сеть принимает последовательность
N кадров на 8 значений из характеристик жеста, в частности:
— нормализованные 2D-расстояния от лица до рук и 2D-площади пересечения лица и рук, представляющие собой числа с плавающей точкой;
— формы рук - целое число;
— результат детектирования области рта представлен числами 0 (область не найдена) и 1 (область найдена). Процесс обучения производился с помощью библиотек: глубокого машинного обучения КегаБ и с открытым исходным кодом TensorFlow у2.
Средняя точность распознавания 48 одноручных жестов из базы данных TheRuSLan составила 78,94 %, что превышает ранее полученные результаты [17]. Наиболее низкую точность распознавания показали жесты, при демонстрации которых формы рук схожи и область артикуляции находится в районе лица.
Заключение
Распознавание элементов жестовых языков — очень актуальная задача в современном информационном мире. Кроме того, до сих пор проблема эффективности
распознавания жестов не решена из-за культурных различий жестовых языков мира, различных условий показов жестов, относительно небольших размеров пальцев рук.
Предложен метод, который объединяет в себе современные алгоритмы компьютерного зрения и машинного обучения, что позволяет осуществлять автоматический видеоанализ движений рук и распознавания жестов в режиме реального времени с помощью оптической камеры и карты глубины для задач человеко-машинного взаимодействия. Данный подход может использоваться в автоматических системах распознавания жестовых языков, а также в тех ситуациях, когда необходимо бесконтактное взаимодействие различных групп пользователей, включая людей с ограниченными возмож-
ностями по слуху и зрению, с мобильными информационными роботами посредством автоматического распознавания жестовой информации.
Стоит заметить, что наиболее существенным недостатком предложенного метода является необходимость наличия специализированной технической составляющей в виде сенсора Kinect v2. Данный недостаток является свойством метода, так как необходимо устройство, которое способно синхронно получать цветные видеоданные и карту глубины в режиме реального времени. Кроме того, решение реализовано таким образом, что в дальнейших исследованиях возможно произвести замену сенсора Kinect v2 на более современное решение в виде Azure Kinect или на аналог.
Литература
1. Карпов А.А., Юсупов Р.М. Многомодальные интерфейсы человеко-машинного взаимодействия // Вестник Российской академии наук. 2018. Т. 88. № 2. С. 146-155. doi: 10.7868/S0869587318020056
2. Kagirov I., Karpov A., Kipyatkova I., Klyuzhev K., Kudryavcev A., Kudryavcev I., Ryumin D. Lower limbs exoskeleton control system based on intelligent human-machine interface // Studies in Computational Intelligence. 2020. V. 868. P. 457-466. doi: 10.1007/978-3-030-32258-8_54
3. Parker L.E., Rus D., Sukhatme G.S. Multiple mobile robot systems // Springer Handbook of Robotics. Springer, Cham, 2016. P. 13351384. doi: 10.1007/978-3-319-32552-1_53
4. Ryumin D., Kagirov I., Ivanko D., Axyonov A., Karpov A.A. Automatic detection and recognition of 3D manual gestures for human-machine interaction // International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences — ISPRS Archives. 2019. V. 42. N 2/W12. P. 179-183. doi: 10.5194/isprs-archives-XLII-2-W12-179-2019
5. Mahmud S., Lin X., Kim J.H. Interface for Human Machine Interaction for assistant devices: A Review // Proc. 10th Annual Computing and Communication Workshop and Conference (CCWC). 2020. P. 768-773. doi: 10.1109/CCWC47524.2020.9031244
6. Ivanko D., Ryumin D., Kipyatkova I., Axyonov A., Karpov A. Lip-reading using pixel-based and geometry-based features for multimodal human-robot interfaces // Smart Innovation, Systems and Technologies. 2020. V. 154. P. 477-486. doi: 10.1007/978-981-13-9267-2_39
7. Janssen C.P., Donker S.F., Brumby D.P., Kun A.L. History and future of human-automation interaction // International Journal ofHuman Computer Studies. 2019. V. 131. P. 99-107. doi: 10.1016/j.ijhcs.2019.05.006
8. Prostejovsky A.M., Brosinsky C., Heussen K., Westermann D., Kreusel J., Marinelli M. The future role of human operators in highly automated electric power systems // Electric Power Systems Research. 2019. V. 175. P. 105883. doi: 10.1016/j.epsr.2019.105883
9. Chakraborty B.K., Sarma D., Bhuyan M.K., MacDorman K.F. Review of constraints on vision-based gesture recognition for humancomputer interaction // IET Computer Vision. 2018. V. 12. N 1. P. 3-15. doi: 10.1049/iet-cvi.2017.0052
10. Dey D., Habibovic A., Pfleging B., Martens M., Terken J. Color and animation preferences for a light band eHMI in interactions between automated vehicles and pedestrians // Proc. of the 2020 CHI Conference on Human Factors in Computing Systems. 2020. P. 1-13. doi: 10.1145/3313831.3376325
11. Biondi F., Alvarez I., Jeong K.A. Human-Vehicle cooperation in automated driving: A multidisciplinary review and appraisal // International Journal of Human-Computer Interaction. 2019. V. 35. N 11. P. 932-946. doi: 10.1080/10447318.2018.1561792
12. Kennedy J., Lemaignan S., Montassier C., Lavalade P., Irfan B., Papadopoulos F., Senft E., Belpaeme T. Child speech recognition in human-robot interaction: evaluations and recommendations // Proc. 12th ACM/IEEE International Conference on Human-Robot Interaction. 2017. P. 82-90. doi: 10.1145/2909824.3020229
13. Kipyatkova I. LSTM-based language models for very large vocabulary continuous russian speech recognition system // Lecture Notes in Computer Science (including subseries Lecture Notes in
References
1. Karpov A.A., Yusupov R.M. Multimodal interfaces of humancomputer interaction. Herald of the Russian Academy of Sciences,
2018, vol. 88, no. 1, pp. 67-74. doi: 10.1134/S1019331618010094
2. Kagirov I., Karpov A., Kipyatkova I., Klyuzhev K., Kudryavcev A., Kudryavcev I., Ryumin D. Lower limbs exoskeleton control system based on intelligent human-machine interface. Studies in Computational Intelligence, 2020, vol. 868, pp. 457-466. doi: 10.1007/978-3-030-32258-8_54
3. Parker L.E., Rus D., Sukhatme G.S. Multiple mobile robot systems. Springer Handbook of Robotics. Springer, Cham, 2016, pp. 13351384. doi: 10.1007/978-3-319-32552-1_53
4. Ryumin D., Kagirov I., Ivanko D., Axyonov A., Karpov A.A. Automatic detection and recognition of 3D manual gestures for human-machine interaction. International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences — ISPRS Archives, 2019, vol. 42, no. 2/W12, pp. 179-183. doi: 10.5194/isprs-archives-XLII-2-W12-179-2019
5. Mahmud S., Lin X., Kim J.H. Interface for Human Machine Interaction for assistant devices: A Review. Proc. 10th Annual Computing and Communication Workshop and Conference (CCWC), 2020, pp. 768-773. doi: 10.1109/CCWC47524.2020.9031244
6. Ivanko D., Ryumin D., Kipyatkova I., Axyonov A., Karpov A. Lip-reading using pixel-based and geometry-based features for multimodal human-robot interfaces. Smart Innovation, Systems and Technologies, 2020, vol. 154, pp. 477-486. doi: 10.1007/978-981-13-9267-2_39
7. Janssen C.P., Donker S.F., Brumby D.P., Kun A.L. History and future of human-automation interaction. International Journal ofHuman Computer Studies, 2019, vol. 131, pp. 99-107. doi: 10.1016/j.ijhcs.2019.05.006
8. Prostejovsky A.M., Brosinsky C., Heussen K., Westermann D., Kreusel J., Marinelli M. The future role of human operators in highly automated electric power systems. Electric Power Systems Research,
2019, vol. 175, pp. 105883. doi: 10.1016/j.epsr.2019.105883
9. Chakraborty B.K., Sarma D., Bhuyan M.K., MacDorman K.F. Review of constraints on vision-based gesture recognition for humancomputer interaction. IET Computer Vision, 2018, vol. 12, no. 1, pp. 3-15. doi: 10.1049/iet-cvi.2017.0052
10. Dey D., Habibovic A., Pfleging B., Martens M., Terken J. Color and animation preferences for a light band eHMI in interactions between automated vehicles and pedestrians. Proc. of the 2020 CHI Conference on Human Factors in Computing Systems, 2020, pp. 1-13. doi: 10.1145/3313831.3376325
11. Biondi F., Alvarez I., Jeong K.A. Human-Vehicle cooperation in automated driving: A multidisciplinary review and appraisal. International Journal of Human-Computer Interaction, 2019, vol. 35, no. 11, pp. 932-946. doi: 10.1080/10447318.2018.1561792
12. Kennedy J., Lemaignan S., Montassier C., Lavalade P., Irfan B., Papadopoulos F., Senft E., Belpaeme T. Child speech recognition in human-robot interaction: evaluations and recommendations. Proc. 12th ACM/IEEE International Conference on Human-Robot Interaction, 2017, pp. 82-90. doi: 10.1145/2909824.3020229
13. Kipyatkova I. LSTM-based language models for very large vocabulary continuous russian speech recognition system. Lecture Notes in Computer Science (including subseries Lecture Notes in
Artificial Intelligence and Lecture Notes in Bioinformatics). 2019. V. 11658. P. 219-226. doi: 10.1007/978-3-030-26061-3_23
14. Ryumin D., Karpov A.A. Towards automatic recognition of sign language gestures using kinect 2.0 // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2017. V. 10278. P. 89-101. doi: 10.1007/978-3-319-58703-5_7
15. Mazhar O., Ramdani S., Navarro B., Passama R. A Framework for real-time physical Human-Robot Interaction using hand gestures // Proc. ofthe 2018 IEEE Workshop on Advanced Robotics and its Social Impacts (ARSO). 2018. P. 46-47. doi: 10.1109/ARS0.2018.8625753
16. Рюмин Д. Метод обнаружения и распознавания 3D одноручных жестов рук для человеко-машинного взаимодействия // Сборник тезисов докладов конгресса молодых ученых. 2019 [Электронное издание]. URL: https://kmu.itmo.ru/digests/article/1902, свободный. Яз. рус. (дата обращения: 13.05.2020).
17. Kagirov I., Ryumin D., Axyonov A. Method for multimodal recognition of one-handed sign language gestures through 3D convolution and LSTM neural networks // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2019. V. 11658. P. 191-200. doi: 10.1007/978-3-030-26061-3_20
18. Кагиров И.А., Рюмин Д.А., Аксёнов А.А., Карпов А.А. Мультимедийная база данных жестов русского жестового языка в трехмерном формате // Вопросы языкознания. 2020. № 1. С. 104-123. doi: 10.31857/S0373658X0008302-1
19. Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C-Y., Berg A. SSD: single shot multibox detector // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. V. 9905. P. 21-37. doi: 10.1007/978-3-319-46448-0_2
20. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proc. 29th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 770-778. doi: 10.1109/CVPR.2016.90
21. King D.E. Max-margin object detection // arXiv. preprint arXiv 1502.00046. 2015.
22. Parkhi O.M., Vedaldi A., Zisserman A. Deep face recognition // Proc. 26th British Machine Vision Conference (bMVC). 2015. P. 41.141.12. doi: 10.5244/C.29.41
23. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks // Communications of the ACM. 2017. V. 60. N 6. P. 84-90. doi: 10.1145/3065386
24. Everingham M., Van Gool L., Williams C.K., Winn J., Zisserman A. The pascal visual object classes (VOC) challenge // International Journal of Computer Vision. 2010. V. 88. N 2. P. 303-338. doi: 10.1007/s11263-009-0275-4
Artificial Intelligence and Lecture Notes in Bioinformatics), 2019, vol. 11658, pp. 219-226. doi: 10.1007/978-3-030-26061-3_23
14. Ryumin D., Karpov A.A. Towards automatic recognition of sign language gestures using kinect 2.0. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2017, vol. 10278, pp. 89-101. doi: 10.1007/978-3-319-58703-5_7
15. Mazhar O., Ramdani S., Navarro B., Passama R. A Framework for real-time physical Human-Robot Interaction using hand gestures. Proc. of the 2018 IEEE Workshop on Advanced Robotics and its Social Impacts (ARSO), 2018, pp. 46-47. doi: 10.1109/ ARS0.2018.8625753
16. Riumin D. Detection and recognition method of 3D single-handed gestures for human-machine interaction. Proc. Conferences of Young Scientists, 2019. Available at: https://kmu.itmo.ru/digests/article/1902 (accessed: 13.05.2020). (in Russian)
17. Kagirov I., Ryumin D., Axyonov A. Method for multimodal recognition of one-handed sign language gestures through 3D convolution and LSTM neural networks. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2019, vol. 11658, pp. 191-200. doi: 10.1007/978-3-030-26061-3_20
18. Kagirov I.A., Ryumin D.A., Axyonov A.A., Karpov A.A. Multimedia database of Russian sign language items in 3D. Voprosy Jazykoznanija, 2020, no. 1, pp. 104-123. (inRussian). doi: 10.31857/S0373658X0008302-1
19. Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C-Y., Berg A. SSD: single shot multibox detector. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2016, vol. 9905, pp. 21-37. doi: 10.1007/978-3-319-46448-0_2
20. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition. Proc. 29th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778. doi: 10.1109/CVPR.2016.90
21. King D.E. Max-margin object detection. arXiv, preprint arXiv 1502.00046. 2015.
22. Parkhi O.M., Vedaldi A., Zisserman A. Deep face recognition. Proc. 26th British Machine Vision Conference (BMVC), 2015, pp. 41.141.12. doi: 10.5244/C.29.41
23. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 2017, vol. 60, no. 6, pp. 84-90. doi: 10.1145/3065386
24. Everingham M., Van Gool L., Williams C.K., Winn J., Zisserman A. The pascal visual object classes (VOC) challenge. International Journal of Computer Vision, 2010, vol. 88, no. 2, pp. 303-338. doi: 10.1007/s11263-009-0275-4
Авторы
Рюмин Дмитрий — научный сотрудник, Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН), Санкт-Петербург, 199178, Российская Федерация, Scopus ID: 57191960214, ORCID ID: 0000-0002-7935-0569, dl_03.03.1991@mail.ru
Authors
Dmitry Ryumin — Researcher, St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS), Saint Petersburg, 199178, Russian Federation, Scopus ID: 57191960214, ORCID ID: 0000-0002-7935-0569, dl_03.03.1991@mail.ru
АВТОМАТИЗИРОВАННАЯ СИСТЕМА РАСПОЗНАВАНИЯ ОТДЕЛЬНЫХ ЖЕСТОВ РУК
С ПРИМЕНЕНИЕМ СЕНСОРА Ю^СТ
1Д. А. Рюмин, 2А. А. Карпов
1 Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, Санкт-Петербург, 197101, Кронверкский пр., дом 49.
Тел.: +7-(981)-193-20-79. E-mail: dl_03.03.1991@mail.ru.
2Санкт-Петербургский институт информатики и автоматизации Российской академии наук, Санкт-Петербург, 199178, 14-я линия В.О., дом 39. Тел.: +7-(812)-328-04-21. E-mail: karpov@iias.spb.su.
Аннотация. Рассмотрены проблемы распознавания элементов казахского жестового языка. Описан сенсор Microsoft Kinect 2.0. Выявлена наиболее оптимальная модель представления базы данных способная хранить трехмерные сигналы. Представлена разработка математического и программного обеспечения для распознавания элементов жестового языка глухих людей. Проиллюстрированы результаты распознавания отдельных жестов рук, используя элементы теории принятия решений.
Ключевые слова: ассистивные технологии, жестовый язык, сенсор Kinect, видеопризнаки, классификатор. Введение
На текущий момент высшие правительства развитых, а также развивающихся стран в сотрудничестве с мировыми научными центрами и компаниями начинают уделять внимание разработке интеллектуальных технологий и систем на базе речевых и многомодальных человеко-машинных интерфейсов [1].
Компания Microsoft предоставляет актуальный инструмент в виде сенсора-дальномера Kinect для разработки систем с возможностью распознавания жестовых языков, который позволяет получать трехмерный видеопоток информации в виде карты глубины или трехмерного облака точек.
Разработка автоматизированной системы по распознаванию отдельных жестов рук человека с применением сенсора Kinect входит в область «ассистивных технологий» [2], что приводит к актуальности исследований.
Интеллектуальные технологии для жестовых языков и их особенностей не имеют пока достаточного внимания в мировой науке, поэтому разработка таких технологий является актуальной как никогда. Кроме того, жестовые языки без особого внимания со стороны лингвистов, сурдопереводчиков и разработчиков программного обеспечения подвержены частичному исчезновению.
Согласно Всемирной организации здравоохранения, на 2015 год по статистике официально в мире более 5% населения - это порядка 360 миллионов человек страдают глухотой или имеют проблемы со слухом, из которых 328 миллионов взрослых людей и 32 миллиона детей [3]. В Республике Казахстан (РК) насчитывается порядка 200 тысяч людей с инвалидностью по слуху. По законодательству РК [4], каждому инвалиду по слуху ежегодно предусмотрены бесплатные услуги специалиста жестового языка в объеме до 30 часов, но порой отведённых часов недостаточно. Однако частичным решением данной проблемы, может стать разработка программного продукта по распознаванию казахского жестового языка.
В настоящее время фактически нет качественных программ, которые бы надежно функционировали в области автоматического распознавания жестов. Помимо существующих технико-экономических сложностей, на развитие казахских речевых технологий, которые включают в себя и распознавание жестового языка, в первую очередь, влияют особенности казахского языка и речи, вызывающие сложности в процессе автоматической обработки: множество правил словообразования, наличие семи падежей в образовании существительных, вариативность казахского языка и речи в виду наличия нескольких областей.
Наличие информационных ресурсов жестовой речи (базы данных) является обязательным звеном для обучения любой современной системы распознавания жестовой речи, основанной на вероятностных моделях, а также различных методах обработки видеопотоков. Тем не менее, визуальной базы данных казахской жестовой речи, отвечающей требованиям для обучения автоматических систем распознавания, ранее не разрабатывалось.
Цель исследования заключается в разработке математического и программного обеспечения для распознавания элементов казахского жестового языка глухих людей. В ходе разработки были поставлены и решены следующие задачи:
- Изучение и анализ возможных подходов и методов распознавания жестового языка;
- Сбор базы данных элементов жестового языка с несколькими демонстраторами;
- Разработка методов и алгоритмов видеоанализа движений руки человека;
- Разработка и тестирование программного обеспечения для автоматического распознавания элементов казахского жестового языка.
Анализ подходов к решению задачи
Вопрос нехватки сурдопереводчиков казахского жестового языка (КЖЯ) в РК стоит очень остро. В первую очередь это связано с отсутствием школ и утвержденного стандарта, по которому необходимо обучать будущих специалистов. Кроме того, в КЖЯ выделяется три основных диалекта: северо-восточный, южный и западный. Это вызывает сложности при исследовании элементов КЖЯ.
По типу показа все жесты делятся на статические и динамические. При воспроизведении статического жеста не возникает необходимости в непрерывном движении рук, так как положение кисти и пальцев рук неизменчиво в пространстве по истечении времени. Динамические жесты в свою очередь воспроизводятся путём движения какой-либо части человеческого тела, в большинстве случаев кистью руки во времени и пространстве.
Задачи по распознаванию жестовой речи любого языка характеризуются многими параметрами, в первую очередь, это характеристики канала передачи жестовой речи, размер словаря распознавания, вариативность жестов и т.д. Границы слов в потоке жестовой речи могут быть определены лишь в процессе распознавания (декодирования знаков), посредством подбора оптимальной последовательности жестов, наилучшим образом согласующейся с входным потоком жестов по математическим моделям.
Точность работы систем автоматического распознавания жестового языка существенно ухудшается с увеличением размера словаря жестов, который может содержать в себе множество повторений одного и того же жеста. Малый словарь содержит единицы и десятки слов. Такой словарь подходит для распознавания цифр, которые входят в номера телефонов, показаний приборов, а также систем управления подвижными техническими объектами, например, такими как машина, робот, вертолёт и систем управления различным оборудованием, например, бытовой техникой.
Разработка базы данных с применением устройства Microsoft Kinect 2.0 (рисунок 1) для казахского жестового языка, является начальной ступенью при создании автоматизированной системы распознавания отдельных жестов рук.
Рис. 1. Сенсор Microsoft Kinect 2.0 for Windows
В последние пару лет актуальным стало использование устройства Microsoft Kinect 2.0, для распознавания языка жестов.
Данное устройство осуществляет скелетное отслеживание до 6 человек с целью распознавания их действий на расстоянии от 1,2 до 3,5 метров. Модель скелета человека разделяется на 25 суставов (элементов), в соответствии с рисунком 2(а).
Определение наличия пользователя в кадре производится на основе отслеживания головы и верхней части туловища человека, как показано на рисунке 2(б).
а) б)
Рис. 2. а) 25 точечная модель скелета человека, б) определение пользователя в кадре
Кроме того, Kinect 2.0 содержит инфракрасный излучатель, главное назначение которого -испускать инфракрасные лучи, которые отражаясь от предметов, попадают в инфракрасный приёмник. Инфракрасный приёмник собирает отражённые лучи c частотой 30 герц (Гц) и преобразует их в значения расстояния от сенсора до объекта или объектов. Таким образом строится матрица расстояний для одного кадра, максимальное разрешение которого 512x424 пикселей. Помимо инфракрасного излучателя и приёмника имеется цветная камера, используемая для захвата потока видео с углами обзора 43,5° по вертикали и 57° по горизонтали и с максимальным разрешением 1920 на 1080 пикселей и частотой 30 Гц (15 Гц в условиях низкой освещенности) [5], а также массив микрофонов, состоящий из 4 элементов; данный массив позволяет определять местоположение источника звука и направление звуковых волн. Помимо всего вышеперечисленного также имеется корректор угла наклона сенсоров, диапазон которого составляет ±27° по вертикали.
Данное устройство является бесконтактным сенсорным контроллером с открытым программным интерфейсом Application Programming Interface.
Сенсор-дальномер Kinect 2.0 от компании Microsoft позволяет получать трёхмерную информацию о видеопотоке в виде карты глубины, а также трёхмерного облака точек. Полученная трёхмерная модель информации приводит к отсечению заднего форма, что в свою очередь позволяет сегментировать объекты для их последующего анализа. Полученные сегментированные объекты модели являются менее ресурсоёмкими, что допускает захват всевозможных движений в режиме реального времени, а также упрощает цепочку задач машинного зрения по отсечению заднего фона и сегментированию объектов.
Однако стоит заметить, что разрешение карты глубины составляет 512 на 424 пикселей с частотой кадров 30 Гц. Полученного разрешения может оказаться недостаточно для определения небольших объектов на расстоянии 2-4 метров, таковыми могут являться пальцы рук пользователей. Тем не менее, используя связь между приёмником и передатчиком, можно реализовать алгоритм стереозрения для сегментации рук пользователей.
Вероятностные модели динамического распознавания трехмерных сигналов
Глобальная проблема распознавания информации (жестов, объектов и т.д.), посредствам компьютерного зрения заключается в том, что анализ и кластеризация информации намного сложнее, чем её синтез из-за большой вариативности сигналов как по времени, так и по содержанию (даже один человек никогда не покажет один и тот же жест подобно показанным ранее). Задачи по распознаванию, как одномерных сигналов (речи), так и двухмерных сигналов (текста) и трёхмерных сигналов (объемных жестов) еще далеко не решены. Однако стоит заметить, что существуют вероятностные модели (скрытая модель Маркова (СММ), нечёткая модель (НМ), модель искусственного нейрона и т.д.), которые направлены на генерацию и классификацию гипотез распознавания сигналов.
Широким применением при распознавании видеопотоков пользуются СММ, которые являются преобладающей парадигмой обработки. СММ имеют ряд переменных, которые формируют множество зависимостей и их состояний, которые в свою очередь имеют
вероятностные распределения с возможностью проецирования выходных значений. При использовании таких моделей, можно определить с какой долей вероятности наблюдаемая последовательность входных данных будет подходящей для данных моделей [6]. На текущий момент в большинстве случаев, задача по распознаванию потоков сводится к делению некоторых наборов данных на множество уже определённых сегментов, кластеров. Под СММ можно подразумевать некий классификатор.
Кроме СММ, распознавание потоков производится методом опорных векторов [7], который в свою очередь также является классификатором. Идея метода заключается в том, чтобы все входные данные представлять в многомерном пространстве и сегментировать с помощью гиперплоскостей. Распознавание жеста на основе метода опорных векторов заключается в представлении жеста определённой последовательностью ключевых характеристик, которые впоследствии будут подлежать сравнению и сегментации. На начальном этапе производится разбиение входных данных на пересекающиеся отрезки - фреймы. Затем из каждого фрейма извлекаются характеристики (признаки). Полученные характеристики в свою очередь объединяются в вектора, определяющие жесты. Классификация жеста с помощью метода опорных векторов осуществляется на основе сформированных векторных значений. Метод опорных векторов и СММ, показывают достаточно низкий процент ошибок распознавания.
Иерархическая база данных жестовой информации
В последние годы актуальной задачей в области информационных технологий является построение автоматизированных информационных систем. В большинстве случаев такие системы направлены на обработку больших объёмов информации, примерами которых могут быть, системы по распознаванию речи, биометрические системы идентификации, распознавание трёхмерных сигналов, системы построения географических карт и другие. При построении такого рода систем необходимо наличие многомодальных баз данных (БД), содержащих структурированную информации. Структурирование подразумевает явное выделение составных частей (элементов), связей между ними, а также типизацию элементов и связей, при которой с типом элемента (связи) соотносится определённая семантика и допустимые операции [8].
На сегодняшний день существуют разнообразные БД, отличающиеся друг от друга. Так, например, Когаловский М. Р. в своей книге «Энциклопедия технологий баз данных» описывает свыше 50 разновидностей моделей БД [9], при этом общепризнанных устоявшихся классификаций нет, так как постоянно появляются новые разновидности БД, также многие БД являются гибридами уже существующих.
В результате проведенных практических исследований, выявлено, что наиболее оптимальной моделью проектирования БД, способной хранить многомерные сигналы, получаемые с сенсора Kinect, является иерархическая модель (ИМ) [10].
Рис. 3. Модель базы данных иерархичного типа для хранения жестовой информации
C помощью ИМ все необходимые данные в совокупности можно представить в виде файловой системы, представленной на рисунке 3, состоящей из корневого каталога и иерархии подкаталогов и файлов различного формата.
Запись элементов казахского жестового языка производилась при помощи сенсора Microsoft Kinect 2.0 на расстоянии от 1,5 до 2 метров от демонстраторов, что является оптимальным расстоянием. Задний фон состоял из стены с однородным светлым или темно-зеленым фоном. Захват потока видео осуществлялся с разрешением 956x824 пикселей и частотой 25 кадров в секунду (fps).
Корневой каталог базы данных состоит из 52 подкаталогов, 10 из которых содержат информацию о жестах, показывающих цифры от 1 до 10. Остальные каталоги хранят данные дактильной азбуки казахского языка жестов, состоящей из 42 букв.
Отдельно взятый подкаталог включает в себя 30-60 видеофайлов с записанным одним и тем же жестом, показанным демонстраторами много раз, такое же количество текстовых файлов с координатами скелетной модели найденного человека, разделенной на 25 суставов. Каждая определенная точка - это пересечение двух осей (X, Y) на координатной плоскости и дополнительное значение координаты Z с двойной точностью, обозначающее глубину точки, которая измеряется расстоянием от сенсора до точки объекта в диапазоне от 0 (1,2 метра) до 1 (3,5 метра).
Кроме описанных файлов также имеется текстовый файл, хранящий служебную информацию о жесте. Средняя длительность одного видеофайла составляет ~ 4-5 секунд.
Было записано два демонстатора (мужчина и женщина), каждый из которых показал один и тот же жест по 30 раз. Примеры видеокадров с демонстраторами из базы данных приведены на рисунке 4.
Рис. 4. Примеры видеокадров двух демонстраторов из базы данных
Для обучения автоматизированной системы распознавания отдельных жестов использовалось 5 видеофайлов с привязанными к ним текстовыми файлами с координатами необходимых скелетных точек. Данные файлы считаются эталонами показа жеста, а остальные использовались как тестовые данные.
Система распознавания элементов жестового языка
Алгоритм выделения рук человека на изображениях, который подробно описан в [11] позволяет обнаруживать области рук на основе сегментации. Данный алгоритм является начальной ступенью обработки перед вычислением информативных видеопризнаков жестов рук человека [12], который позволяет иметь представление как о руке в целом, так и о ее составляющих в виде пальцев. Вектор информативных видеопризнаков жестов рук представлен в таблицах 1 и 2. Значения признаков хранятся в идентификаторах, наименование которых не совпадает между собой. Это позволяет использовать при распознавании признаки в любой последовательности.
Таблица 1
Информативные признаки кисти руки
Идентификатор Признак
hand or Ориентация руки
hand maj axis len Длина большой оси эллипса
hand small axis len Длина малой оси эллипса
hand eccentr Эксцентриситет
hand open Количество внутренних отверстий
hand eul num Число Эйлера
hand area Площадь
hand convex Коэффициент выпуклости
hand bord len Длина границы
hand bord diam Диаметр границы
Таблица 2 Информативные признаки каждого пальца
Идентификатор Признак
fing or Ориентация пальца
fing maj axis len Длина большой оси эллипса
fing small axis len Длина малой оси эллипса
fing eccentr Эксцентриситет
fing open Количество внутренних отверстий
fing eul num Число Эйлера
fing area Площадь
fing convex Коэффициент выпуклости
fing bord len Длина границы
fing bord diam Диаметр границы
Основные методы распознавания можно разделить на следующие категории:
— Структурные и синтаксические методы;
— Методы, которые основаны на теории принятия решений;
— Статистические методы;
— Нейронные сети.
Структурные методы позволяют распознавать такие образы, у которые дескрипторы являются качественными. К таковым можно отнести реляционные дескрипторы [13].
В случае если визуальные образы описываются при помощи количественных дескрипторов (длины, площади, диаметра, текстуры и т.д.), то можно использовать элементы теории принятия решения.
Каждый жест представляется в виде образа. Образ - это упорядоченная совокупность дескрипторов, образующих вектора признаков:
гх.
X =
(1)
где
х{ - г -дескриптор; п - общее количество дескрипторов.
Эквивалентная форма записи признаков имеет вид: х = I
( f
(X , X ,..., X I ;
\ 1 2 n /
где T - операция
транспонирования.
Образы, которые обладают какими-то схожими свойствами, образуют класс. В совокупности система распознавания содержит 52 класса (по числу распознаваемых жестов в БД), обозначаемые, как W2,...,^52 . В каждом классе находятся 5 записей, которые являются эталонами правильного показа определенного жеста.
Процесс сопоставления эталонных векторов с тестовыми основан на вычислении евклидова расстояния между ними. Принадлежность объекта к какому-то классу происходит на основе
X
X
n
минимального расстояния между эталоном (прототипом) и неизвестным объектом, как показано на рисунке 5.
Рис. 5. Примеры распознавания жестов
Статический классификатор по минимуму евклидова расстояния выглядит следующим образом. Эталон класса - это математическое ожидание векторов образов выбранного класса:
т = N 2 ху (2)
где
у = 1,2,..., Ж - число классов;
N у - число векторов дескрипторов объектов класса Wj .
Суммирование производится по всем векторам. Мера близости, основанная на евклидовом расстоянии, вычисляется по формуле:
В 7 (х) =
х - т ■
(3)
где
у = 1,2,...,Ж - число классов; х - неизвестный объект;
ту - математическое ожидание, вычисляемое по предыдущей формуле.
Таким образом, неизвестный объект х будет соотнесен с некоторой вероятностью к такому классу Wj , для которого мера близости Оу (х) будет наименьшей.
Достижение наименьшей (в среднем) вероятности появления ошибок при классификации осуществляется следующим образом. Вероятность того, что определенный объект х относится к классу Wj - это р^у | х) . В случае, если классификатор относит образ (объект) к классу Wj ,
который в действительности принадлежит wi, то это означает, что возникла потеря в виде ошибки классификации. Данные ошибки обозначаются как Ьу . Поскольку любой образ х
возможно отнести к любому из имеющихся классов IV , среднее значение потери (ошибки), связанное с отнесением к классу Wj объекта х равно среднему риску. Вычисление производятся на основании формулы:
Ж
г у (х) = д Ькур( ^|х)
(4)
Таким образом неизвестный образ возможно отнести к любому классу Ж . Сумма значений средних потерь по всем допустимым решениям будет минимальной, т.к. для входного образа х происходит вычисление функций г1(х),Г2(х),...,гм,(х). Данный классификатор основан на байесовском классификаторе, то есть относит образ х к классу wi в том случае, когда г (х) < г у (х) при условии, что у = 1,2,..., Ж - число классов и класс у не равен классу \.
Заключение
Программная реализация автоматизированной системы в целом производилась при помощи инструментария математических вычислений MATLAB [14], который позволил исследовать и спроектировать модели с альтернативными подходами к решению. Также применялись вспомогательные программные средства и библиотеки Open Graphics Library [15], Open Source Computer Vision Library [16]. Официальный инструментарий software development kit 2.0 [17] от компании Microsoft предоставил возможность получения необходимых данных с сенсора Kinect 2.0.
Тестирование автоматизированной системы производилось на вычислительных машинах с разной производительностью, параметры которых представлены в таблице 3.
Таблица 3
Скорость обработки кадров автоматизированной системой на разных вычислительных системах
Процессор Оперативная память, GB Тип накопителя Видеоадаптер Скорость обработки кадра, мс
Intel Core i7 3,4 ГГц 8 HDD Nvidia GeForce GTX 650 Ti =180
Intel Core i7 3,4 ГГц 4 SSD Nvidia GeForce GTX 650 Ti =140
Intel Atom Z250 1.33 ГГц 2 HDD GMA500 =415
Intel Xeon E5-2690 128 SSD NVIDIA Tesla K20X, NVIDIA Quadro K5000 (работающие в SLI) =70
Intel Core i5-3470 8 HDD NVIDIA GeForce GT 640 =270
Среднее время обработки одного кадра видеопоследовательности составляет 215 мс (таблица 3), что позволяет обрабатывать до 5 кадров за 1 секунду. Текущие показатели пока не позволяют обрабатывать автоматизированной системой поток видеоинформации в режиме реального времени. Однако присутствует возможность обработки записанных видеофрагментов с камеры КтеС 2.0 в паре с получаемыми значениями от датчика глубины в синхронном режиме.
Характеристики качества распознавания представлены в таблице 4.
Таблица 4
Характеристики качества распознавания отдельных жестов
Жест Точность Жест Точность Жест Точность Жест Точность
1 0,89 В 0,90 М 0,90 Х 0,85
2 0,90 Г 0,86 Н 0,89 h 0,90
3 0,85 F 0,84 Ц 0,88 Ц 0,86
4 0,88 Д 0,87 О 0,88 Ч 0,86
5 0,87 Е 0,87 е 0,86 Ш 0,87
6 0,87 Е 0,86 П 0,90 Щ 0,86
7 0,85 Ж 0,88 р 0,87 Ъ 0,83
8 0,86 З 0,87 С 0,87 Ы 0,88
9 0,87 И 0,89 Т 0,90 I 0,87
10 0,84 и 0,85 У 0,85 Ь 0,84
A 0,91 К 0,88 ¥ 0,83 Э 0,87
Э 0,86 0,84 Y 0,84 Ю 0,86
Б 0,87 Л 0,85 Ф 0,87 Я 0,88
Из полученных результатов видно (таблица 4), что средняя точность распознавания составляет 0,87 (87%), которая вычисляется по формуле:
X + Х2 +...+Хп
где
п - количество жестов;
хп - точность распознавания жеста.
Данные результаты получены на записанной базе данных.
n
Наиболее низкую точность распознавания показали жесты, при демонстрации которых необходимо располагать пальцы на относительно близком расстоянии друг от друга под разными углами. Повысить точность в таком случае возможно за счет увеличения количества эталонов, а также разработке алгоритма способного осуществлять процессы размыкания и замыкания не только бинарного, но и цветного изображения. Это позволит гибко управлять цветовыми параметрами и определять не только более точно координаты объектов, но и их дескрипторы.
Исследование выполняется при поддержке фонда РФФИ (проект № 16-37-60100).
ЛИТЕРАТУРА
1 Карпов А.А. Когнитивные исследования ассистивного многомодального интерфейса для бесконтактного человеко-машинного взаимодействия // Информатика и ее применения. 6:2. 2012. С. 77-86.
2 Конвенция о правах инвалидов [принята резолюцией 61/106 Ген. Асс. ООН от 13 дек. 2006 г.]. Новые основные международные договоры по правам человека. 2007. 10 с.
3 Всемирная организация здравоохранения [Электронный ресурс]. Режим доступа: http://www.who.int/mediacentre/factsheets/fs300/ru/ (дата обращения: 27.07.2016).
4 Закон Республики Казахстан от 13 апр. 2005 г. № 39-III «О социальной защите инвалидов в Республике Казахстан» (с изм. и доп. по состоянию на 03.12.2015 г.) [Электронный ресурс]. Режим доступа: http://online.zakon.kz/Document/7doc id=30008935#pos=1;-235 (дата обращения: 28.07.2016).
5 Learn to Develop with Microsoft Developer Network. Skeletal Tracking [Электронный ресурс]. Режим доступа: https://msdn.microsoft.com/en-us/library/hh973074.aspx (дата обращения: 29.07.2016).
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.