МОДЕЛИ И МЕТОДЫ ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ КОММУНИКАЦИЙ ЛЮДЕЙ С ОГРАНИЧЕННЫМИ ВОЗМОЖНОСТЯМИ тема диссертации и автореферата по ВАК РФ 05.13.01, доктор наук Орлова Юлия Александровна
- Специальность ВАК РФ05.13.01
- Количество страниц 352
Оглавление диссертации доктор наук Орлова Юлия Александровна
Введение
Глава 1. Аналитический обзор подходов и способов
преобразования информации для обеспечения коммуникации людей
с ограниченными возможностями
1.1 Анализ проблем коммуникации людей с ограниченными
возможностями
1.2 Технические, аппаратные и программные средства коммуникации
людей с ограниченными возможностями
1.3 Модели, методы и системы сурдокоммуникации
1.4 Модели, методы, системы визуальной и тактильной коммуникации
1.5 Методы отображения текстовой информации в адаптированном виде
1.6 Концепция информационной поддержки коммуникаций людей
с ограниченными возможностями
1.7 Результаты и выводы по первой главе
Глава 2. Перевод речи на русском жестовом языке в текст
и текста в жесты
2.1 Методика трансляции русского жестового языка
2.2 Распознавание и анализ движений рук человека
2.3 Распознавание и анализ движений тела человека
2.4 Распознавание и анализ движений губ человека
2.5 Сканирование и трехмерная реконструкция изображения
тела человека
2.6 Результаты и выводы по второй главе
Глава 3. Преобразование и визуализация информации
для облегчения понимания текста и изображений
3.1 Методика трансформации и визуализации информации
3
3.2 Анализ изображений, поиск и окрашивание выделенных элементов
на изображении
3.3 Аннотирование и визуализация текстов в виде ассоциативной карты160
3.4 Преобразование текстового описания объекта в изображение
3.5 Результаты и выводы по третьей главе
Глава 4. Обработка динамической видеоинформации для анализа
движений человека
4.1 Формализация движений человека
4.2 Метод контроля и коррекции движений человека при выполнении
физических упражнений
4.3 Применение методов в лечебной физкультуре и спорте
4.4 Результаты и выводы по четвертой главе
Глава 5. Программные средства информационной поддержки
коммуникаций людей с ограниченными возможностями
5.1 Архитектура комплекса программных средств коммуникации людей
с ограниченными возможностями
5.2 Программные средства сурдокоммуникации
5.3 Программные средства адаптации информации
5.4 Программные средства автоматизированного контроля движений
человека
5.5 Результаты и выводы по пятой главе
Заключение
Список литературы
Приложение A Свидетельства о регистрации программ для ЭВМ
Приложение Б Акты внедрения научного исследования
Введение
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях2013 год, доктор технических наук Карпов, Алексей Анатольевич
Модели и методы автоматического распознавания элементов русского жестового языка для человеко-машинного взаимодействия2020 год, кандидат наук Рюмин Дмитрий
Методы и средства двунаправленного преобразования текстовой и графической информации для альтернативной коммуникации2022 год, кандидат наук Матюшечкин Дмитрий Сергеевич
Модели представления и алгоритмы распознавания русских дактилем2012 год, кандидат технических наук Скоробогатова, Наталия Евгеньевна
Функционально-семантическая категория аспектуальности в русском жестовом языке2016 год, кандидат наук Филимонова Елизавета Владимировна
Введение диссертации (часть автореферата) на тему «МОДЕЛИ И МЕТОДЫ ИНФОРМАЦИОННОЙ ПОДДЕРЖКИ КОММУНИКАЦИЙ ЛЮДЕЙ С ОГРАНИЧЕННЫМИ ВОЗМОЖНОСТЯМИ»
Актуальность темы исследования.
В последнее время в мире все большее внимание уделяется людям с
ограниченными возможностями. Создаются необходимые условия для их
передвижения, обучения и коммуникации, проводятся организационные
мероприятия, разрабатываются специальные инженерно-технические, аппаратно-
программные средства. Создание безбарьерной среды для людей с
ограниченными возможностями – важнейшая задача современного государства.
Каждый человек должен иметь равные возможности для коммуникации с
внешним миром.
С 2011 года в России действует государственная программа поддержки
людей с ограниченными возможностями «Доступная среда», направленная на
создание безбарьерной среды. Планировалось, что к 2016 году доля приоритетных
объектов социальной, транспортной и инженерной инфраструктуры, доступных
для инвалидов, должна составить 45%. Однако, многие проблемы еще не решены,
поэтому принято решение о продлении программы до 2020 года.
Существенные трудности для многих людей с ограниченными
возможностями – нарушение их связи с миром, бедность социальных контактов,
ограниченная возможность приобщаться к культурным ценностям, получать
необходимое образование и работу. Расширение сферы самостоятельности людей
с ограниченными возможностями, развитие навыков осваивать и использовать без
непосредственной посторонней помощи знаний для решения повседневных задач,
преодоление обособленности, являются важнейшими условиями для их
самореализации. Социокультурная адаптация позволяет людям с ограниченными
возможностями полнее реализовать свой потенциал, как для личной пользы, так и
во благо своего окружения.
Технологии и устройства, такие как инвалидные коляски, протезы,
слуховые аппараты, приспособления для исправления зрения, специальное
5
компьютерное борудование и программное обеспечение, улучшают мобильность,
слух, зрение и возможности для общения. Поддерживающие средства помогают
людям компенсировать функциональные ограничения человека и становятся
инструментом, который закладывает основу для развития личности.
Крайне необходимы средства, в том числе автоматизированные, для
упрощения коммуникации людей с внешним миром, которые обеспечивают
адаптацию среды обучения и/или жизнедеятельности; трансляцию русского
жестового языка; организации двигательной активности; представление
информации в виде, приемлемом для людей с ограниченными возможностями.
Реализованные средства общения и коммуникации будут способствовать их
самореализации в современном мире, развитию профессиональных навыков и
потенциальных способностей, придадут уверенности в себе.
Несмотря на интерес ученых к коммуникациям людей с ограниченными
возможностями, проблема информационной поддержки этого процесса остается
недостаточно разработанной в теоретическом и практическом плане, о чем
свидетельствует малочисленность фундаментальных исследований, практически
полное отсутствие средств, способствующих безбарьерной передаче информации,
фрагментарность их практического применения в современной России.
В данной работе созданы технологии и программные средства для
преобразования текстовой и видеоинформации, обеспечивающие поддержку
безбарьерных коммуникаций людей с ограниченными возможностями в
различных сферах жизнедеятельности. Такие информационные технологии
особенно актуальны в образовании, спорте и физической культуре, так как в
соответствии с Федеральным законом №273-ФЗ «Об образовании в Российской
Федерации», федеральными стандартами высшего образования образовательные
учреждения обязаны обеспечить людям с ограниченными возможностями условия
для инклюзивного обучения по адаптированным программам, которое
предполагает равный доступ к образованию всем обучающимся с учетом
разнообразия особых образовательных потребностей и индивидуальных
возможностей.
6
Степень разработанности темы исследования.
Исследованию жестовых языков посвящены работы зарубежных и
отечественных ученых: У. Стоуки, Д. Брентари, Р. Уилбур, В. Сэндлер, Д. Лилло-
Мартин, Г.Л. Зайцевой, А.А. Комаровой, Т. Давиденко, Е.В. Прозоровой,
В. Киммельмана, Е.Ю. Шамаро, С.И. Буркова, А.Л. Воскресенского,
А.А. Карпова. Отметим работы А.В. Бондарко по теории функционально-
семантических категорий; работы Ю.Д. Апресяна, Д. Ландэ, С. Д. Тарасова,
Б.Ю. Городецкого, А.Б. Преображенского по компьютерной лингвистике.
Задачами автоматической адаптации текста занимались: Г.П. Лун,
Э.Ф. Скороходько, В.Е. Берзон, И.П. Cевбо, Д.Г. Лахути, Р.Г. Пиотровский и др.
Методы автоматического аннотирования исследовались в трудах Б.В. Доброва,
Н.В. Лукашевича, Х. Луна, К. МакКьюина, М.Г. Мальковского, И. Мани,
И.В. Машечкина, А. Ненкова, М.И. Петровского, И.П. Севбо, Б. Шиффмана,
Х. Эдмундсона, А.А. Алексеева и многих других авторов.
Методы распознавания образов, обработки и окрашивания изображений, их
применение разрабатывались в работах Р.В. Шафера, А. Розенфельда, У. Прэтта,
М. Мак-Доннела,Р. Харди, Дж. Серра, Ю.И. Журавлева, Ю.П. Пытьева,
А.И. Чуличкова, Н.Г. Загоруйко, Л.П. Ярославского, В.П. Пяткина,
В.С. Киричука, В.А. Виттиха, В.В. Сергеева, В.А. Сойфера, А.А. Спектора,
Ю.Г. Васина, В.В. Моттля, А.П. Немирко, К.К. Васильева, Ю.В. Обухова,
И.Г. Персианцева, В.В. Рязанова, Shi-Guang, Filipe M. Vieira, А.Д. Варламов и др.
Вместе с тем существующие информационно-коммуникационные
технологии не в полной мере обеспечивают потребности людей с различными
нарушениями в осуществлении коммуникаций. Специальные исследования на эту
тему не проводились, имеющиеся в публикациях фрагментарные сведения
относятся, главным образом, к описанию зарубежного опыта.
Проведенный анализ современных исследований позволяет сформулировать
фундаментальную научную проблему, на решение которой направлено данное
исследование: создание информационных и программных средств поддержки
коммуникаций, обеспечивающих комфортную и доступную среду для
7
безбарьерного общения людей с ограниченными возможностями,
в том числе при получении образования, занятиями физической культурой,
спортом и прочее.
Объектом исследования являются процессы визуальной, вербальной,
тактильной коммуникации людей с ограниченными возможностями.
Предметом исследования являются концепция, модели, методы и средства
преобразования текстовой и видеоинформации для поддержки безбарьерного
общения людей с ограниченными возможностями.
Целью исследования является разработка моделей, методов и средств
обработки и преобразования текстовой и видеоинформации, обеспечивающих
безбарьерное общение людей с ограниченными возможностями.
Для достижения поставленной цели были сформулированы и решены
следующие задачи:
1. Провести анализ подходов и способов преобразования информации
для обеспечения коммуникации людей с ограниченными возможностями.
2. Разработать концепцию информационной поддержки коммуникаций
людей с ограниченными возможностями.
3. Разработать модели и методы автоматического перевода речи на
русском жестовом языке в текст и текста в речь на языке жестов.
4. Разработать модели и методы трансформации и визуализации
информации для людей с нарушениями зрения, ассоциативных функций и
опорно-двигательного аппарата.
5. Разработать алгоритмы и программные средства информационной
поддержки коммуникаций людей с ограниченными возможностями, реализующие
предлагаемые модели и методы.
6. Апробировать программные средств информационной поддержки
коммуникаций людей с ограниченными возможностями при получении
образования.
8
Методология и методы исследования.
В работе использовались методы системного анализа, математического
моделирования, искусственного интеллекта, компьютерной лингвистики,
распознавания образов, компьютерной графики, математической статистики.
Положения, выносимые на защиту:
1. Концепция информационной поддержки коммуникаций людей с
ограниченными возможностями.
2. Информационные модели распознавания статических и динамических
жестов, представления кисти руки человека; представления динамического жеста
руки человека; изменения контура губ человека; представления объекта на
изображении; адаптации текста.
3. Методы автоматизации сурдокоммуникации, трансформации и
визуализации информации, формализации и обработки динамической
видеоинформации для анализа движений человека.
4. Методика трансляции русского жестового языка, включающая модели
и методы распознавания и анализа движений рук, губ, тела человека, трехмерной
реконструкции объектов.
5. Методика преобразования информации для облегчения понимания
текстов и изображений, включающая модели и методы анализа и поиска объектов
в тексте и на изображении, аннотирования и визуального представления текстов.
6. Комплекс алгоритмов и программных средств информационной
поддержки коммуникаций людей с ограниченными возможностями, реализующих
разработанные методы.
Научная новизна исследования:
1. Разработана оригинальная концепция информационной поддержки
коммуникаций людей с ограниченными возможностями, основанная на
автоматизации перевода речи на русском жестовом языке в текст и текста в
жесты; трансформации и визуализации информации для облегчения понимания
текста и изображения; анализа и преобразования видеоинформации для
корректировки движений человека.
9
2. Разработаны новые информационные модели: распознавания статических
и динамических жестов; представления кисти руки человека; представления
динамического жеста руки человека; изменения контура губ человека;
представления объекта на изображении; адаптации текста.
3. Разработаны новые методы автоматизации сурдокоммуникации:
распознавания статических и динамических жестов русского жестового языка;
распознавания поз и движений человека; анализа изменений контура губ человека
и определения произнесенной виземы; сканирования и трехмерной
реконструкции изображения тела человека.
4. Разработаны новые методы автоматизированной трансформации и
визуализации информации: анализа изображения, поиска и окрашивания
выделенных элементов на изображении; преобразования текстового описания
объекта в изображение (на примере внешнего вида человека); аннотирования и
визуального представления текстов в виде ассоциативной карты и/или с помощью
шрифта Брайля.
Теоретическая и практическая значимость.
Разработанная концепция информационной поддержки коммуникаций
людей с ограниченными возможностями позволяет упростить процесс адаптации
и естественно-языковой коммуникации людей с ограниченными возможностями,
создать безбарьерную среду общения.
Построенные методики, модели и автоматизированные средства могут быть
использованы для сурдокоммуникации, адаптации информации, организации
двигательной активности и обучения лиц с ограниченными возможностями в
различных сферах, таких как образование, медицина, спорт и др.
Разработанные программные комплексы используются при коммуникации
преподавателей и студентов с ограниченными возможностями, тренеров и
спортсменов с ограниченными возможностями, при разработке проекта
двигательной нейрореабилитации людей с ограниченными возможностями в
Паралимпийском комитете России, ФГБОУ ВО «ВГАФК», ФГБОУ ВО «ИжГТУ»,
Институте прикладной математики им. М.В. Келдыша РАН.
10
Результаты диссертационного исследования были получены при
выполнении проектов РФФИ:
− 15-37-70014 мол_а_мос «Разработка методов и автоматизированных
средств анализа текстовой и графической информации для физиологической и
психологической адаптации людей с ограниченными возможностями»;
15-07-06322-а «Разработка методов и средств анализа видеоинформации о лице
человека для создания динамической модели изображения его головы»,
14-07-97017-р_поволжье_а «Разработка моделей и алгоритмов реферирования и
аннотирования новостных статей в сети Интернет» и др. (руководитель);
− 16-07-00453-а «Разработка моделей и методов трехмерной
реконструкции объектов реального мира»; 16-07-00407-а «Разработка моделей и
методов построения универсальной векторной модели движений тела человека»;
15-07-05440-а «Разработка методики интеллектуального анализа текста на
естественном языке для выявления в нем описания внешнего вида человека»;
15-47-02149-а Разработка моделей и методов автоматизированного распознавания
речи по мимической активности лица на основе анализа видеоизображения;
14-07-97016-р_поволжье_а «Разработка и исследование методов и программного
комплекса контентно-зависимого поиска изображений на основе индивидуальных
предпочтений» и др. (ответственный исполнитель).
Исследования поддержаны стипендией президента РФ СП-1583.2016.5
«Разработка моделей и методов анализа, трансформации, визуализации текстовой
и графической информации для организации инклюзивного образовательного
пространства».
Степень достоверности и апробация результатов.
Достоверность результатов работы обеспечивается использованием
современных методов проведения научных исследований, корректным
использованием математического аппарата, а также результатами применения
разработанной концепции информационной поддержки коммуникаций людей с
ограниченными возможностями при получении образования.
11
Основные результаты диссертации докладывались на конференциях:
третьей всероссийской научной конференции «Нечёткие системы и мягкие
вычисления (НСМВ-2009)» (Волгоград, 2009); V-VIII международные научно-
технические конференции «Интегрированные модели и мягкие вычисления в
искусственном интеллекте» (Коломна, 2009, 2011, 2013, 2015), международная
научная конференция «Инновационные технологии в управлении, образовании,
промышленности» (Астрахань, 2010); Ninth International Conference of Application
of Fuzzy System and Soft Computing (ICAFS-2010) (Прага, Чехия, 2010);
I-VI международные научно-технические конференции «Открытые
семантические технологии проектирования интеллектуальных систем»
(Open Semantic Technologies for Intelligent Systems (Минск, Республика Беларусь,
2011-2016 гг.); международные конгрессы по интеллектуальным системам и
информационным технологиям (Дивноморское, 2011-2014); 24th International
Conference of Systems Research, Informatics and Cybernetics «Advances in Decision
Technology and Intelligent Information Systems» (Германия, 2012);
XXV международная научная конференция «Математические методы в технике и
технологиях – ММТТ–25» (Волгоград, 2012); 1st BRICS Countries Congress and
11th Brazilian Congress on Computational Intelligence (Бразилия, 2013);
1th International Conference of Pattern Recognition and Image Analysis:
New Information Technologies (Самара, 2013); XIII национальная конференция по
искусственному интеллекту с международным участием (Белгород, 2013);
1th Joint Conference on Knowledge-Based software Engineering (Волгоград, 2014);
First Conference on Creativity in Intelligent Technologies and Data Science
(Волгоград, 2015); First International Scientific Conference «Intelligent Information
Technologies for Industry» (Сочи, 2016).
Публикации. По материалам диссертации опубликовано 96 работ,
из них 3 монографии, 32 статьи в рецензируемых изданиях, рекомендуемых ВАК,
в том числе 9 статей, индексированных в Web of Science, Scopus и Springer.
Получены 3 свидетельства о регистрации программ для ЭВМ.
12
Личный вклад автора состоит в разработке концепции информационной
поддержки коммуникаций людей с ограниченными возможностями;
в разработке моделей, методов и алгоритмов трансляции русского жестового
языка, трансформации и визуализации информации, автоматизированного
контроля движений человека; в постановке задач для разработки алгоритмов и
программного обеспечения информационной поддержки коммуникаций людей с
ограниченными возможностями.
Все представленные в диссертации положения, выносимые на защиту,
получены лично автором, либо под его руководством. В работах, опубликованных
в соавторстве, личное участие автора заключается в определении проблемы,
постановке задач, разработке основных теоретических положений.
Структура и объем диссертации. Диссертация состоит из введения, пяти
глав, заключения, списка литературы и приложений. Количество страниц – 352,
рисунков – 177, таблиц – 67.
В первой главе проведен анализ проблем коммуникации людей c
ограниченными возможностями для их полноценной интеграции в жизнь
общества, рассмотрены технические, аппаратные и программные средства для
решения проблем коммуникации и обучения людей с ограниченными
возможностями.
На основе проведенного анализа предложена концепция информационной
поддержки коммуникаций людей с ограниченными возможностями, включающая
методы трансляции русского жестового языка, методы трансформации и
визуализации информации, методы автоматизированного контроля движений
человека.
Во второй главе рассматривается методика трансляции русского жестового
языка для расширения возможностей естественно-языковой коммуникации людей
с ограниченными возможностями по слуху с окружающим миром, включающая
информационные модели распознавания статических и динамических жестов,
представления кисти руки человека, представления динамического жеста руки
человека, изменения контура губ человека, методы распознавания статических и
13
динамических жестов русского жестового языка, распознавания движений
человека, анализа изменений контура губ человека и определения произнесенной
виземы, сканирования и трехмерной реконструкции изображения тела человека.
В третьей главе рассматривается методика трансформации и визуализации
информации с целью представления информации в адаптированной форме для
расширения возможностей коммуникации людей с нарушениями зрения и
когнитивных функций с окружающим миром. Описаны методы: анализа
изображения, поиска и окрашивания выделенных элементов на изображении;
преобразования текстового описания объекта в изображение; аннотирования и
визуального представления текстов в виде ассоциативных карт и/или с помощью
шрифта Брайля.
В четвертой главе описаны методы анализа видеоинформации о
телодвижениях человека и их применение при автоматизированном контроле
выполнения физических упражнений в лечебной физкультуре и спорте для людей
с нарушениями опорно-двигательного аппарата.
В пятой главе рассматриваются программные средства информационной
поддержки коммуникаций людей с ограниченными возможностями, их
применение, обоснована эффективность предлагаемых теоретических положений.
В заключении приводятся основные результаты, полученные в
диссертационном исследовании.
14
Глава 1.
Аналитический обзор подходов и способов преобразования информации
для обеспечения коммуникации людей с ограниченными возможностями
1.1 Анализ проблем коммуникации людей с ограниченными возможностями
Все большее количество людей во всем мире имеют различные ограничения
в возможностях своего организма в сравнении с обычным человеком: проблемы
со зрением, слухом, речеобразованием, опорно-двигательным аппаратом,
когнитивными функциями.
Доступность информационно-коммуникационных технологий для людей с
ограниченными возможностями здоровья – одна из важнейших проблем при
обеспечении достойных условий проживания инвалидам. Большинство
современных устройств не предполагают, что пользователь обладает какими-либо
физическими отклонениями, что приводит к усложненному доступу к
компьютеру и периферии. Поэтому очень важным направлением является
адаптация машинного интерфейса, разработка вспомогательных средств для
людей с ограниченными возможностями здоровья.
Для нормального проживания и социализации подобных людей в развитых
государствах существуют государственные программы, которые обращают
внимание на проблемы в повседневной жизни людей с ограниченными
возможностями. Генеральной Ассамблеей ООН в 2006 году была принята
резолюция «Конвенция о правах инвалидов» [87], в которой указаны все
необходимые условия для достойной жизни людей с ОВЗ. В апреле 2012 года
Федеральный закон «О ратификации Конвенции о правах инвалидов» был прият
Государственной Думой, одобрен Советом Федерации, и в мае 2012, после
одобрения Президента РФ закон вступил в силу [39].
С 2011 года в России действует государственная программа поддержки
людей с ограниченными возможностями «Доступная среда», направленная на
15
создание безбарьерной среды. Планировалось, что к 2016 году доля
приоритетных объектов социальной, транспортной и инженерной
инфраструктуры, доступных для инвалидов, должна составить 45%. Однако,
многие проблемы еще не решены, поэтому принято решение о продлении
программы до 2020 года. Финансирование всего проекта оценивается в 17 000 000
тыс. рублей [39, 26].
Основные задачи программы были скорректированы:
1. Создание доступной среды для людей с ограниченными возможностями,
создание системы реабилитации инвалидов и их абилитации;
2. Улучшение системы получения профессионального образования
инвалидов, а также их трудоустройства.
Государственная программа также подразумевает создание и ведение
федерального реестра инвалидов, поддержку программ и общественных
организаций для людей с ОВЗ при трудоустройстве, поддержка работодателей,
которые создают дополнительные рабочие места для людей с ОВЗ, актуализацию
разработки федеральных стандартов, разработку и внедрение методических
документов и программ, которые будут направлены на организацию обучения
детей-инвалидов [26].
Основным требованием для поступления в вуз являются результаты
абитуриентов по ЕГЭ. Но программа коррекционных школ не включает сдачу
ЕГЭ. Поэтому единственным выходом для детей с ограниченными
возможностями, является инклюзивное образование.
Среди контингента людей с ограниченными возможностями, для которых
можно обеспечить доступность профессионального образования, можно выделить
четыре основные категории: нарушения двигательной, когнитивных, зрительной,
слуховой функций и другие нарушения.
Нами выделены четыре класса проблем коммуникации людей с
ограниченными возможностями для создания безбарьерной среды:
1. Сурдокоммуникация с людьми, имеющими нарушение слуха.
16
2. Организация процесса обучения студентов, в том числе самообучения
и индивидуального обучения.
3. Организация особого порядка проведения занятий по физической
культуре.
4. Адаптация информации: обеспечение адаптированными печатными и
электронными образовательными ресурсами, справочной информацией,
адаптация официальных web-ресурсов (Таблица 1.2, Рисунок 1.1).
Таблица 1.1 – Классы проблем коммуникации лиц с ограниченными
возможностями
Класс проблемы Характеристика проблемы
Средства общения и Отсутствие специалистов по:
коммуникации - сурдопереводу;
- тифлосурдопереводу;
- отсутствие помощников (ассистентов)
Предоставление различных Отсутствие квалифицированных специалистов для:
видов помощи, - психологической помощи;
обучающимся для - медицинской помощи;
социальной адаптации - социальной помощи.
Доступ к информационным Использование специальных:
ресурсам - информационных ресурсов;
- учебных пособий и дидактических материалов;
- технических средств.
Отсутствие информации в адаптированной форме.
Обеспечение комфортных Отсутствие специального оборудования для
условий для посещения доступа в учебное заведение, аудитории (пандусы,
учебных занятий лифты).
17
Таблица 1.2 – Классы проблем коммуникации лиц с ограниченными
возможностями по видам нарушений
Нарушения Класс проблем Характеристика
Нарушение 1. Сурдоком- − Ограниченность возможностей
слуха муникация коммуникации людей с ограниченными
2. Адаптация возможностями по слуху с окружающим
информации миром. Количество людей, использующих
3. Организация в качестве средства коммуникации
особого порядка жестовую речь 1-1,5 % населения
проведения занятий по планеты.
физической культуре − Недостаточное число специалистов
4. Организация в области сурдоперевода;
процесса − Жесты – более естественный способ
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Методы, алгоритмы и программный комплекс для построения естественного человеко-компьютерного взаимодействия на основе жестов2015 год, кандидат наук Стародубцев Илья Сергеевич
Алгоритмы распознавания и модели цифровой обработки динамических телевизионных изображений2021 год, кандидат наук Лоханов Александр Васильевич
Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах2008 год, доктор технических наук Харламов, Александр Александрович
Алгоритмы распознавания жестов на видеопоследовательностях2014 год, кандидат наук Нгуен Тоан Тханг
Теоретические основы, методы и алгоритмы формирования знаний о синонимии для задач анализа и сжатия текстовой информации2012 год, доктор физико-математических наук Михайлов, Дмитрий Владимирович
Список литературы диссертационного исследования доктор наук Орлова Юлия Александровна, 2016 год
использования
81
1.6 Концепция информационной поддержки
коммуникаций людей с ограниченными возможностями
На основе проведенного анализа предложена разработанная концепция
информационной поддержки коммуникаций людей с ограниченными
возможностями (Рисунок 1.14) на основе автоматизированной трансляции
русского жестового языка, адаптации, трансформации и визуализации
информации, автоматизированного контроля движений человека для создания
безбарьерной среды естественно-языковой коммуникаций с помощью
современных технических средств.
Универсальность предложенной концепции заключается в том, что
разработанные модели и методы могут одновременно использоваться всеми
участниками процесса коммуникации. Например, при получении образования
людей с ограниченными возможностями (Рисунок 1.15):
− сотрудниками образовательной организации для адаптации web-
ресурсов, электронных ресурсов, стендов, справочной информации и др.;
− преподавателями для адаптации методических материалов, естественно-
языковой коммуникации и обучения, в том числе организации занятий по
физической культуре;
− студентами с ограниченными возможностями для самообучения и
индивидуального обучения при необходимости самостоятельной адаптации
учебных материалов.
Концепция основана на использовании и интеграции моделей и
методов преобразования текстовой и видеоинформации:
− анализа движений рук, губ, тела человека и его трехмерной
реконструкции с помощью видеокамеры с сенсором глубины для
автоматизированного преобразования жестов русского жестового языка;
82
Рисунок 1.14 – Концепция информационной поддержки коммуникаций людей с ограниченными возможностями
83
Рисунок 1.15 – Применение разработанных методов
− анализа и поиска объектов в тексте и на изображении, их преобразования
и визуализации, аннотирования и визуального представления текстов в виде
ассоциативной карты и/или с помощью шрифта Брайля для представления
информации людям с ограниченными возможностями по зрению
в адаптированной форме;
− распознавания движений человека с помощью видеокамеры с
сенсором глубины, автоматизированного контроля выполнения физических
упражнений в лечебной физкультуре и спорте для людей с нарушениями опорно-
двигательного аппарата.
Процедуры обработки и преобразования текстовой и видеоинформации
представлены на Рисунок 1.16.
В следующих главах изложены разработка и исследование разделов
предложенной концепции, которые предназначены для естественно-языковой
коммуникации людей с различными нарушениями с учетом их особенностей.
Разработанные методики, модели и методы могут быть использованы
для коммуникации, адаптации информации, обучения, организации
двигательной активности людей с ограниченными возможностями во
многих областях: медицинской, спортивной, банковской, социальной и др.
84
Рисунок 1.16 – Процедуры обработки и преобразования информации
85
1.7 Результаты и выводы по первой главе
Первая глава посвящена анализу подходов и способов преобразования
текстовой и видеоинформации для облегчения коммуникации людей с
ограниченными возможностями. Рассмотрены технические и программные
средства коммуникации людей с ограниченными возможностями. Дан анализ
моделей, методов, систем визуальной, тактильной и сурдокомммуникации.
Рассмотрены методы отображения текстовой информации в адаптированной
форме. На основе проведенного анализа предложена концепция информационной
поддержки коммуникаций людей с ограниченными возможностями, включающая
методы трансляции русского жестового языка, методы трансформации и
визуализации информации, методы автоматизированного контроля движений
человека.
Концепция основана на использовании и интеграции моделей и методов
преобразования текстовой и видеоинформации: анализа движений рук, губ, тела
человека и его трехмерной реконструкции с помощью видеокамеры с сенсором
глубины для автоматизированного преобразования жестов русского жестового
языка; анализа и поиска объектов в тексте и на изображении, их преобразования и
визуализации, аннотирования и визуального представления текстов в виде
ассоциативной карты и/или с помощью шрифта Брайля для представления
информации людям с ограниченными возможностями по зрению в
адаптированной форме; распознавания поз и движений человека с помощью
видеокамеры с сенсором глубины, контроля и коррекции выполнения
физического упражнения для организации занятий по физической культуре.
Предложенная концепция позволяет решить основные проблемы
коммуникации людей с ограниченными возможностями: сурдокоммуникация,
адаптация информации, обучение, организация занятий по физической культуре.
Разработанные методики, модели и методы могут быть использованы во многих
областях: образование, медицина, спорт и др.
86
Глава 2.
Перевод речи на русском жестовом языке в текст и текста в жесты
В мире насчитывается более одного процента людей с заболеваниями,
проявляющимися нарушением звуковосприятия, по России же их количество
превышает 1000000 человек.
В независимости от того, какие причины привели к развитию данной
патологии, исход, к сожалению, для этих людей один – постоянная и полная
тишина. Часто бывает, что в виду отсутствия слуха или с рождения или с раннего
детского возраста у этих людей не развивается и речь.
Поскольку таких людей в обществе достаточно большое количество, жизнь
заставляет их объединяться и налаживать межличностное и социальное общение в
своей среде.
В мире создано немало языков глухонемых людей, которые, по сути,
являются языками жестов. Являясь суррогатным подобием языка звуков и слов,
они даже во время общения глухонемых людей между собой позволяют описать
передаваемые мысли и чувства лишь на примитивном уровне. В тоже время для
нормально слышащих людей, скорее всего, эти жесты будут абсолютно
непонятны. Данное обстоятельство продолжает приводить к усилению
изолированности слабослышащих людей в обществе.
Поскольку в наше время в начале XXI века Россия прилагает большие
усилия для формирования социально-равноправного общества, общества равных
возможностей, то и цель адаптации слабослышащих и глухих людей становится
значимой [67].
В настоящий момент число сурдологов и сурдопереводчиков ограничено и
их количество с каждым годом уменьшается. Это вызвано отсутствием
программы подготовки и повышения квалификации сурдопедагогов. Реальная же
потребность в данном виде деятельности постоянно растёт. Ведь подавляющее
большинство нормально слышащих людей не знает языка жестов. Помимо
87
потребности в общении на бытовом уровне, глухонемые активно задействованы в
производстве, сфере услуг, торговле, образовательном процессе. Поэтому
необходимость усовершенствования средств коммуникации увеличивается.
С учётом всё более расширяющейся компьютеризации в нашей стране,
доступности персональных компьютеров и Интернета, вполне очевидным
представляется применение новых технологий в коммуникации между людьми с
ограниченными возможностями по слуху и речи и здоровыми.
В последнее время в мире идёт бурное развитие 3D технологии.
Достижения в этой области можно увидеть уже сейчас. Наиболее интересным
представляется создание камеры с датчиком глубины, которая позволяет получать
изображение в трёх измерениях, в отличие от «плоского» изображения у обычных
камер.
Самый известный пример такого устройства – камера Microsoft Kinect [203].
Также с недавнего времени в продажу поступила камера от компании ASUS:
ASUS WAVI Xtion, но она ещё очень мало распространена.
Такие новые технологии позволяют существенно облегчить создание
программы автоматического сурдоперевода. До этого исследователи в области
распознавания жестов в течение более 20 лет пытались создать подобную систему
[23, 19]. Но большинство систем обладало малой надёжностью и имело большие
ограничения по грамматике и словарному запасу. Это обусловлено тем, что
распознавание жестов, а тем более языка жестов является действительно очень
сложной задачей.
Многие проблемы в предыдущих исследованиях были связаны с малыми
возможностями устройства ввода информации о жесте. Используя камеру с
датчиком глубины, исследователь избегает многих сложностей при получении
информации о жесте и может сосредоточиться на совершенствовании конечных
этапов распознавания.
88
2.1 Методика трансляции русского жестового языка
Представим процесс перевода речи русского жестового языка в нотации
IDEF0. На Рисунок 2.1 представлена диаграмма AS IS, которая показывает, как
происходит процесс общения между людьми с ограниченными возможностями
без использования программного продукта, а на Рисунок 2.2 – с использованием
программного продукта. Таким образом, программа сурдокоммуникации
полностью вытеснет сурдопереводчиков из этого процесса.
Рисунок 2.1 – Процесс перевода речи русского жестового языка в текст (AS IS)
Рисунок 2.2 – Процесс перевода речи русского жестового языка в текст (TO BE)
89
Предлагается методика трансляции русского жестового языка для
естественно-языковой коммуникации людей с ограниченными возможностями по
слуху на основе анализа движения рук, губ, тела человека, включающая
информационные модели распознавания статических и динамических жеста,
представления кисти руки человека, представления динамического жеста руки
человека, изменения контура губ человека, методы распознавания статических и
динамических жестов русского жестового языка на основе данных сенсора
Microsoft Kinect, распознавания движений человека, анализа изменений контура
губ человека и определения произнесенной виземы, сканирования и трехмерной
реконструкции изображения тела человека.
В языках жестов передача информации во время общения происходит по
нескольким каналам: непосредственно через жесты руками, выражение лица,
форму губ, положение тела и головы [92].
Методика предназначена для расширения возможностей коммуникации
людей с ограниченными возможностями по слуху с окружающим миром за счёт
распознавания жестов русского жестового языка в режиме реального времени
с помощью карты глубины и потока RGB изображений с камеры Microsoft Kinect .
Методика трансляции русского жестового языка состоит из следующих
этапов:
1) распознавание и анализ движений рук человека с целью определения
статических и динамического жестов русского жестового языка;
2) распознавание и анализ движений человека с целью построения модели
скелета человека;
3) распознавание и анализ изменения контура губ человека с целью
определения произнесенной виземы;
4) сканирование и трехмерная реконструкция изображения тела человека с
целью анимации движений 3D модели тела человека
90
Рисунок 2.3 – Методика трансляции русского жестового языка
2.2 Распознавание и анализ движений рук человека
Жесты руками описываются через положение рук, направление движения,
форму и ориентацию кистей рук. Таким образом, возможность определения
формы и положения кистей рук является очень важной задачей в контексте
распознавания жестового языка, которая еще не была полностью решена [92].
Для реализации первого этапа методики разработаны модель распознавания
статических и динамических жестов, метод распознавания статического и
динамического жеста русского жестового языка, модель представления кисти
руки человека, модель представления динамического жеста руки человека.
Была разработана информационная модель распознавания статических и
динамических жестов с помощью сенсора Microsoft Kinect (Рисунок 2.4).
91
Рисунок 2.4. – Информационная модель распознавания статических и
динамических жестов с помощью сенсора Microsoft Kinect
IM = <A, H, CMM, I, O>, (2.1)
где A – модель представления кисти руки человека, H – модель
представления динамического жеста руки человека, CMM – скрытая Марковская
модель, I – входы (карта глубины и RGB изображение с сенсора MS Kinect); O –
выходы (распознанные статические и динамические жесты).
Информация с камеры Kinect поступает в виде RGB изображения и карты
глубины. Далее, после обработки полученного изображения, на нём выделяется
область интереса – кисть руки человека.
Для детектирования и анализа рук человека разработан метод
распознавания статического и динамического жеста русского жестового языка,
который состоит из следующих процедур:
1) детектирование лица и кожи человека на изображении;
2) детектирование рук и слежение за движениями рук;
3) анализ контуров кистей рук на изображении;
4) обнаружение признаков жестов;
5) распознавание статического жеста;
6) распознавание динамического жеста (Рисунок 2.5).
На первом этапе необходимо сегментировать изображения, чтобы найти
область интереса – руки человека. Как было отмечено в первой главе, для
выполнения этой задачи применяются несколько методов. В данном
исследовании разработан новый подход к проблеме детектирования рук –
совмещение информации, получаемой от RGB камеры и ToF (time of flight)
92
сенсора (сенсор глубины). Используется цветовая информация и расстояния до
объектов в кадре (Рисунок 2.6).
Рисунок 2.5 – Метод распознавания статического и динамического
жеста русского жестового языка
93
2.2.1 Детектирование и слежение за движениями рук на изображении
В случае использования только информации о цвете кожи человека,
детектирование рук может оказаться ненадежным, как было отмечено в первой
главе диссертации. В случае использования только информации с сенсора
глубины и метода «виртуальной коробки», использование системы становится
неудобной, поскольку пользователь ограничен небольшим пространством около
сенсора. Тем не менее, во многих исследованиях использован именно последний
подход, поскольку он легок в разработке. С целью повышения удобства работы с
разрабатываемой программой распознавания жестового языка, было решено
использовать оба подхода одновременно. Таким образом, можно избавиться от
недостатков каждого подхода в отдельности.
Рисунок 2.6 – Алгоритм детектирования рук на изображении
94
1 x+w y +h
df = ∑
wh i = x
∑ i= y
D(i, j )
D(i, j ) > d f + th
Рисунок 2.7 – Алгоритм детектирования лица и пороговое преобразование
Существует несколько признаков, по которым можно детектировать объект
на изображении: внешность, форма, цвет, расстояние до объекта и контекст. В
таких случаях, как детектирование лица на изображении, хорошим признаком
является внешность, так как глаза, нос и рот всегда будут находиться примерно в
одинаковых пропорциях. Поэтому основанный на характеристиках внешности
объекта метод Виолы-Джонса [220, 221]., основанный на каскадах Хаара, отлично
применятся для распознавания лица [92].
В случае распознавания рук дело обстоит сложнее: надежный метод
распознавания может быть реализован, основываясь, в основном, на цветовых
характеристиках. Так как цвет рук может меняться в зависимости от человека и
контекста, представляется разумным сначала найти лицо человека на
95
изображении и получать информацию о цвете рук исходя из цвета лица.
Введенное ограничение наличия лица человека на изображении в любом случае
является обязательным, поскольку распознавание жестового языка без
распознавания лица будет ненадежным [92].
Детектирование лица происходит методом Виолы-Джонса. Данный метод
по соотношению показателей скорость работы и эффективность распознавания
является одним из лучших, имеет низкую вероятностью ложного обнаружения
лица. Алгоритм хорошо работает и распознает черты лица под небольшим углом,
в интервале от 0 до 30 градусов. При угле наклона лица больше 30 градусов
процент обнаружений падает, что дает детектировать повернутое лицо человека
под произвольным углом. Тем не менее, в контексте системы распознавания
жестового языка, это не является недостатком (Рисунок 2.7).
После нахождения лица на изображении анализируется информация о цвете
кожи человека. Сначала производится перевод из цветовой модели RGB в модель
HSV (hue – тон, saturation – насыщенность, value – значение цвета). На основе
значения тона цвета лица строится гистограмма, в которой каждый столбец – это
одно из возможных значений тона H от 0 до 360.
, , ,
, , (2.2)
Вычисление вероятности принадлежности пикселя к коже основано на
сочетание двух моделей: модель GMM, основанная на смеси гауссиан и
адаптивная модель, основанная на гистограммах.
1) Модель, основанная на смеси гауссиан [160].
(2.3)
где записывается как:
96
(2.4)
где – вектор математического ожидания, а ∑s – матрица ковариации,
которые записываются в виде:
(2.5)
2) Адаптивная модель, основанная на гистограммах. В этой модели
используется гистограмма, полученная на предыдущем этапе детектирования.
(2.6)
где Norm – коэффициент нормализации, skin[c] – значение столбца
гистограммы, к которому принадлежит цвет c.
3) Финальная вероятность принадлежности пикселя к коже человека
записывается как
PGMM Phist > T (2.7)
где T – пороговое значение. В исследовании экспериментально было
выяснено, что оптимальное значение равно 0.8 [92].
Результатом применение обозначенных выше моделей является
сегментация изображения, в котором теперь присутствуют только объекты с
цветом кожи человека. Необходимо убрать все предметы, находящиеся дальше,
чем лицо пользователя. Это можно сделать, применяя карту глубины (карту
расстояний), полученную от сенсора Microsoft Kinect.
После нахождения позиции (x,y) и размеров (w,h) лица на изображении с
помощью метода Виолы-Джонса (используется реализация функции
детектирования объектов методом Виолы-Джонса из библиотеки OpenCV),
находим усредненное расстояние до лица, используя карту глубины D [92]:
1 x+w y +h
df = ∑ ∑ D(i, j)
wh i = x i = y
(2.8)
97
Все объекты, находящиеся ближе к камере, чем само лицо человека, могут
быть найдены с использованием порогового значения:
D(i, j ) > d f + th (2.9)
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.