Исследование и разработка графического интерфейса с использованием альтернативных средств ввода-вывода тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат технических наук Евреинов, Григорий Евгеньевич
- Специальность ВАК РФ05.13.11
- Количество страниц 166
Оглавление диссертации кандидат технических наук Евреинов, Григорий Евгеньевич
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
1. ИССЛЕДОВАНИЕ ПРОБЛЕМ ГРАФИЧЕСКОГО ИНТЕРФЕЙСА ПОЛЬЗОВАТЕЛЯ И ПРОЕКТИРОВАНИЯ АЛЬТЕРНАТИВНЫХ СРЕДСТВ ОТОБРАЖЕНИЯ ИНФОРМАЦИИ
1.1 Преобразование графических интерфейсов в мультимодальные
1.2 Обзор экспериментальных методов альтернативного
звукового отображения информации
1.2.1 Некоторые проблемы восприятия зрительной информации
1.2.2 Аудиторная экстернализация
1.2.3 Альтернативные методы звукового отображения
1.2.3.1 Векторные аудио дисплеи
1.2.3.2 Виртуальный аудио растр
1.2.3.3 Спектральный мэппинг
1.2.3.4 Виртуальный звуковой векторный дисплей
1.2.4 Освоение атрибутов слухового пространства,
практическое применение озвучивания
1.2.5 Обзор инструментальных средств и систем озвучивания
общего назначения
1.2.5.1 Система визуализации данных EXVIS
1.2.5.2 Инструментальные средства озвучивания:
язык Куша и система Capybara
1.2.5.3 Система визуализации арЕ
1.2.5.4 Система озвучивания Porsonify и проект Pablo
1.2.5.5. Инструментальные средства озвучивания данных LISTEN
1.3 Выводы
2. ПРОЕКТИРОВАНИЕ АППАРАТНО-ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ
2.1 Виртуальный акустический монитор ВАМ-1
2.2 Виртуальный акустический монитор В AM-1.1
2.3 Озвучивание графических символов (ВAM-1.1)
2.4 Виртуальный акустический монитор ВАМ-2.3
2.4.1. Графический интерфейс
2.4.2 Звуковой интерфейс ВАМ-2.3
2.5 Виртуальный аудио монитор ВАМ-3.8
2.5.1 Аппаратное обеспечение
2.5.2 Программное обеспечение ВАМ-3.8
2.5.2.1 Программирование графических объектов. Форма УГОЕО.БКМ
2.5.2.2 Управления звуковыми параметрами. Форма ЗОЦЖН.ИШ
2.5.2.3 Файловые операции
3. ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ
3.1. Объектно-относительное смещение, восприятие движения
и отображение плоских виртуальных объектов
3.2 Взаимодействие звуковых потоков
3.3 Изоморфное озвучивание пространственных отношений
3.2.1 Пространственнализация изображения
3.2.2 Изобразительные признаки удаленности
3.2.2.1 Линейная перспектива
3.2.2.2 Система координат при воспроизведении нескольких объектов
3.2.2.3 Поворот плоскости
3.2.2.4 Тень
3.2.3 Изоморфное озвучивание реальных объектов
3.4 Выводы
4. РАЗРАБОТКА И ПРИМЕНЕНИЕ АЛЬТЕРНАТИВНЫХ УСТРОЙСТВ ВВОДА-ВЫВОДА
4.1 Полярные координаты, метафора циферблата
и концепция "схемы тела"
4.2 Графический интерфейс РасЮгарИ
4.3 Система команд РасЮгар11
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ 1
ПРИЛОЖЕНИЕ 2
ПРИЛОЖЕНИЕ 3
ПРИЛОЖЕНИЕ 4
Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Система визуализации для нового поколения тренажеров военной техники2006 год, кандидат технических наук Тотмаков, Алексей Сергеевич
Разработка бесконтактного интегрального интерфейса оператора диспетчерского пульта дефектоскопии на непрерывной производственной линии2013 год, кандидат технических наук Акимов, Дмитрий Александрович
Геометрический инструментарий синтеза среды виртуальной реальности применительно к тренажерам2000 год, доктор технических наук Ли, Валерий Георгиевич
Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях2013 год, доктор технических наук Карпов, Алексей Анатольевич
Развитие теории геометрического моделирования пространственных форм и совершенствование графических систем реального времени2006 год, доктор технических наук Косников, Юрий Николаевич
Введение диссертации (часть автореферата) на тему «Исследование и разработка графического интерфейса с использованием альтернативных средств ввода-вывода»
ВВЕДЕНИЕ
Актуальность темы.
Преимущественное развитие визуальной культуры привело к ведущей роли зрительного анализатора в любой сфере деятельности человека: от бытовой до ориентирования и манипулирования виртуальными объектами программной среды. Вероятность утраты одной или нескольких физиологических модальностей рассматривается как реальная угроза жизнедеятельности только в специальном разделе авиационной медицины, связанном с влиянием гравитационной перегрузки на зрительную и слуховую системы пилота [3, 26]. Слепоту очень легко моделировать, для этого пользователю компьютера достаточно закрыть глаза и попробовать продолжить выполнение операций, например, с помощью мыши или джойстика. Имеется много задач, включающих текущий контроль или управление физической средой, которые требуют, чтобы зрительное внимание оператора постоянно переключалось или было сфокусировано на другом объекте, чем дисплей компьютера [28, 87, 99]. Чем шире область распространения графического интерфейса, тем больше проблем возникает при его эксплуатации не только в случае индивидуальных физиологических ограничений у определенного контингента пользователей. Перегрузка зрительного поля при отображении динамически изменяющихся многомерных массивов данных в реальном масштабе времени может вызвать информационно-психологическое блокирование, что существенно ограничивает возможности визуализации и оперативного контроля. Не обсуждая надежность оптических средств отображения, становится ясно, что тенденция развития мультимодального интерфейса - проблема более чем актуальная во многих аспектах ее приложения [6].
Мультимодальность становится основным критерием доступности информации при проектировании средств и систем отображения, а использование альтернативных средств ввода - непременным атрибутом графического интерфейса систем виртуальной реальности, носимых компьютеров и мобильных средств связи [6,40,51, 106].
Опыт пользователей и усилия экспертов уже привели ко многим усовершенствованиям в разработке элементов невизуального интерфейса, акустических и тактильных устройств ввода-вывода. Однако, проектирование такого типа специализированных интерфейсов должно учитывать не только общие тенденции развития человеко-машинного взаимодействия, но и концептуальные особенности интеграции естественных механизмов сенсорных процессов в случае замещения отсутствующей модальности.
К сожалению, разрабатываемые в последнее время средства и системы преобразования многопараметрических данных в параметры звуковых сигналов недостаточно используют пространственные характеристики слухового пространства. Исследование восприятия динамических акустических источников, в том числе виртуальных и в ближнем поле, показало незначительное преимущество стерео систем, имеющих встроенную HRTF-фильтрацию сигналов. Эти системы получили распространение в непрофессиональном музыкальном синтезе, но для научной визуализации (озвучивания данных) оказались малоэффективными [97].
С появлением DS-процессоров появились системы пространственного озвучивания, обслуживающие сотни акустических излучателей. Компания NXT (UK) выпускает матричные пьезоакустические панели. Таким образом, проблема изоморфного пространственного озвучивания и отображения виртуальных объектов с помощью аудио дисплея имеет реальные перспективы развития.
Проблеме восприятия человеком сложных акустических сигналов в нашей стране посвящена большая литература: разбираются вопросы моно- и бинауральных признаков, формирующих те или иные слуховые образы, роль интенсивности и спектральных характеристик [19], влияние речевого опыта на слуховую оценку сигнала. Но вопрос о возможности использования акустического канала для синтеза виртуальных акустических объектов и, тем более, реализации таких объектов в структуре графического интерфейса до сих пор не обсуждался.
Цель и задачи работы.
Основной целью диссертационной работы является разработка комплексного решения проблемы организации невизуального интерфейса поддержки мультимодального человеко-машинного взаимодействия с применением
альтернативных устройств ввода-вывода. Достижение этой цели дает возможность повысить надежность человеко-машинного взаимодействия в экстремальных ситуациях и биотехнических систем в целом, обеспечить широкий доступ к источникам информации в электронной форме для пользователей компьютеров с ограниченными физиологическими возможностями.
В соответствии с поставленной целью решаются следующие задачи:
- теоретически и экспериментально обосновать возможность реализации эффективной обратной связи в отсутствие визуальной системы отображения графической информации;
разработать эффективную методику формирования виртуальных акустических объектов;
- разработать алгоритмы озвучивания графической информации;
- разработать эффективные средства и методы манипуляции виртуальными объектами в отсутствие визуальной обратной связи;
- исследование некоторых проблем, связанных с инвариантностью интермодальных преобразований информационных сообщений (изоморфное преобразование графических объектов и некоторых абстрактно-логических
представлений);
- исследование эффективности применения разработанных аппаратно-
программных средств для решения задачи реабилитации операторов с
ограниченными сенсорными возможностями.
Методы исследования.
Для решения поставленных задач используются методы прикладного и объектно-ориентированного программирования, акустического синтеза сложных сигналов и конструирования радиоэлектронной аппаратуры.
Основные положения, выносимые на защиту.
На защиту выносятся следующие положения и результаты:
- функциональная схема реализации невизуального интерфейса;
- структура и программная реализация интерфейса системы озвучивания графических изображений;
- алгоритмы управления пространственно-временными параметрами виртуальных звуковых источников в условиях свободного звукового поля;
- методика изоморфного озвучивания двумерных графических объектов, проектируемых согласно правилам построения стереометрических проекций.
Научная новизна работы состоит в разработке комплекса алгоритмов, методов и структурных решений, использованных при проектировании альтернативных средств отображения и ввода графической информации на основе естественных механизмов сенсорного замещения и межсенсорной интеграции.
Основные научные результаты:
- предложена функциональная схема реализации невизуального интерфейса;
- разработана структура и осуществлена программная реализация интерфейса системы озвучивания графических изображений;
- созданы базовые алгоритмы управления пространственно-временными параметрами виртуальных звуковых источников в условиях свободного звукового поля;
- предложены общие методы преобразования графической информации в звуковые параметры акустических субъективных образов;
- обоснована возможность и разработана методика изоморфного озвучивания двумерных графических объектов, проектируемых согласно правилам построения стереометрических проекций.
Практическую значимость работы представляют:
- базовые алгоритмы управления пространственно-временными параметрами виртуальных акустических источников в условиях свободного звукового поля;
- методика изоморфного озвучивания двумерных графических объектов, проектируемых согласно правилам построения стереометрических проекций;
структурные и технологические решения аппаратных средств альтернативного ввода-вывода графической информации: виртуальный аудио монитор, и манипуляторы, обеспечивающие обратную связь в отсутствие зрительной информации;
- система меню РасЮгарИ и графического редактора для инвалидов, имеющих ограниченные сенсорные возможности (слепые пользователи компьютеров)
и проблемы при эксплуатации стандартных манипуляторов (отсутствие рук).
Предложенные методы и структурные решения представляет определенный интерес при проектировании перспективных систем отображения информации и оптимизации структуры управления информационным потоком в биотехнических системах.
Использование результатов работы.
Материалы диссертационной работы использованы при проведении следующих научно-исследовательских и опытно-конструкторских работ:
- Федеральная целевая научно-техническая программа на 1996-2000 годы «Исследования и разработки по приоритетным направлениям развития науки и техники гражданского назначения» приоритетное направление «Информационные технологии и электроника» подпрограмма «Информатизация России»,
проект - «Пакет прикладных программ преобразования графического изображения в структурированное звуковое поле для слепых пользователей ПЭВМ» № гос. регистрации 02.9.80004520;
проект - "Разработка программного обеспечения для преобразования визуальных текстурных изображений в виртуальные звуковые объекты" № гос. регистрации 01.9.80004534;
- Научно-техническая программа «Конверсия и высокие технологии 1997— 2000 годы", проект - «Исследование и разработка графического интерфейса пользователя виртуального аудио дисплея в отсутствие зрительного контроля» № гос. регистрации 02.9.80002264.
Использование результатов диссертационной работы подтверждено актами внедрения, которые приводятся в приложениях.
Апробация работы.
Основные результаты диссертационной работы докладывались и обсуждались на:
XI Международной научной конференции по нейрокибернетике 20-23 сент. 1995 г., Ростов-на-Дону;
5th Int. Conf. ICCHP'96 Interdisciplinary Aspects in Computers Helping People with Special Needs. Linz, Austria, July 1996; Int. Conf. "New technologies in the education of the visually handicaped", Paris 10-11 Juin 1996;
Fouth Int. Congress on Sound and Vibration, St.-Petersburg 24-27 June 1996;
ICDED'96 The Second International Conference on Distance Education in Russia Moscow 2-5 July, 1996; New Media for Education and Training in Computer Science. 2. Russian-German Symposium Moscow, Russian Federation, November, 23rd-28th 1996;
Всероссийской конференции: Состояние и перспективы развития медицинского приборостроения. 26-28 Ноября, Махачкала, 1997;
Рабочем заседании группы "Проектирования инструментальных средств озвучивания" - NSF Workshop on Sonification, Demo and Poster session of ICAD'97;
Международной научно-технической конференции "Интеллектуальная робототехника - 98" 14-16 апреля 1998 г., Санкт-Петербург;
III Всероссийской научно-практической конференции с международным участием «Новое в экологии и безопасности жизнедеятельности», 16-18 июня 1998 г. Санкт-Петербург;
XV IFIP World Computer Congress Vienna/Austria and Budapest/Hungary, 31 August - 4 September 1998. Computers and Assistive Technology ICCHP'98;
Всероссийской научно-технической конференции Медицинские информационные системы, МИС-98, Таганрог, 15-17 сентября 1998 г;
World Conference on Higher Education: Higher Education in the Twenty-first Century UNESCO, Paris 5-9 Oct. 1998.
По материалам диссертации опубликовано 16 печатных работ. Значительная часть практических результатов изложена в отчетах о выполнении НИР.
1. ИССЛЕДОВАНИЕ ПРОБЛЕМ ГРАФИЧЕСКОГО ИНТЕРФЕЙСА ПОЛЬЗОВАТЕЛЯ И ПРОЕКТИРОВАНИЯ АЛЬТЕРНАТИВНЫХ СРЕДСТВ ОТОБРАЖЕНИЯ ИНФОРМАЦИИ
1.1 Преобразование графических интерфейсов в мультимодальные
Графический интерфейс пользователя в настоящее время является наиболее общим средством поддержки человеко-машинного взаимодействия. Однако, семантическая, синтаксическая и физическая согласованность интерфейса разработаны для вполне определенной физической среды, обратная связь в которой полагается исключительно на зрительную модальность. Чем шире область распространения графического интерфейса, тем больше проблем возникает при его использовании не только в случае индивидуальных физиологических ограничений у определенного контингента пользователей [43, 59, 61, 62, 65, 66, 92, 102], но при отображении динамически изменяющихся многомерных массивов данных в реальном масштабе времени [37, 71, 79, 81, 97], и в случае возникновения экстремальных ситуаций (физиологическое или информационно-психологическое блокирование зрительной системы) [3, 26, 28, 99]. С другой стороны, имеется много задач, включающих текущий контроль или управление физической средой, которые требуют, чтобы зрительное внимание оператора постоянно переключалось или было сфокусировано на другом объекте, чем дисплей компьютера.
Таким образом, основным критерием доступности информации при проектировании средств и систем отображения становится мультимодальность графических интерфейсов и использование альтернативных средств ввода-вывода, например, манипуляторов, действующих на основе механизмов сенсорной интеграции и индивидуальной внутренней модели психических представлений экстракорпорального пространства [6].
Цель интермодального преобразования графического интерфейса состоит в том, что он должен сохранить концептуальную модель прикладного интерфейса пользователя при выполнении трансформации представляемой информации (или самого интерфейса) в специфическую модальность. Идентификация структуры прикладного интерфейса, которая составляет значительную часть психической модели пользователя, является самым важным моментом в этом процессе. С другой
стороны, интермодальное преобразование должно быть прозрачным для любых других приложений. То есть, оно должно выполняться не требуя изменений интерфейса прикладной программы, и/или обеспечивать его необходимой информацией [107].
Одним из этапов процесса моделирования интерфейса является выбор соответствующего уровня абстракции графической среды. На высшем, семантическом уровне, должны быть доступны различные средства просмотра и манипуляции информацией. На синтаксическом уровне, эти операции должны быть выражены в знакомых графических объектах, типа системы меню. Наконец, на лексическом уровне, эти объекты обычно представлены пространственно на двумерном дисплее. Хотя большинство приложений, использующих для отображения так называемые screen-readers сосредоточились на лексическом уровне, существует мнение [87], что преобразование интерфейса на семантическом уровне лучше "схватывает" основные концепции модели интерфейса пользователя. Помимо этого, модель должна обладать характерным синтаксическим языком, чтобы названия компонентов уровня пользователя были одни и те же, например, в графическом и слуховом интерфейсах.
Графические интерфейсы пользователя обычно представлены как совокупность объектов типа окон, меню и линеек протяжки (scrollbars). Эти объекты передают операции, доступные на семантическом уровне интерфейса, в то время как названия этих объектов формируются синтаксически. При проектировании интерфейса эти объекты объединяются в большие кластеры, в виде сгруппированных средств управления в диалоговом окне. Следовательно, отправной точкой построения модели интерфейса является идентификация объектов уровня пользователя и их иерархических связей.
Далее, необходим анализ визуального представления графического интерфейса, чтобы идентифицировать семантическую информацию, отсутствующую в начальной иерархической объектной модели. Например, пространственное распределение объектов в диалоговом окне может быть важно в понимании их связей. Даже если содержание диалогового окна имеется на том же самом уровне объектной иерархии, их пространственное расположение слева
направо, сверху вниз подразумевает оптимальный порядок работы с объектами (см. п. 3.3).
Наконец, необходимо различать возможность построения мультимодального графического интерфейса широкого назначения и расширенного невизуального интерфейса, ориентированного на экстремальные условия эксплуатации или пользователей имеющих специфические сенсорные ограничения.
П остановка з адачи, априорное описание о бь ект ов, начальных условий
и др. указания
Б аз а данных стереотипов адекватных психофизиологических реакций поведения оператора и объектов
Аудио, видео выход | (речь, звук, иконы)
Д атчики с о ст ояния внешних объектов
£
Интеллектуальный Мультипроцессор
Доступная сенсорная информация
Биосенсоры, сопряженные с поверхностью тела (контроль функционального состояния . оператора)...........
)
Устройства ввода-вывода, совмещенные с поверхностью тела оператора
Визуальные ВИРТУАЛЬНЫЙ ДИСПЛЕЙ распределенная обратная связь
Звуковые, ; Т | '1 5 к ...... .-1-/■--
тактильные, кинестетические и вестибулярные '•, стимулы
Коррекция или формирование динамических перцептивных и психических представлений
Выполнение действий
'Панорамная" настройка
X
Фрагментарная интерпретация
/^Интегральные <
Процесс управления
системные представления и их субъективная оценка, стереотипы психофизиологических реакций, внутренняя система координат и проекций внешних событий относительно индивидуальных эталонов и ощущений
Планирование цели и действия
Оператор
Рис. 1.1 Некоторые функциональные компоненты реализации невизуального человеко-машинного взаимодействия
В первом случае, визуальная обратная связь в системе человек-компьютер не исключается, но с некоторого момента перестает быть доминантной. Информационный поток должен перераспределяться наиболее адекватным образом в каждый момент времени в зависимости от необходимой степени участия
оператора в процессе анализа состояния, ситуации, или других условий требующих нестандартного решения при выполнении задачи, на которую ориентирована система. Для эффективной эксплуатации интеллектуальных возможностей оператора и машины (например, предотвращения информационно-психологических блоков) необходимо, чтобы характер их взаимодействия и взаимоконтроля (!) стал активным в обоих направлениях. То есть, обратная связь должна стать активной не только в отношении оператора, но действия, состояние или другие особенности поведения человека, должны контролироваться (например, по таким параметрам, как дисперсия или отклонение от прогнозируемой величины манипулирования) и/или учитываться некоторой надструктурой управляющей динамикой информационного обмена, по всей вероятности, обладающей элементами интеллекта (Рис. 1.1). Такой подход целесообразно использовать при разработке адаптивных виртуальных сред для людей имеющих сенсорные ограничения [2, 6, 33, 47, 48, 65 и др.].
Проектирование аудио тактильных интерфейсов, которые предназначены для замены графических интерфейсов - задача достаточно трудная. В этом случае слуховые и/или тактильные сигналы должны не только поддерживать их более традиционную роль обратной связи относительно действий пользователя и событий приложения, но передавать содержание интерфейса. В основанной на объектах модели интерфейса, прежде всего необходима информация относительно индивидуальных атрибутов объектов. В частности, для этой цели уже используются слуховые иконки [41, 45, 87]. Например, доступное для редактирования текстовое поле озвучивается подобно старой пишущей машинке, в то время как полоса сообщения (текст) может звучать подобно принтеру. Недоступные для переключения кнопки могут звучать подобно приглушенным щелчкам выключателя. Контейнеры могут быть представлены звуком открывающейся двери, в то время как высота звука указывать на относительный размер контейнера. И все-таки, при выборе слуховых иконок, остаются нерешенными два вопроса: критерий распознаваемости слуховых сигналов и оценка возможных концептуальных способов отображения между сигналами и семантическими понятиями.
Существует также проблема соответствия структуры психической и виртуальной модели взаимодействия объектов в слуховом или тактильном пространстве [776 100]. Поэтому методы проектирования структуры управления должны быть основаны на общей модели прикладного интерфейса и одновременно приспособлены к особенностям сенсорного восприятия. Например, в работе Mynatt, Е. D. и Edwards, W. К. [87] графический интерфейс смоделирован как аннотируемая объектная иерархия. Древовидная структура интерфейса реализована таким образом, что различные узлы представляют родственные или контейнерные конструкции, а вершины - индивидуальные объекты. Передвижение вдоль древовидной структуры выполнено с помощью курсорных клавиш цифровой клавиатуры, в то время как дополнительные средства управления позволяют пользователям переходить к различным частям "дерева". При использовании такого подхода, физическое действие (манипуляция) укрепляет представление полной модели структуры интерфейса и его управления. McQueen с соавторами анализируют возможность применения метафоры пирога и циферблата часов для расширения интуитивного восприятия структуры интерфейса [82].
На примере конкретной реализации интерфейса альтернативного доступа и системы меню PadGraph в п. 3.4 будет показан один из подходов интермодального решения специального графического редактора.
Итак, с одной стороны, мы имеем компьютер, который является мультимедийным интерактивным мультимодальным интерпретатором, т.е. допускает выбор модальности различных устройств ввода-вывода. С другой стороны, существуют проблемы, связанные с инвариантностью и адекватной интерпретацией оператором интермодальных преобразований информационных сообщений. В частности, это касается графических объектов и некоторых абстрактно-логических представлений.
Для пользователей с отсутствием зрения, имеющих нормальный слух, существует возможность преобразования графической информации в параметры звуковых сигналов. Основанием предпочтения акустического канала для визуализации являются прежде всего дистантность, значительный динамический
диапазон слухового анализатора и широкий набор управляемых акустических параметров. С аппаратной точки зрения, это - высокая надежность акустических преобразователей (могут использоваться пьезопреобразователи) низкая цена, масса устройства и потребляемая энергия.
За рубежом проблема освоения слухового пространства обретает все новые прикладные аспекты. Это касается прежде всего проектирования систем виртуальной реальности различного назначения, научной визуализации, носимых компьютеров и мобильных средств связи.
Проблеме восприятия человеком сложных акустических сигналов в нашей стране посвящена большая литература: разбираются вопросы моно- и бинауральных признаков, формирующих те или иные слуховые образы, роль интенсивности и спектральных характеристик, влияние речевого опыта испытуемых на слуховую оценку сигнала [9, 10, 14, 15, 16, 19]. Однако, вопрос о возможности использования акустического канала для синтеза виртуальных акустических объектов, изоморфных визуальным, и тем более, реализации таких объектов в структуре графического интерфейса до сих пор не обсуждался.
1.2 Обзор экспериментальных методов альтернативного звукового отображения информации
1.2.1 Некоторые проблемы восприятия зрительной информации
В значительной степени формирование звуковых аналогов визуальных объектов зависит от адекватного соотнесения пространственных параметров визуальных и звуковых сигналов, индивидуальных психофизиологических особенностей слухового анализатора пользователя аудио дисплея и условий прослушивания.
Известно, что восприятие видимой формы основывается не только на сумме специфических компонентов (линий или контуров, текстур...), но и на способе, которым эти компоненты связаны друг с другом. Например, в квадрате все стороны равны, противоположные - параллельны и все углы прямые; треугольник имеет три
стороны, которые соединяются друг с другом. Эти геометрические отношения при транспозиции не меняются [70].
Чтобы эффективно реализовать способ преобразования визуальных объектов в звуковые необходимо знать: как реально представлена пространственная информация о геометрических отношениях соответствующих объектов. В зрительно ощущаемой области пространства они могут быть сведены к восприятию относительного положения точек, составляющих фигуру. Поэтому можно сказать, что когда мы видим несколько точек принадлежащих некоторой поверхности и если текущей задачей не является оценка структуры поверхности, восприятие "переключается" на анализ относительного положения точек, которое может выявить специфические очертания возможной фигуры.
В связи с проблемой восприятия формы, некоторые исследователи придают большое значение восприятию контура [56, 58, 70, 77, 95]. Остановимся подробнее на этом явлении.
Обычно, положение точек, составляющих фигуру, задается контурами, но можно указать эти положения и без контуров. Фигуры, состоящие только из точек, несомненно создают впечатление форм (Рис. 1.2).
Рис. 1.2 Формирование воображаемого контура
В этом случае чаще употребляется термин субъективного контура. При определенных условиях мы воспринимаем контуры там, где с физической точки зрения контур отсутствует как стимул, а сам эффект возникает исключительно в результате процесса воображения контура. Но, если феноменальная форма
сводится к восприятию множества относительных положений, то должна существовать возможность создания впечатления формы только на основе порождения множества таких воспринимаемых положений в течение определенного интервала времени. Условия, при которых возможно формирование квазистатических субъективных контурных объектов в области ближнего поля слухового пространства, симулирующих графические элементы виртуальных звуковых образов, представляет одну из задач настоящего исследования.
Следует заметить, что двигательная активность глаза представляет собой один из факторов, участвующих в процессе анализа изображения. Предположим, что наблюдатель отслеживал движущуюся точку, в то время как точка описывает некоторую траекторию. В этом случае очертание траектории как проекции на сетчатке мало эффективно, поскольку лишь небольшая часть фовеа стимулируется точкой. Однако, присутствует иная информация - своеобразный "массив данных" о положениях глаза во время слежения. И только на основании такой информации, обеспеченной механорецепторами, возможно адекватное восприятие и анализ впечатления траектории движущейся точки. То есть, впечатление, похожее на восприятие формы, может возникнуть даже в условиях, когда на сетчатке нет никакого протяженного (статического) изображения объекта. Но при этом имеется зрительная информация о положении частей фигуры друг относительно друга, и информация другого рода, которая подтверждает гипотезу, что линейная фигура действительно представлена и обнаруживается по частям. Таким образом, ретинальное изображение не является необходимым условием восприятия формы [25].
Другое существенное замечание состоит в том, что процесс восприятия формы является достаточно сложной и хорошо синхронизированной последовательностью полимодальных преобразований динамической проекции стимула, в том числе, когнитивной природы. Чтобы произошло правильное восприятие формы, даже простые фигуры должны быть когнитивно проанализированы и "описаны", а это требует времени. В случае анализа статических изображений некоторые (в том числе временные) параметры стимула определены свойствами зрительной системы человека и в преобразовании
участвуют как константы индивидуального сенсорного опыта. На каждой точке изображения глаз фиксирует внимание в течение времени, достаточного, чтобы оптическая проекция этой точки вызвала адекватную реакцию сетчатки на зрительный стимул. Скорость перемещения глаза от одной точки к другой может содержать информацию о расстояниях между точками или иных пространственных отношениях. Направление движения глаза вносит дополнительную информацию об ориентации ретинального изображения. Естественно, на этом этапе помимо зрительного афферентного потока в анализе изображения участвует информация от рецепторов мышц глаза, век, шеи и вестибулярного аппарата.
Таким образом, анализ, который лежит в основе нашего восприятия простых контурных изображений, содержит нечто большее, чем простую оценку относительного положения образующих форму точек.
1.2.2 Аудиторная экстернализация
Среди ощущаемых признаков связанных с локализацией звука, главные признаки - интерауральные различия интенсивности и фазы [8, 10, 36, 38, 58, 109].
Но только одни эти признаки не определяют однозначно положение звукового источника в 3-х мерном пространстве. Любая данная точка в пространстве - это только одна из множества позиций, которые имеют те же самые интерауральные характеристики. Эта неоднозначность разрешается другим набором признаков, которые возникают благодаря эффекту ушной раковины и полимодальной ассоциативной обработке сенсорных сигналов.
Так как раковины внешнего уха имеют нерегулярную форму, они модулируют спектр приходящих звуковых волн топологически специфично. Высказывается предположение, что этот эффект является одним из факторов способствующих вертикальной локализации звуковых источников [8].
Восприятие движения звуковых источников (динамическая локализация) полагается на интерауральные различия фазы и интенсивности. Однако, до сих пор нет единого мнения относительно того, является ли динамическая локализация абсолютным или относительным признаком при обнаружении изменений в положении звуковых объектов. ЯовепЫит [95] провел анализ способности
слушателей, идентифицировать момент времени, когда перемещающийся звук проходил через середину фронтальной плоскости. Результаты исследований показали, что каждый из этих признаков отдельно является достаточным чтобы выполнить задачу. Однако, точность была значительно выше при наличии изменений не только фазы, но в большей степени интенсивности сигнала, и вторично могла быть обусловлена изменениями связанными с Доплер эффектом.
Изменения интенсивности и фазы определяют спектральное содержание стимула и как следствие, фактор точности локализации звуковых объектов. Именно поэтому источник синусоидальных сигналов, особенно в области низких частот, воспринимается как плохо определяемая диффузная область.
Другой из возможных способов разрешения пространственной неоднозначности - движения головы. Thurlow и Runge [104] наблюдали, что вызванное вращение головы приводит к повышению точности и значительному сокращению ошибок локализации при определении расположения звуковых источников в свободном звуковом пространстве.
1.2.3 Альтернативные методы звукового отображения
Было предложено несколько методов альтернативного (т.е., не использующего речь или музыкальный синтез) звукового отображения визуальных форм [4, 21, 23, 24, 67, 73, 78, 83, 96]. Чтобы обеспечить эффективность восприятия формы путем озвучивания, необходимо установить ключевые параметры отображаемых объектов и воспроизвести их в определенной последовательности, принимая во внимание временные особенности памяти и внимания ведущей и замещаемой модальностей, то есть, в конечном итоге выполнить адекватное преобразование между ощущаемыми атрибутами слухового и зрительного пространств.
1.2.3.1 Векторные аудио дисплеи
Известно, что люди являются достаточно чувствительными к движению звуковых источников. Lakatos [78], Ruff и Perret [96] выполнили много экспериментов по слежению за виртуальной траекторией динамических звуковых
источников формируемых с помощью пространственно локализованных громкоговорителей. То есть, распределяя акустическую информации во времени и пространстве путем последовательной коммутации источников.
Прибор, который использовали Ruff и Perret [96], состоял из матрицы 10x10 излучателей, центры которых располагались с интервалом 10 см. Во всех экспериментах матрица была расположена так, что центр ее был расположен на расстоянии 30 см от центра головы слушателя. В первых экспериментах испытуемых просили определить линию фронта сигнала, отображаемую с помощью звукового дисплея как последовательность (синусоидальных) тональных сигналов. Для определенности испытуемым предоставляли возможность выбора из набора изображений напечатанных линий. Самой простой формой для идентификации была вертикальная линия, которая определялась с точностью 47%. Другие формы были правильно идентифицированы только в 20% случаев.
ОО О О О О ОООО
О От, О О1 ОО
ОООО© © ф © © © © ©ООО© 00 0 0 0 о ©©ОО 0 0 0 0 00 00 0 0 0 © С000 о © 0 © 00 ©О © ©о © ©ООО© ооооо О О © © © © ОООО©
3 6 9 с G
©О © © © © ©ОО© © © о 0 00 00 0 0 0 0 000О © О © О ОО ооооо © Ф о © Ф о оооо© 00 0 0 © О о©оо О © © © 00 ОООО© О о © о о ©
О р R s и
Рис. 1.3 Шестнадцатиэлементная матрица источников и формирование звуковых паттернов (Lakatos, 1993, цит. по http://www.hitl.washington.edu/publications/hollander/figure3.1 .gif)
Другой эксперимент состоял в идентификации букв, т.е. испытуемых просили соотнести звуковой аналог с одной из трех, шести, или всех двадцати
шести букв. Ruff и Perret пришли к выводу, что пространственные характеристики одновременно звучащего паттерна имели менее значимый эффект, чем последовательность стимулов. То есть, правильная идентификация определялась последовательностью воспроизведения источников звука или воображаемой траекторией. Исследование показало, что визуальные признаки не влияют на выполнение задачи. Казалось, что движения глаз не связано с восприятием звуковых форм. Но принудительное ограничение движения головы вызывало существенное ухудшение в выполнении задачи, вероятно потому, что испытуемые имели тенденцию вращать головой, расположенной перед матрицей излучателей, особенно когда стимул был латеральный. Для сравнения следует привести работы King, WJ. [75] и Thurlow, W.R. [104].
Технология векторного дисплея Ruff и Perret оказалась существенно ограничена параметрами стимулов, которые они использовали. Lakatos [78] выполнил подобные эксперименты с аналогичной матрицей излучателей, используя полигармонический сигнал вместо синусоидальных тонов. Его полигармонический сигнал состоял из 12 полос с основной частотной составляющей 1000 Гц. Этот стимул был существенно эффективнее, чем чистый синусоидальный сигнал, особенно для вертикальной локализации.
Lakatos использовал матрицу излучателей из 16 элементов установленных на расстоянии 1 фут по отношению к смежным элементам. Задачей испытуемых была идентификация одного из 10 алфавитно-цифровых отображаемых символов. В каждом звуковом паттерне исходная позиция звукового стимула была обозначена (!) большей длительностью озвучивания. Точность выбора была на уровне 60-90%. В другом эксперименте, Lakatos исследовал влияние изменений в параметрах стимула на результат их распознавания. Он изменял основную частоту, число полос (гармоник) в стимулах и форму стимулов. Распознавание ухудшалось с уменьшением крутизны фронтов стимула и уменьшением количества полос, при отсутствии средних значений основной гармоники.
Эксперименты с матрицами реальных источников Ruff и Perret [96], и, позже, Lakatos [78], происходили на значительных интервалах времени и были достаточно трудоемки.
1.2.3.2 Виртуальный аудио растр
Звуковой растровый дисплей Karr и Furness [73] также требовал значительных усилий, чтобы распознать буквы, которые на нем отображались. Для озвучивания изображения Karr и Furness использовали виртуальную звуковую технологию. Чтобы сформировать "звуковой растр" таким же образом как в кинескопе, реальный источник звука механически перемещался в пространстве (назад и вперед), модулируя интенсивность и фазу звука, и создавал звуковые образы. Разработка не была завершена, но предварительные эксперименты показали, что испытуемые были способны угадывать некоторые формы (символы), которые им предъявляли.
1.2.3.3 Спектральный мэппинг
P. Meijer из лаборатории Phillips (Eindhoven, The Nederlands) разработал устройство для преобразования изображений в звуковые образы [83, 85]. Аудио дисплей совмещен с видеокамерой таким образом, чтобы его мог легко использовать человек с поврежденным зрением. Устройство не использует пространственных свойств звука. Meijer избегает, с его точки зрения, технических и перцептивных проблем пространственной локализации, используя временные и тембровые аналоги пространственных характеристик. Он предполагает, что дискретности вертикальной развертки от 16 до 64 (и более) частотных полос, будет достаточно, чтобы по тембру суммарной частоты пользователь мог воссоздать информацию о сканируемом изображении. При этом он устанавливает определенное соответствие между частотой и вертикальной позицией точки растра: верхняя часть растра озвучивается высокочастотными компонентами, нижняя часть изображения - низкой частотой. Другой визуальный параметр, который использован для озвучивания исключительно в этом устройстве, и в других экспериментах не упоминается - контраст изображения. Дисплей Мейера связывает контраст и интенсивность (амплитуду) каждого частотного компонента, воспроизводя 16 уровней масштаба серого цвета.
Таким образом изображение конвертируется в последовательности вертикальных секторов (столбцов-аккордов), производя горизонтальную выборку
слева направо. Процесс воспроизведения кадров повторяется с заданной частотой, при этом начало кадра маркировано щелчком. Таким образом, горизонтальная размерность отображает интервал времени с момента последнего щелчка. В более поздней версии устройства Меуег добавил локализацию, используя два канала воспроизведения звука [84].
Поскольку, в своей работе Меуег не проводил широкой экспериментальной проверки устройства, существуют большие сомнения в его работоспособности. По крайней мере, с точки зрения известных механизмов восприятия, предложенный способ трансформации изображения неадекватен известным процессам обработки сенсорной информации в зрительном или слуховом анализаторах.
Автором диссертационной работы были проведены эксперименты по моделированию растрового метода озвучивания. Метод позволяет представлять некоторые простые геометрические объекты, но кроме отрезков прямой линии, другие звуковые образы носят символический характер и требуют специального обучения способу декодирования. Например, квадрат озвучивается равномерным шумом (или полигармоническим сигналом) в течение длительности, пропорциональной длине его стороны. Таким образом, формируется диффузный субъективный образ, возможность локализации границ отсутствует. В таком случае, предложенный аудио дисплей мало отличается от системы 8оипс^гар11 или аналогичных [60, 74, 91, 108].
Основная проблема в создании квазистатического звукового растра состоит в том, что, с одной стороны, необходимо воспроизводить звуковой паттерн с некоторой критической частотой, допускающей "асинхронное" наблюдение квазистатического звукового изображения при условии слияния последовательности звуковых паттернов. Частота эта значительно выше критической частоты слияния мельканий зрительного анализатора. С другой стороны, звуковой паттерн есть временная последовательность, а не пространственная, для которой точка отсчета и направление считывания - важные параметры его описания. При некоторой частоте повторения, маркер начала кадра будет маскировать звуковой паттерн изображения или его часть, вызывая специфическую реакцию активации [15, 72], которая имеет свою динамику и будет
модулировать процесс восприятия нежелательным образом. Имеются и другие аргументы, показывающие невозможность синхронизовать и стабилизировать процесс восприятия на уровне управления вниманием и кратковременной памяти слухового анализатора предложенным способом.
1.2.3.4 Виртуальный звуковой векторный дисплей
Технология виртуальных сред обеспечивает гибкий механизм для управления континуумом ощущаемых признаков [50-52, 73, 81].
A. Hollander [73] провел серию экспериментов по представлению звуковых форм путем последовательного пространственного позиционирования звуков, используя "виртуальную матрицу излучателей". Он предложил называть такие виртуальные звуковые дисплеи "векторными" так как они аналогичны векторным графическим дисплеям.
Используя своеобразную трансформацию зрительного восприятия градиента плотности изображения, первоначально автор предполагал, что если расположение звукового источника будет достаточно быстро и беспорядочно изменять пространственные координаты внутри некоторого объема, имеющего форму, существует вероятность, что звук должен казаться исходящим из объема в целом, а форма звука была бы формой объема из которого он исходил. Подход, который он хотел использовать для синтеза звуковой формы, должен был распределять звуки в пространстве, чтобы передать информацию непосредственно о форме, и/или распределять их по времени и частоте, чтобы предотвратить пространственное слияние и нежелательное в данном случае явление группировки.
Было исследовано более двадцати звуковых форм (эллипсоидальные, сферические, цилиндрические оболочки...). В зависимости от синтезируемой формы, виртуальный звуковой источник хаотически перемещался внутри математически заданного объема, или по заданным геометрическим непрерывным траекториям. С помощью установки Convolvotron (ТМ) можно было изменять позиции звукового источника с частотой до 50 Гц (Рис. 1.4).
Между последовательными позициями воспроизведения виртуального точечного источника осуществлялась интерполяция (в виде задержки затухания
сигнала). Визуальное моделирование предполагаемого процесса формирования звуковой формы показало что, даже для зрительной модальности было трудно распознать форму объекта с меньшим количеством точек чем три тысячи. При скорости воспроизведения 50 позиций в секунду, требовалась минута, чтобы проследить такое число точек. Но графическое отображение предъявляло все точки одновременно, которые не были бы случайными при воспроизведении звуковых стимулов. Предполагалось также, что слушатель должен аппроксимировать звуковую форму, полагаясь на слуховую память, или некоторую степень "константности слухового восприятия". Предварительное моделирование методики в зрительном поле показало, что только первые три секунды имели значение при восприятии отображения (т.е. около 150 точек), поэтому вместо «объемов» исследование было ограничено формированием оболочек [73].
Frequency (Hz)
dB
— <VJ П Iff
SS5122000000 ООО О О о о о о о ^ см w т
4» О
-А-1-1-1-1-1-1-Ь
-i—I—I—I—t-
-10
•20 -so
•40
•50
•ео •70 J-
■flplf W
Aw
Рис. 1.4 Экспериментальная установка A. Hollander и спектр мощности используемых стимулов с основной частотой 1000 Гц
Единичные элементы звуковых форм, параметрами которых необходимо было управлять, функционально представляли собой точечные звуковые источники. Необходимо было, чтобы эти элементы имели пространственное отличие, и в то же самое время, обладали атрибутом формы, связывая элементы
вместе. В случае отображения звукового вектора, его непрерывность исходит из очевидного звукового движения. Эти ранние исследования A. Hollander представляют определенный интерес с точки зрения поиска возможных подходов к решению проблемы звуковой трансформации конкретных пространственных объектов. В последующих экспериментах A. Hollander существенно изменил подход, пытаясь глубже изучить возможности и усилить метод Lakatos. Он использовал матрицу виртуальных источников с разрешением 7x7 точек (Рис. 1.5).
Рис. 1.5 Позиции виртуальных источников и экспериментальный векторный аудио интерфейс A. Hollander (http://www.hitl.washington.edU/publications/hollander/9.html)
Идея преобразования визуальных образов в адекватные акустические с помощью аудио дисплея векторного типа в настоящее время исследуется во
многих акустических лабораториях [15, 49, 51, 57, 64, 73, 74]. Но способ преобразования пространственных (даже двумерных) звуковых форм должен иметь существенные отличия от известных способов синтеза визуальных объектов. Избыточность сигнала, характерная и вполне допустимая для визуальных образов, задействует естественные механизмы зрительного восприятия и распознавания. Временной фактор, на котором основано слуховое восприятие до сих пор не является достаточно изученным и задействованным для целей формирования виртуальных объектов.
1.2.4 Освоение атрибутов слухового пространства, практическое применение озвучивания
Многие из ранних работ в области озвучивания данных затрагивали проблему общей оценки эффективности аудио дисплея. Но, если звук непосредственно использовался для анализа, потому что иное отображение, по различным причинам, было мало эффективно, озвучивание не рассматривалось как функциональное преобразование. Например, определение баланса моста переменного тока по амплитуде напряжения в его диагонали, воспроизводимое с помощью головных телефонов не является озвучиванием. В то время как преобразование интенсивности радиоактивного излучения в частоту звуковых импульсов счетчика Гейгера - классический пример слухового отображения.
В 1954 г. I. Pollack и L. Ficks исследовали способность операторов извлекать информацию из акустических образов, используя чередующиеся тональные сигналы и шум. Восемь переменных были представлены с помощью таких параметров как частота, громкость, длительность тонального сигнала, и длительность паттерна отображаемых сигналов, локализация (слева, справа, равно), величина отношения тонального сигнала к шуму. Результаты показали, что паттерны, в которых использовалось несколько параметров звука были более эффективны чем "одномерные" [107].
В 1961 г. S.D. Speeth изучал возможность обнаружения различий между сейсмическими данными о землетрясениях и подземных ядерных взрывах. Он применил ускоренное воспроизведение данных сейсмографа так, что их частота
оказалась в слышимом диапазоне. Хотя оба звука не различались визуально, каждый воспроизводил уникальный паттерн, а испытуемые были способны верно идентифицировать причину звука в 90 процентах случаев. Кроме того, ускоренное воспроизведение, позволяло прослушать и оценить данные 24-часового мониторинга в течение пяти минут [107]. (Следует заметить, что замедленное воспроизведение зарегистрированных ультразвуковых сигналов млекопитающих не является примером озвучивания данных.)
В 1980 г. химик E.S. Yeung заинтересовался звуком в качестве альтернативы графическим изображениям. Он озвучивал векторы, которыми оценивал представляемые уровни содержания различных металлов в образце минерала. Используя в качестве звуковых параметров частоту, интенсивность, демпфирование, направление на источник (слева справа), продолжительность или повтор, и паузу, Yeung классифицировал каждый образец как принадлежащий к одной из четырех групп. Его испытуемые были способны правильно классифицировать 90 процентов образцов. С обучением, их точность достигала 98 процентов [107].
В 1982г. Sarah Bly проверяла способность испытуемых классифицировать источники звука как принадлежащего к одному из двух классов по шести параметрам. Она использовала следующие звуковые параметры: частоту, интенсивность, продолжительность, форму волны (от синуса до шума), огибающую крутизны переднего фронта, пятую и девятую гармоники. Bly показала, что слуховое отображение столь же эффективно как визуальное, но совместное представление слухового и визуального образов является более эффективным чем раздельно в каждой модальности. Bly провела эксперименты, которые исследовали возможность озвучивания мультипараметрических, логарифмических и изменяющихся во времени данных. Она обнаружила, что при анализе сейсмических данных преобразования, использующие логарифмическую связь между частотой и высотой тона, работали лучше [107].
В 1984 г. D.L. Mansur исследовал способность слушателей интерпретировать двумерные (X-Y) графики, используя изменяющуюся во времени высоту тона. Он обнаружил, что в результате обучения испытуемые были способны правильно
распознавать такие особенности данных, как: линейность, монотонность, симметрию, в 79-95 процентах случаев [107].
Аналогичные эксперименты в университете York (Англия) позже проводили Pitt и Edwards [64, 91]. В 1992 г. они создали программу Soundgraph, которая озвучивала графическое представление некоторых математических, функций воспроизводя серии тонов, которые соответствовали амплитуде кривой, связывая ось X с движением звука слева направо. Например, линейная функция X = Y была представлена серией тонов, которые постоянно увеличивали высоту звука. Пользователи Soundgraph могли создавать свои собственные графы. При наличии соответствующего программного обеспечения, озвучивание предусматривало возможность применения синтезатора речи для воспроизведения текущих значений при сканировании звукового паттерна.
С помощью программы Soundgraph было получено много интересных результатов, но еще больше возникло вопросов. В частности, способен ли слепой ребенок таким способом получить верное представление о графической информации? Исследования проведенные Wood [108] показали, что некоторые слепые дети могут удовлетворительно использовать Soundgraph, в то время как другие - не могут полностью понять содержание звукового графа. То есть, неадекватная интерпретация могла быть обусловлена несколькими причинами: отсутствием у слушателей необходимых знаний о графах, или конфликтом между их собственными представлениями о графической информации и способом преобразования, который использовался в программе. Авторы Soundgraph пришли к заключению, что будущие версии программы могли бы способствовать озвучиванию более сложных математических моделей. Ими же был поставлен вопрос о том, станет ли возможным рисовать несколько кривых в некоторой системе координат, а затем находить их участки на слух, определяя локализацию тонов в звуковом паттерне.
С другой стороны, многомерность звука привлекательна для представления мультипараметрических данных. А в некоторых случаях, озвучивание может даже повысить распознаваемость неочевидных признаков визуальных изображений.
В 1984 г. J.J. Mezrich, S.P. Frysinger, и R. Slivjanovski разрабатывали мультипараметрические отображения временных рядов, используя графику и звук. Каждая переменная представлялась специфическим тоном, или его тембром. Значения переменных были отображены высотой тона. Эксперт-аналитик мог сосредоточить внимание на определенных значениях пула, в интерактивном режиме выделяя или заглушая отдельные составляющие, мог воспроизводить данные в прямом и в обратном направлении. Подмножества массива данных можно было сравнивать попарно с целью выявления подобных значений или корреляции областей. Эффективность озвучивания сравнивалась с тремя статическими визуальными изображениями. Почти в каждом случае, озвученное изображение оказывалось более информативно, чем статические изображения [97].
В 80-х гг. D. Lunney и R.C. Morrison пробовали использовать звуковые образы, чтобы передать информацию о структуре молекул студентам химикам, имеющим недостатки зрительной системы. Студенты оказались способны идентифицировать молекулы на основе информации кодированной в параметрах озвучивания их инфракрасных спектров. Высота тона представляла позицию критического значения частоты в инфракрасном спектре, а продолжительность тона была пропорциональна интенсивности пика. Тоны воспроизводились в порядке возрастания, убывания, или в виде аккорд. При использовании такого способа озвучивания, студенты были способны идентифицировать двенадцать органических компонентов [107].
В 1990 г. Rabenhorst с сотрудниками использовал звук как дополнительный канал восприятия, чтобы представить многопараметрические данные, полученные при моделировании свойств полупроводника. Автор попытался использовать звук некоторым интуитивным образом, который дополнил бы визуальное изображение. Визуализация позволяла управлять курсором в пределах трехмерного изображения объекта, при этих манипуляциях озвучивалась соответствующая метка. Параметры, выбранные для озвучивания состояли из указанных значений отображаемых данных и установленного положения стерео баланса. Звучание (строй) трех нотного аккорда обеспечивало информацией о знаке и точном значении амплитуды. Каждой ноте аккорда был присвоен собственный тембр. Возникающее в результате
озвучивание позволяло легко находить локальные минимумы и максимумы. При этом, была обнаружена корреляция между некоторыми свойствами полупроводника [97].
В 1992 г. Marc Brown осуществил озвучивание алгоритмов сортировки. Браун "оживил" (с помощью анимации) алгоритмы, чтобы понять их поведение и проанализировать структуру. Его Zeus система анимации алгоритмов оживляет и озвучивает специфические события, которые происходят во время выполнения алгоритма. Браун использовал звук чтобы усилить визуализацию, а также, чтобы преобразовать паттерны специфических алгоритмов и заменить визуальные образы их звуковыми аналогами. В экспериментах он использовал высоту тона и различные тембры. Прослушивание алгоритмов сортировки показало, что специфические алгоритмы производят различимые визуальные и слуховые паттерны. Оказалось, что возможно услышать даже связи в данных, которые не определялись визуально. Используя многопараметрическое отображение, он нашел, что прослушание одного параметра данных при просмотре другого было более полезно чем исследование каждого параметра в отдельности [97].
М. Blattner применила звук, чтобы воспроизвести характеристики потока жидкости. Отображение использовало как специфические параметры звука так и звуковые иконки. Например, ламинарный поток и инжекция представляли постоянные звуки, отражая их непрерывный характер. Регистр тембра характеризовал вязкость, число используемых частот - плотность, тембр -температуру, темп озвучивания - скорость, положение стерео баланса -направление, а изменение высоты тона (вибрато) - завихрения. Изменение состояния или другие важные сообщения сопровождались звуковыми иконками. Так как жидкостный поток трудно отобразить визуально, автор предположила, что озвучивание уменьшит вероятность ошибки оператора, следящего за изменением критических параметров потока [41].
В 1994 г. D.H. Jameson и T.J. Watson представили систему Sonnet предназначенную для отладки программ. (Следует заметить, что прослушивание машинных кодов интуитивно использовалось программистами первого поколения цифровых вычислительных машин.) Главная проблема при отладке программ -
интегральная оценка, или "неспособность за деревьями видеть лес". Jameson считал, что озвучивание будет полезно по нескольким причинам, это: решение проблемы нахождения участка программы, который содержит ошибку, и обнаружение непредусмотренных паттернов и связей при выполнении программы.
Чтобы следить за процессом выполнения программы, звуковой отладчик Sonnet использовал легкие для распознавания звуковые паттерны. В большей степени, чем интуитивное восприятие озвучивания, Сонет представлял программисту специфические события выполняемой программы. Определенная тональность озвучивала функцию, и затем модулировалась последующими обращениями к этой функции (например, обращение к одной функции вызывало изменения громкости, а обращение к другой - изменения тембра). При выполнении цикла, неоконченное звучание могло указывать на ошибку. Одна из целей программы Sonnet состояла в том, чтобы представить пользователю естественную систему озвучивания, близкую к той, которой пользуется механик, слушая звуки двигателя, или оператор ультразвукового дефектоскопа. Например, если в некотором пункте выполнения программы перестали встречаться изменения громкости, это указывало на существование неинициализированной переменной. В ходе выполнения программы, Sonnet мог следить за изменениями в данных, включая значения переменных, обращение, запись, характер доступа к переменным и структурам данных [107].
Визуализация часто используется для топографического представления многоуровневых поверхностей, в приложениях автоматизированного проектирования, и для отображения других многопараметрических данных.
В 1995 г. Rosane Minghim и A.R. Forrest предложили инструментальное средство озвучивания SSound, предназначенное для отображения свойств поверхности. SSound использовался совместно с визуализацией, основанной на NCSA изображении. SSound использовал множественные звуковые потоки, которые пользователь воспринимал в виде паттерна, или последовательности непрерывно изменяющихся звуков. Изменения параметров звука соответствовали характеру и величине изменения данных. Мэппинг использовал как дискретные изменения частоты звука (музыкальный интервал), так и непрерывную девиацию.
Многопараметрическая матрица озвучивания была разработана как многоуровневая структура слоев. Пользователь перемещал мышь в пределах матрицы, озвучивая каждый элемент объема, при этом он имел возможность слышать значения, которые "выделялись" и с помощью стерео баланса мог определить их пространственное положение. Пользователь мог также определять выборку значений, подлежащих озвучиванию. Процесс сканирования объема позволял установить, например, какая часть объема занята или протестировать ее. Более высоким значениям параметра соответствовал более высокий тон. При анализе содержания объема, высокие плотности были представлены низкой частотой, а низкие плотности - высокой частотой, используя интуитивное восприятие наполнения как тяжести и пустоты - как легкости. Звуковые потоки отображали X, Y, и Z координаты. Изменения в любом направлении вызывали изменение в соответствующем звуковом потоке. Тембр звуковых потоков отличался таким образом, чтобы их можно было легко отличить друг от друга. Громкость, тембр, и темп отражали свойства поверхности. Грубые области генерировали медленные и тяжелые тембры, в то время как гладкие области звучали "быстрее". Геометрические свойства поверхностей (нормали, знак градиента и искривления) озвучивались, помогая идентифицировать форму. Эта методика позволяла идентифицировать невизуализируемые свойства. Например, высокая частота обозначала высокие абсолютные значения, низкие плотности, "большие" и "свободные" объекты. Низкая частота была связана с малыми абсолютными значениями, высокой плотностью, "маленькими" и "заполненными" объектами. Стерео баланс передавал информацию о пространственном положении или направлении. Изменения в ритме указывали на степень изменения градиента. Изменения в скорости воспроизведения указывали величину кривизны. Тембры отражали качественные свойства данных: "низким" тембром представлялись "полные" или "тяжелые", а "высоким" - "маленькие", или "легкие". Чтобы эффективнее использовать память пользователя о форме поверхности, возможно было создавать звуковые иконки. SSound был выполнен на платформе Macintosh Quadra 950. Звук синтезирован с помощью Korg Wavestation SR MIDI синтезатора с
соответствующей программной поддержкой n использованием MIDI библиотеки предоставленной компанией Apple.
Minghim и Forrest ожидали, что звук станет неотъемлемой частью большинства систем визуализации. Они считали, что предложенный способ преобразования позволяет легко понять значение большинства звуковых паттернов, хотя в некоторых случаях необходимо было обучение. Большая часть исследований информативности озвучивания была связана с идентификацией свойств поверхности, которые трудно или невозможно было обнаружить визуально [86].
1.2.5 Обзор инструментальных средств и систем озвучивания общего назначения
Можно считать, что разработка, по крайней мере, пяти систем озвучивания внесла значительный вклад в исследование общих методов проектирования средств, которые самостоятельно или совместно с устройствами визуализации могли бы отображать многопараметрические данные различного происхождения.
1.2.5.1 Система визуализации данных EXVIS
В 1990 г. S. Smith, G. Grinstein и R.D. Bergeron добавили озвучивание к системе EXVIS (Исследовательская Визуализация), разработанной в Университете Lowell. EXVIS создавала двумерное иконографическое отображение. Каждая выборка данных представлялась как иконка, атрибуты которой были определены различными параметрами. Озвучивание должно было отображать независимые параметры многомерных данных, которые визуально не были представлены в иконке. Стереофонический звук представлял пространственную размерность, а MIDI устройство, связывало звуки различных музыкальных инструментов или их тембр, с определенной иконкой видео монитора. Также, как отображение иконок воспроизводит некоторую визуальную текстуру, синтезированный звук воспроизводил акустическую текстуру. Однако, в то время как отдельные части визуальных изображений могут иметь подобные визуальные текстуры, их слуховые текстуры могут быть существенно различны.
Проект EXVIS был первой системой, которая обеспечила интерактивное манипулирование звуком с помощью мыши. Это была первая интегрированная система визуализации, использующая и графику и звук для исследования данных [71]. EXVIS не была ограничена определенным типом данных, которые могла обрабатывать. Но, ее ограниченность состоит в использовании исключительно двумерных иконографических изображений. Аудио дисплей мог создавать озвучивание только как дополнительный атрибут иконок. В проекте не рассматривались вопросы адаптации или расширяемости системы пользователем.
1.2.5.2 Инструментальные средства озвучивания: язык Куша и система Capybara
В 1991 г. Caria Scaletti из Университета Штата Иллинойс, работая над проектом озвучивания данных CERL/NCSA, разрабатывала систему, которая использовала бы цифровые сигнальные процессоры для выполнения звукового синтеза. Цель проекта состояла в том, чтобы разработать прототип набора инструментальных средств для озвучивания, которые могли бы применяться к изменяющимся во времени массивам данных.
Проект был выполнен на основе специального языка Куша, разработанного в Symbolic Sound Corporation (http://www.symbolicsound.com/). Чтобы создавать озвучивание, пользователь должен был управлять инструментальными средствами визуально с помощью иконок (Рис. 1.6). Система была предназначена для реализации на Macintosh или 486 PC, компонент программного обеспечения системы язык Кута написан в объектно-ориентированной среде Smalltalk. Звуковые аппаратные средства состояли из многопроцессорной системы Capybara, содержащей девять цифровых сигнальных процессоров, действующих параллельно. Эти аппаратные средства позволяли выполнять звуковой синтез в реальном времени.
Инструментальные средства озвучивания включали:
• Shifter (сдвигающее устройство), которое сдвигает сигналы из ультразвукового диапазона в слуховой диапазон и создает массив данных;
• Mappers, который позволял массиву данных управлять различными звуковыми параметрами;
• анализаторы, которые извлекали информацию из сигналов и управляли параметрами слышимых звуков;
• объединители, которые суммировали, дифференцировали или производили два массива данных;
• и различные вспомогательные инструментальные средства типа компараторов, маркеров, и индикаторов Гистограмм.
Concatenation
1 counting|
■о.
л
Duration
10 s
Fгеоиепсг/
IО hz Gate
1
Sample
Count
□setLoop
LoopS tart
И
| iLoopFade
□ Reverse
LoopEnd
Sample
Рис. 1.6 Пример осуществления звукового синтеза в формате Кута (http://www.symbolicsound.com/)
Scaletti произвела ряд интересных исследований, включая озвучивание движения маятников, параметров леса парка Yellowstone, смога в Лос-Анджелесе, и циркуляции крови. При озвучивании параметров леса, визуализация отображала возраст леса в различных оттенках зеленого цвета и площадь пожара в красном цвете. Анимация данных проводилась для периода времени с 1690 по 1990 гг.
Озвучивание использовало гистограмму, в которой возраст леса был отображен высотой тона. Причем больший возраст соответствовал более низкой частоте, поскольку такое отображение было интуитивно более понятно. Лесным пожарам соответствовал шум определенной амплитуды и длительности, пропорциональной площади огня и времени его существования. Возникающие в результате "пакеты шума" ориентировали взгляд к "красному налету", который можно было легко пропустить, применяя только визуализацию.
Система Scaletti в целом - интуитивная система с хорошим интерфейсом пользователя. С ее помощью можно выполнять очень сложное озвучивание. Так как система была разработана, чтобы отображать изменяющиеся во времени данные, в основе ее лежала модель потока данных, а это накладывал:© ограничение на типы данных, используемых для визуализации. Но основная проблема системы состояла в применении слишком экзотических аппаратных средств. Помимо больших затрат времени и денег, для работы с подобной системой требовалось немало специальных знаний [97].
1.2.5.3 Система визуализации арЕ
В 1992 г. P. Astheimer (Darmstadt, Германия) интегрировал инструментальное средство озвучивания в существующую систему визуализации арЕ. Система арЕ, созданная в государственном университете Штата Огайо, является системой отображения массива данных (подобно SGI Explorer), которая позволяет формировать визуализацию, выбирая предварительно запрограммированные модули для управления данными. Добавляя озвучивание, Astheimer предполагал перераспределить информацию на слуховой анализатор и таким образом усилить визуальный дисплей, не создавая перегрузку видео изображения. Astheimer предполагал объединить систему визуализации и озвучивания, что позволило бы манипулировать данными, в интерактивном режиме модально перераспределяя поток информации. Структура системы должна была быть модульной, подобно исходной системе. Таким образом, пакет озвучивания имел бы то преимущество, что, будучи способным расширить возможности существующей системы, он не потребовал бы вновь устанавливать программу визуализации. Предполагалось, что
единый интерфейс будет обрабатывать как визуализацию, так и озвучивание. Наконец, система должна была использовать доступные аппаратные средства, и быть адаптивной под любые другие аппаратные платформы.
АвШетег представил проект очень полной исходной модели, концептуально определил конструкцию и описал свойства системы. Он использовал три основных конвейерных процесса: классическую конвейерную визуализацию, отображение данных в библиотеке звуковых файлов, и акустические эффекты, включая окружающий звук. Его идеальная система включает аппаратный уровень, системный уровень, который обеспечивает доступ к аппаратным средствам, библиотечный уровень, предназначенный для обеспечения модульных функциональных возможностей, модульный уровень, уровень конфигурации, обеспечивающий средства конфигурирования модулей, и прикладной уровень.
Интегрированная система, которую АзШенпег разработал выполняла многие из его требований для идеальной системы. Система арЕ была переносима на ряд платформ. Она модульная, как и пакет озвучивания. Звуковой мэппинг использует частоту, длительность, громкость, эхо, и некоторые параметры огибающей. АвЙшипег применил свою систему для представления атмосферных параметров и данных динамики потока жидкости. В частности, при отображении атмосферных данных, концентрация озона соответствовала высоте тона. Для динамики данных потока жидкости, которые описывали поток жидкости в устье, расстояние было отображено громкостью, а скорость течения - частотой.
Трудности подхода АвЛенпег состояли в том, что массивы данных требовали предварительной обработки прежде, чем они могут использоваться системой типа арЕ. Также имеют место повышенные требования к обучению, связанному с использованием в системе двух типов данных, изменения их формата и необходимости изучения возможностей модулей (особенностей их взаимодействия). Многие пользователи обычно сопротивляются изучению новой системы, если они не убеждены, что это будет достаточно полезно и возместит начальные затраты времени и усилий. Наконец, среда подобно арЕ не может быть использована для отображения произвольных типов данных, а недостаточность
библиотеки звуковых файлов создает дополнительные трудности при работе с системой [37].
1.2.5.4 Система озвучивания Porsonify и проект Pablo
В 1992 г. Tara Madhyastha и Daniel Reed представили переносную систему озвучивания Porsonify, которая была в конечном счете включена в проект Pablo -систему визуализации для исследования процессов параллельной обработки. Porsonify была первая система, разработанная для интегрирования в любую существующую систему визуализации.
Porsonify поддерживает как преобразование данных в звуковые параметры (высота тона, громкость и длительность), так и воспроизведение записанных ранее аудио файлов. Звуковые файлы могут использоваться, как предупредительные сигналы об ошибках манипуляции пользователя или для других специальных сообщений, подобно звуковым иконкам [41].
Экспериментируя с отображением мультипараметрических данных, Madhyastha и Reed озвучили двенадцать параметров, которые представляли свойства городов Соединенных Штатов, типы климата, мест отдыха, свободных мест в отелях и др. Например, количество населения было сопоставлено с длительностью звукового паттерна, (неприятные) составляющие тембра -качествам климата, размеры штата были отображены с помощью пространственной модуляции путем стерео баланса и громкости, и т.д. При первом прослушивании было трудно помнить все отображаемые параметры, но звук каждого города имел собственный уникальный символический паттерн.
Porsonify показала хорошие результаты с реальными данными. Интегрированная в среду Pablo, Porsonify использовалась для озвучивания изменяющихся во времени совокупности команд двух эталонных тестов обработки. Машинные команды были сгруппированы в шесть категорий. Каждая выборка представлялась нотой с шестью характеристиками: поддержка, стерео баланс, тембр, высота тона, длительность, громкость. Характеристики были определены процентом от числа команд в каждой категории. Через какое-то время слушатели были способны легко найти различия в данном наборе команд. Высота тона и
изменения стерео баланса были понятны, но изменения длительности и поддержка оказались более трудными параметрами.
Другой пример озвучивания отображал основанную на сообщениях систему параллельной обработки данных. Для анализа паттернов связи, были озвучены посланные и полученные сообщения. Высота тона ноты идентифицировала процессор, а локализация указывала, было ли сообщение посылаемым или получаемым. Озвучивание показало, что ни один кластер процессоров не был связан с большим количеством сообщений. Сонификация также выявила ошибку, которая прошла необнаруженная при визуализации: процессор послал сообщение, которое другие процессоры не получили. В результате нота звучала непрерывно. Кроме того, процессор при неисправности мог быть идентифицирован тембром ноты [81].
Porsoniiy была выполнена на базе Sun Sparc Station без использования дополнительной звуковой библиотеки При этом не потребовалось изменять или переустанавливать звуковые или сетевые драйверы.
Однако, обучение и взаимодействие с Porsoniiy достаточно сложно. Пользователь должен работать с многими файлами (Рис. 1.7), которые определяют звуковые образы, конфигурацию аппаратных средств, а также теми, которые необходимы для определения функции преобразования отображения и масштабирования данных. Эти операции должны быть выполнены прежде, чем можно будет включить и услышать звучание, редактировать файлы или взаимодействовать с другими многочисленными окнами интерфейса, каждое из которых позволяет пользователю конфигурировать некоторый параметр озвучивания.
Начиная с установки озвучивание включает сложную последовательность процедур, взаимодействие с Porsonify неудобно для оператора и затрудняет проведение многих акустических экспериментов. Трудно, например, сравнить два варианта озвучивания, потому что к моменту когда второе было установлено, первое уже забывается. Из-за использования в интерфейсе большого числа окон для изменения различных параметров звука, все пользовательские опции не видны
РСТВЕЯНм "МБЛИОТЕКА
одновременно. Такая реализация проекта не поддерживает интуитивное взаимодействие.
Конфигурирование главной функции преобразования
Рис. 1.7 Некоторые примеры реализации интерфейса системы озвучивания
Рогзот1у
1.2.5.5 Инструментальные средства озвучивания данных LISTEN
С 1995 г. Suresh Lodha, Catherine Wilson, и Bob Sheehan демонстрируют и совершенствуют программный пакет Listen - набор инструментальных средств для озвучивания данных любого типа.
Listen - объектно-ориентированная модульная система (Рис. 1.8), написанная на языке С++ для SGI платформы. Listen имеет пять модулей: модуль интерфейса, модуль управления, модуль управления, модуль звукового отображения, и модуль звукового устройства. Модульность и объектно-ориентированная среда обеспечили гибкость, адаптируемость, и расширяемость проекта. Модуль интерфейса обеспечивает поддержку пользователя и обратную связь о состоянии выполняемой программы. Модуль управления связывает интерфейс с другими тремя базовыми модулями. Модуль управления данными считывает данные из файла, в том числе необходимую информацию относительно минимальных и максимальных значениях каждого поля данных, передает эту информацию модулю отображения и следит за установленными границами каждого массива данных, которые должны быть озвучены. Звуковой модуль устройства инициализирует аудио оборудование и поддерживает соответствующий протокол для звуковоспроизведения.
Рис. 1.8 Блок-схема системы Listen (Wilson, 1996)
Главное отличие проекта состоит в том, что система озвучивания может быть легко интегрирована в уже инсталлированную систему визуализации. Проект Listen предполагал использовать широко распространенные недорогие устройства типа синтезатора Yamaha PSR-320, который поддерживает протокол MIDI. Последний соединяется с компьютером через соответствующий транслятор команд MIDI. Проект предполагал применение стандартных звуковых библиотек, поскольку SGI -станции уже имеют необходимые средства, чтобы управлять встроенным звуковым устройством, MIDI библиотекой и внешним устройством через MIDI порт.
Для расширения функциональных возможностей, было создано четыре базовых программных пакета. Listen 1 допускает ввод параметров посредством командной строки и использует внутренний звуковой чип. Listen2 также использует внутренний звуковой чип, но имеет графический интерфейс, который обеспечивает более сложные преобразования отображения. Listen3 взаимодействует с MIDI и также имеет графический интерфейс. Listen4 является дополнительным модулем версии Listen3, и предназначен чтобы взаимодействовать с установленной программой визуализации (Рис. 1.9-1.11).
Listen 1, и Listen2 позволяли даже начинающему пользователю выполнять озвучивание. Не требовалось никаких дополнительных аппаратных средств, так как использовался встроенный аудио процессор. Графический интерфейс Listen2 (Рис. 1.9) выполнен с применением Х-Форм (XForm). Пользователь может в интерактивном режиме устанавливать различные звуковые параметры, используя меню, слайдеры и кнопки. Если Х-Формы в системе не установлены, может использоваться режим командной строки.
Listen3 использует MIDI и обеспечивает более сложные возможности звукового отображения. В проектах модулей Listen 1 и Listen2 все преобразования выполнены на основе линейных зависимостей. В модуле Listen3 линейное преобразование установлено по умолчанию, но имеется возможность выбрать и настроить нелинейный тип функции преобразования, в том числе использовать полосовые фильтры индивидуально для каждого параметра (Рис. 1.10).
Интегрирование модуля Listen4 в уже существующую программу визуализации достаточно просто и подробно изложено в работе Wilson [107].
Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК
Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях2010 год, доктор технических наук Ронжин, Андрей Леонидович
Методы и алгоритмы обработки визуальной информации для создания виртуального окружения тренажерных комплексов2008 год, кандидат технических наук Хураськин, Игорь Анатольевич
Программное обеспечение систем технического зрения на базе IBM-совместимых персональных компьютеров1998 год, кандидат физико-математических наук Богуславский, Андрей Александрович
Музыкальные компьютерные технологии как новый инструментарий современного творчества2002 год, кандидат искусствоведения Пучков, Станислав Владимирович
Создание картографических мультимедиа-продуктов1997 год, кандидат технических наук Лапина, Елена Николаевна
Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Евреинов, Григорий Евгеньевич
3.4 Выводы
Разработанный способ проектирования звуковых объектов предполагалось использовать для альтернативного отображения элементов графического интерфейса. Например, звуковые окна, помимо формальных признаков (границы, активные области, и т.п.), могли бы содержать псевдографические объекты и текстовые сообщения, выполняющие любую из диалоговых функций: отображение позиции акустического курсора, выходные данные в виде озвученных диаграмм, вспомогательные сообщения об ошибках или о текущем состоянии системы. Но, семантическое значение окна, как перманентно представляемой системы отсчета для обеспечения проекции диалогового пространства и объективизации его восприятия, должно быть адаптировано к специфическим особенностям используемой модальности. Оказалось, что проектирование графического интерфейса в форме виртуальной звуковой сцены, при сохранении действующей структуры оконного интерфейса может привести лишь к перегрузке слухового анализатора. Это вряд ли улучшит его доступность и другие пользовательские качества. Способ преобразования графической информации в звуковую пока не позволяет реализовать условия полностью эквивалентные процессу зрительного восприятия, как при наблюдении статических или динамических визуальных объектов, основанному на эксплуатации произвольного внимания.
Тем не менее, разработанный способ изоморфного озвучивания графических объектов вполне приемлем не только для исследования в области психоакустики (например, проблемы соответствия акустической модели психической форме ее представления) или научной визуализации данных, но может быть использован в учебных целях для широкого круга пользователей графических программных средств.
Индивидуальные особенности селективного внимания и кратковременной памяти пространственной локализации субъективных акустических образов требуют специфической временной структуры (ритмический рисунок) при формировании объектов звуковых сцен. Своеобразные цезуры и знаки альтерации необходимы для точной репрезентации экстремальных точек, переключения и фиксации внимания, разделения фрагментов изображения или, наоборот, слияния звуковых потоков. Поэтому, в дальнейшем, мы предполагаем, что необходимо специально анализировать градиент временных интервалов и особенности его пространственной модуляции.
Возможно, физически, структура окна должна быть связана с конструкцией устройства находящегося в непрерывном контакте с пользователем. Идеальным решением могли бы стать устройства ввода-вывода, максимально использующие метафору схемы тела (психические представления проекций участков поверхности или частей собственного тела). В этом случае оператору, независимо от его физиологических возможностей, будет адекватно и эффективно представлена информация о внешних объектах и их отношениях в естественной, и одновременно индивидуальной, системе отсчета.
4. РАЗРАБОТКА И ПРИМЕНЕНИЕ АЛЬТЕРНАТИВНЫХ УСТРОЙСТВ ВВОДА-ВЫВОДА
За исключением речевого ввода стандартные устройства управления позицией курсора разработаны для взаимодействия с визуальной текстовой или графической информацией. Предполагается, что на экране имеется визуальная проекция некоторого объекта, параметры которого являются функцией состояния устройства связи. Система координат видео монитора - основной компонент в реализации такой обратной связи. При нарушении или отсутствии зрительного канала связи оператор должен использовать другие атрибуты и систему маркеров, относительно которых он мог бы корректировать собственные действия.
Когда мы исследуем внешние объекты и окружающее пространство в отсутствие зрительного контроля, не, только тактильные ощущения, но также и рецепторы мышц, сухожилий и суставов способствуют восприятию и формированию психических представлений нашего окружения. Проблема состоит не в том, как будет графическая информация преобразована в сигналы другой модальности, но как организовать процесс представления и обработки входной информации, чтобы в отсутствие визуального контроля максимально задействовать неповрежденные участки ассоциативных областей зрительного анализатора и других центров, участвующих в пространственном анализе.
С практической точки зрения, сложность естественных условий стимуляции затрудняет проектирование адекватного гаптического дисплея. Проблема описания гаптических стимулов (то есть совокупности тактильных и кинестетических) определяется особенностями их пространственно-временного распределения, разрешающей способностью устройств, а также точностью выполняемых действий самим оператором. Если использовать пространственно-временные параметры сложных стимулов подходящим способом, гаптические устройства ввода-вывода могли бы обеспечивать важные функции многих вспомогательных средств для слепых пользователей. Метод преобразования графической информации в слуховые ощущения был описан выше. Но существует ограниченное число исследований, посвященных анализу аудио-тактильных (но неречевых) [47, 74, 77, 101], и, тем более, - аудио-вестибулярных взаимодействий.
Вспомогательная система для рисования символов и фигур (с помощью цифрового преобразователя - диджитайзера), использующая обратную связь звуковых сигналов, в том числе, их латерализацию, была представлена Itoh и Yonezawa [74]. TDraw система, разработанная М. Kurz, основана на специальной вспучивающейся бумаге и устройстве Thermo-Stift, объединенном с цифровым преобразователем и дополненная системой распознавания речи для специальной маркировки графических изображений с помощью комментариев [77]. Эти исследования отличаются от аудио-тактильных манипуляций виртуальными спикерами или другими объектами звуковых сцен [53, 57], так как в этих исследованиях слепой человек непосредственно создает графический объект, используя обратную связь невизуальной модальности.
4.1 Полярные координаты, метафора циферблата и концепция "схемы тела"
Помимо прямоугольной существует полярная система координат, которая широко используется в технических средствах и промышленном оборудовании (часы, сельсины-датчики, индикаторы и т.д.). При этом, координаты объектов указывают в "часах" и "минутах", принимая длину часовой и минутной стрелок за две величины радиус-вектора. Таким образом, можно достаточно просто маркировать все позиции пространства состояний представленных внешних объектов. Некоторым образом, метафора циферблата затрагивает общие проблемы формирования эгоцентрической системы ориентации человека и разработки общей модели пространственного анализа [25, 82]. Постоянно доступные функции можно классифицировать по группам, и заголовки групп представить в виде радиальной или линейной шкалы меню. Варианты каждой группы будут представлены градациями второй шкалы или ординаты и т. д. Для активации вспомогательного меню пользователю достаточно установить устройство ввода в состояние, соответствующее варианту меню, и инициализировать выбранную директиву.
Так как окна, буферы и другие элементы системы описаны как объекты, состояния которых соответствуют конкретным состояниям устройства ввода, в интерфейсе прямого манипулирования они будут обработаны физическими действиями. Обычно, для этих целей используют устройство, число состояний которого определяется диапазоном изменения параметров его активного элемента (некоторым числом состояний кнопок или их комбинаций). Аналогично, пользователь может открыть любое виртуальное окно установкой соответствующего состояния внешнего устройства и нажатием кнопки ввода. Выбранный адресат может быть перемещен или скопирован к новой позиции в пределах виртуального окна или в другое окно также путем изменения состояния манипулятора.
Посмотрим, как на основе полярной системы координат возможно проектирование устройств ввода [6, 35].
На рисунке 4.1 представлена конструкция графического манипулятора (типа "джойстик"), размеры которого соответствуют размерам "мыши", то есть ладонь свободно охватывает (покрывает сверху) поверхность манипулятора. Верхняя часть корпуса представляет полусферу, радиус которой немного больше, чем радиус вложенной опорной полусферы, жестко связанной с основанием. Схематически принцип такого расположения показан на рисунке 4.2. Верхняя полусфера выполнена с перфорациями, против которых на нижнюю полусферу установлены штифты, количество, форма или комбинация которых соответствует необходимой дискретности представления координатной сетки и может иметь значение специальных символов. Отношение радиусов полусфер определяет динамический диапазон манипулятора. Функциональные кнопки расположены на нижней боковой поверхности корпуса джойстика. Датчик положения верхней полусферы относительно основания может быть любого типа (механический, оптический, электромагнитный, пьезоэлектрический и т.п.). При изменении положения верхней полусферы относительно горизонтальной плоскости в соответствующем секторе в отверстиях появляются штифты, ощущение которых обеспечивает пользователя необходимой информацией в интерактивном сценарии.
Рис. 4.1 Джойстик, выполненный с тактильными маркерами полярных координат (метафора циферблата)
Рис. 4.2 Джойстик, выполненный с тактильными маркерами на основе емкостного преобразователя перемещения
Другая конструкция джойстика (Рис. 4.3) тоже связывает психические представления направления в пространстве и процедуру выбора пунктов меню, но предполагает ориентирование в иерархии с произвольным числом уровней или объектов. Десять фиксированных положений диска (4) соответствуют делениям циферблата часов. Вторая ось - "линейная ордината", которая имеет только пять фиксированных положений переключателя, причем движение осуществляется вдоль прямолинейной траектории, соединяющей позиции 9-ти часов и трех. Такая комбинация линейной координаты и радиальной оказалась более эффективной, так как одновременное присутствие окружности и ее диаметра облегчает ориентацию во внешней системе координат относительно "внутренней". Увеличение числа градаций линейного переключателя до семи существенно замедляет позиционирование. Но конструкция может быть дополнена переключателем на два положения (на Рис. 4.3 не показан), который позволяет увеличить число градаций второй координаты до десяти. Две кнопки, расположенные над линейным переключателем (между 10-тью и 11-тью часами и между 1-ми 2-мя часами), соответствуют правой и левой функциональным кнопкам мыши [6].
Рис. 4.3 Концептуальный потенциометрический джойстик
1,2- функциональные кнопки; 3,4 - потенциометры, обеспечивающие фиксацию в заданных позициях.
Конструкции джойстиков с тактильным дисплеем на основе распределенных маркеров формируют простые психические представления для отображения иерархических структур интерфейса, подобно классической древовидной, внешней системы координат или соответствующих условных объектов и структуры их взаимодействия, но не позволяют реализовать прецизионный ввод графической информации (в отсутствие зрительного контроля).
На рисунке 4.4 представлен другой вариант манипулятора на основе той же концепции использования внутренней системы отсчета (психических представлений проекций участков поверхности собственного тела) [13, 35].
Метод позволяет осуществить "физическую привязку" размещения условных проекций виртуальных объектов и облегчение ориентации в пространстве позиционирования. Как видно из рисунка, ввод графической информации в компьютер осуществляется путем копирования траектории движения указателя вдоль свободной поверхности кожи оператора. Лоб, плечо, кисть, бедро или участок другой части тела может быть использован аналогичным образом, в зависимости от индивидуальной дифференциальной чувствительности, и особенностей конструкции устройства. Траектория вычисляется на основании метода триангуляции и измерений реактивного сопротивления поверхности кожи от указателя до установленных на коже дополнительных референтных электродов. Точность позиционирования такой конструкции существенно зависит от чувствительности выбранного участка кожи и в эксперименте была не хуже ± 5 мм. Однако, электрический способ измерения сопротивления участка кожи не лишен общих погрешностей контактных методов, что существенно усложняет процесс обработки результатов измерений.
Рис. 4.4 Графический "планшет", использующий тактильную обратную связь
Необходимо подчеркнуть достаточно высокую разрешающую способность и простоту восприятия манипуляций с помощью устройств позиционирования этого типа в отсутствие визуальной обратной связи.
Главные преимущества визуальной обратной связи по сравнению с тактильным каналом - дистантность, возможность произвольного прерывания действия или восприятия информации (произвольного переключения внимания) при сохранении преимуществ периферического обзора - до сих пор не были реализованы в альтернативном сенсорном канале связи человека с машиной. Обсуждаемые в работе манипуляторы предполагается использовать совместно с пространственным аудио дисплеем и синтезатором речи. Пространственные звуковые иконы должны сопровождать процесс изменения состояния устройства ввода. Как и пиктограммы, они несут вспомогательную информацию об имеющихся объектах в структуре меню или активации различных уровней, облегчают ориентировку в областях виртуального экрана и предназначены для оперативного оповещения или переключения внимания оператора. Конструкции, в основе которых лежит концепция психических представлений схемы собственного тела человека, являются эффективными коммуникативными устройствами и могут использоваться при проектировании носимых компьютеров [35, 40].
4.2 Графический интерфейс Ра<1Сгар11
Рассмотрим еще одну конструкцию манипулятора, который был разработан согласно упомянутой концепции восприятия "схемы тела", возможности пространственной ориентации, и специфической двигательной активности человека, проявляющейся в виде позно-тонических реакций, осуществляемых при участии вестибулярной и кинестетической перцептивных систем, и в отсутствие зрительного контроля [1,6,7,17,35].
Графический манипулятор РасЮгар11 показан на рисунках 4.5, 4.6. Разработанный для него интерфейс и графический редактор обеспечивают стандартные операции (указание, выбор, перемещение, .) или ввод графической информации в компьютер путем копирования траектории движения центра масс, сидящего на устройстве (специальная подушка) оператора, а также поддерживают взаимодействие с графическими манипуляторами стандартного типа, альтернативными устройствами, прототипы которых описаны выше, и аудио монитором ВАМ-3.8.
Рис. 4.5 Графический манипулятор РасЮгарЬ, использующий движение центра масс оператора в качестве сигналов управления курсором
Заметим, что РасЮгарЬ - это джойстик, предназначенный для манипуляций без использования рук и визуальной обратной связи. Рассмотрим некоторые особенности конструкции устройства и интерфейса.
Джойстик содержит матрац, выполненный в виде трех токопроводящих обкладок (1-3) дифференциального конденсатора (Рис. 4.6), имеющих электрические выводы (4). Между обкладками конденсатора расположен упругий диэлектрический наполнитель (5). Обкладки конденсатора выполнены из эластичной углеграфитовой ткани, а в качестве упругого диэлектрического наполнителя используется перфорированная пористая резина [1].
Изменение емкости конденсатора (матраца) происходит в результате движения горизонтальной проекции общего центра масс сидящего оператора. Причем, сегменты средней обкладки (2а - 2с1) включены попарно дифференциально, что позволяет регистрировать движение в двух направлениях. Устройство имеет преобразователь емкости в электрическое сопротивление (4), которое соответствует параметрам обычного джойстика (1-200 кОм [12]), и ножной пульт, в котором расположены кнопки, необходимые для выполнения программных функций (Рис. 4.5).
2Ь с^гОуСт:.о
-.'.Л ■ о о
QOQ. О ) Г^ 0 0/0,0 0 X f ) 4 , •.•' , •■-■ •• ; Vе;"'-. .;Ъс У»' ; СС О
U.A.1: С. шшЬ ► Game f Port
IBM PC
2а
2d
Рис. 4.6
Программный интерфейс PadGraph является Windows - приложением, и состоит из программных модулей, реализованных в среде Windows '95 на языке Visual Basic 5.0. Интерфейс PadGraph обеспечивает управление курсором (движением указателя на экране монитора или звукового курсора) при изменении положения центра масс сидящего на устройстве оператора и возможность ориентации в виртуальном акустическом пространстве, усиливающем кинестетические и вестибулярные ощущения, относительно звуковых маркеров. Эксплуатация устройства включает озвучивание взаимодействий курсора с виртуальными объектами (например, гранями окна или пунктами меню) и использование системы распознавания речи для активации управляющих команд голосом.
Для эффективного использования динамического диапазона устройства, в режиме проектирования графических объектов и в режиме навигации в структуре меню, использованы раздельные контейнеры данных позиции джойстика. J
Volume
Left button + Right button 1
3U"
Fiequency
70
Y-Devialiun
40 mm mm
X-Deviation
10
Datation 5
Delay
Volume De v
-2Ь
Tain Object
Reverse of Playback
Inversion of Soand data
Cyclic
Cyclic + Reverse
Left button ♦ Right button -I ExtrPoint
Tracking
Delete Points шИиш
WÊÊÈÊÊ шш
ШШ ш M
Рис. 4.7 Группы меню интерфейса РасЮгар11
4.2 Система команд PadGraph
Для инвалидов, имеющих ограниченные физические возможности манипуляции с помощью обычных устройств позиционирования (джойстик, мышь, клавиатура), а также слепых пользователей персональных компьютеров была разработана специальная система меню (Рис. 4.7, Рис. 4.8).
Команды меню объединены в группы, в зависимости от их функционального назначения и частоты обращения.
Инициализация команд осуществляется путем перемещения указателя в активную область меню и нажатия кнопки (ногой), согласно принятому протоколу. Выбор команды или группы меню может быть выполнен также с помощью системы распознавания речи, путем произнесения ключевого слова.
Указание начальной позиции графа, положительное направление движения вдоль траектории, увеличение параметра или выполнения команды может быть выполнено щелчком левой кнопки мыши, которая соответствует левой кнопке панели управления PadGraph или, называя ключевое слово, "left". Указание конечной позиции графа или уменьшение значения некоторого параметра может быть выполнено при нажатии правой кнопки мыши, которая соответствует правой кнопке панели управления PadGraph или, называя ключевое слово, "right".
Группы меню могут быть активированы размещением указателя внутри поля условных зон выбора группы меню: "Drawing", "Sounding", "SoundParam" или "ExremePoints" (переключение панелей), при соответствующем подтверждении "двойным щелчком" левой кнопки пульта управления. Выбор панели "Файл" выполняется аналогично. Группа команд "File" включает команды: "Save Image", "Load Image", "Delete Image", "Create Directory", "Print Image", "Exit".
Выбор соответствующей команды может быть озвучен, используя *.wav файл или путем воспроизведения подходящей звуковой иконки. Неправильные действия или превышение установленных критических значений параметров (запрещенных программой), например, движение указателя вне разрешенной области для выбранной функции и т.д., будут также сопровождаться предупредительными звуковыми сигналами.
Load Image
Рис. 4.8 Проектирование в системе РасЮгарИ
Позиция джойстика преобразуется в озвученную метку, которая формирует звуковой курсор. Экспериментально было показано, что точность позиционирования с помощью устройства РасЮгарИ в отсутствие визуальной обратной связи при использовании для пространственного озвучивания аудио монитора ВАМ-3.8 была не хуже чем ± 8 мм. Это позволяет не только устанавливать стандартные графические объекты, но и перемещать их или создавать сложные аудио-визуальные конструкции.
Озвучивание положения центра масс сидящего на устройстве оператора не только обеспечивает точность позиционирования системы РасЮгарИ, но и вызывает интересное психологическое явление, обусловленное аудио-тактильным и аудио-вестибулярным взаимодействием: проекция виртуальной звуковой траектории относительно реально ощущаемой пространственной позиции тела изменяет (специфически модулирует) восприятие звукового объекта, и, наоборот, появляется конкурирующее впечатление проекции собственного тела (или некоторой его оси) относительно виртуальной акустической плоскости.
ЗАКЛЮЧЕНИЕ
В диссертационной работе рассмотрен комплекс теоретических и практических вопросов, связанных с проектированием мультимодального графического интерфейса, поддерживающего эффективное человеко-машинное взаимодействие в отсутствие визуальной обратной связи. В качестве основного средства отображения графической информации разработан виртуальный аудио монитор, а в качестве ввода - предложены варианты альтернативных позиционирующих устройств.
В работе получены следующие основные результаты:
1. Разработана функциональная схема реализации невизуального интерфейса.
2. Разработаны аппаратные средства альтернативного ввода-вывода графической информации: виртуальный аудио монитор, и манипуляторы, обеспечивающие обратную связь в отсутствие зрительной информации, в конструкции которых воплощена концепция "схемы тела" и психических представлений пространственных отношений внутреннего и экстракорпорального пространства.
3. Осуществлена программная реализация интерфейса и системы озвучивания графических изображений.
4. Разработана аппаратно-программная версия специального графического редактора и система меню РасЮгар]! для инвалидов, имеющих ограниченные сенсорные возможное;™ (слепые пользователи компьютеров) и/или проблемы использования стандартных манипуляторов (отсутствие рук).
5. На основании проведенного анализа результатов исследований и методов преобразования графической информации в параметры виртуальных звуковых источников, обоснована возможность и разработана методика изоморфного озвучивания двумерных графических объектов, проектируемых согласно правилам построения стереометрических проекций.
6. Установлено, что индивидуальные особенности селективного внимания и кратковременной памяти пространственной локализации субъективных акустических образов требуют специфической временной структуры при формировании объектов звуковых сцен; предложен алгоритм для точной репрезентации экстремальных точек, необходимых для переключения и фиксации внимания, разделения фрагментов изображения или, наоборот, слияния звуковых потоков.
7. При проведении тестовых экспериментов обнаружено, что помимо критических точек, важных для локализации линейных фрагментов изображения, существуют области, в пределах которых происходит предварительный анализ пространственно-временных параметров звуковой модели и, вероятно, формируется психологическая установка на процесс выполнения последующей перцепции (выбор системы отсчета, особенности распределения внимания). Причем, обнаружив "общий вектор", перцептивная система "должна" сначала формализовать условия наблюдения, и только затем возникает группировка (например, совместное движение пограничных областей нескольких озвученных траекторий), а "остаточное" движение фрагментов изображения будет восприниматься по отношению к этой движущейся структуре как системе отсчета.
Список литературы диссертационного исследования кандидат технических наук Евреинов, Григорий Евгеньевич, 1998 год
СПИСОК ЛИТЕРАТУРЫ
1. Аграновский A.B., Берг О.Ю., Евреинов Г.Е. Стабиллоплатформа для измерения параметров микродвижений биологической ткани объекта и способ ее изготовления // решение о выдаче патента на изобретение Российской Федерации от 27.08.97 г. по заявке N 96109893/14 (015589) от 15.05.96 г.
2. Аграновский A.B., Евреинов Г.Е. Интеллектуальный мультипроцессор в системе человеко-машинного интерфейса //Международная научно-техническая конференция «Интеллектуальная робототехника - 98» 14-16 апреля 1998 г. Изд-во ЦНИИ Робототехники и технической кибернетики. Санкт-Петербург, 1998. С. 7677.
3. Аграновский A.B., Евреинов Г.Е. Ситуационная осведомленность и межанализаторное взаимодействие как основы проектирования средств отображения информации повышенной безопасности //Доклады III Всероссийской научно-практической конференции с международным участием «Новое в экологии и безопасности жизнедеятельности», 16-18 июня 1998 г. Санкт-Петербург. Т. 2. С. 247-250.
4. Аграновский A.B., Евреинов Г.Е. Способ формирования акустического образа // положительное решение о выдаче патента на изобретение Российской Федерации от 01.12.97 г. по заявке N 96105192/14 (008800) от 19.03.96 г, МКИ6 А 61 Е 9/08, G 09 В 21/00, RU.
5. Аграновский A.B., Евреинов Г.Е. Стереосистема // МКИ6, Н 04 R 5/00, Патент RU №2098924 / Положит, реш. Приоритет от 11.06.96г. на выдачу патента Российской Федерации по заявке N 96111730/ 28 от 17.01.97г.
6. Аграновский A.B., Евреинов Г.Е. Функциональное проектирование невизуального интерфейса//Информационные Технологии, 1998, No 3, С. 13-20.
7. Айдаркин Е.К., Аверин А.И., Евреинов Г.Е. и др. Автоматизированная система контроля оператора. /В сб.: Проблемы нейрокибернетики. XI Международная научная конференция по нейрокибернетике 20-23 сент. 1995 г., Ростов-на-Дону: Изд. "Пентагон". 1995, с. 26-27.
8. Блауэрт Й. Пространственный слух. Пер. С нем. Москва: «Энергия», 1979. 224 с.
9. Вартанян И.А., Розенблюм A.C., Черниговская Т.В., Пахомова О.Г. Оценка сложных сигналов в слуховой системе (электрофизиологические, психологические, клинико-физиологические аспекты) //Физиология человека. 1980. Т.7. No 6. С. 9841001.
10. Вартанян И.А., Черниговская Т.В. Влияние параметров акустической стимуляции на оценку человеком изменения расстояния от источника звука // Физиол. журн. СССР. 1980. Т.66. No 1. С. 101-108.
11. Голынский A.C., Мордвинов В.А., Сэндэк Ю.Ю., Шиман Ю.Н. Ультразвуковой локатор для слепых // а.с. N 1769882 AI. SU. А 61 F 9/08. 1992. Бюлл. No 39.
12. Гук М. Аппаратные средства IBM PC. С.-Петербург: Питер Пресс, 1997.288 С.
13. Гурфинкель B.C., Левик Ю.С. Концепция схемы тела и моторный контроль / Интеллектуальные процессы и их моделирование. М.: Наука, 1991. С. 59-105.
14. Дубровский H.A., Тарасова М.В. Модель механизма локализации тонального источника звука в горизонтальной плоскости //Акустический журнал. 1982. Т. 28. No 2. С.184-191.
15. Евреинов Г.Е., Куркин С.А. Перспективы введения зрительной информации путем адекватной стимуляции слухового анализатора //Акустический журнал. 1996. Т. 42. No 5. С. 629-634.
16. Евреинов Г.Е. Аудио дисплей как средство профилактики и коррекции психоэмоционального напряжения оператора //Всероссийская научно-техническая конференция Медицинские информационные системы, МИС-98, Таганрог, 15-17 сентября 1998. С. 113 -117.
17. Евреинов Г.Е., Берг О.Ю. Регистрация биомеханических параметров поведенческих реакций в диагностике функционального состояния человека-оператора. //Тезисы докладов Всероссийской конференции: Состояние и перспективы развития медицинского приборостроения. 26-28 Ноября, Махачкала. Изд-во Махачкала: ИПЦ ДГТУ, 1997. С. 76-77.
18. Евреинов Т.Е., Куркин С.А., Евреинова Т.В. Применение компьютерной технологии при разработке системы звуковой передачи графической информации. В сб.: Проблемы нейрокибернетики. XI Международная научная конференция по
нейрокибернетике 20-23 сент. 1995 г., Ростов-на-Дону: Изд. "Пентагон". 1995. С. 98-99.
19. Кожевникова Е.В. Слуховая оценка удаленности источника звука // Сенсорные системы. 1990. Т.4. No 2. С. 198-208.
20. Кузнецова JI.B. Сравнение кожной чувствительности пальцев рук у слепых и зрячих //Сенсорные системы. 1993. Т.7. No 1. С.45-47.
21. Куклин В.П., Куклин Ю.Д. Индикатор для слепых //A.c. No 1792680 AI. SU. А 61 F 9/08. 1993. Бюлл. N5.
22. Куклин Ю.Д., Куклин В.П. Фазовый индикатор для слепых //Описан, изобр. к пат. N 2000761 CI. RU. А 61 F 9/08.1993. Бюлл. No 37-38.
23. Мурзин Е.А. Зрительный протез общего пользования для совершенно слепых //A.c. No 151060. SU. А 61 f 9/08, G 09 В 21/00. 1967. Бюлл. N21.
24. Мурзин Е.А. Способ преобразования в зрительном протезе общего пользования оптического изображения в звуковые сигналы //A.c. No 151059. А 61 F 9/08, G 09 В 21/00. SU. 1967. Бюлл. N21.
25. Рок И. Введение в зрительное восприятие М.: "Педагогика". 1980. Кн. 1. 312 с.
26. Рудный Н.М., Васильева П.В., Гозулова С.А. Авиационная медицина: Руководство. Москва. Медицина. 1986. 580 с.
27. Сикарев А., Лебедев О. Микроэлектронные устройства формирования и обработки сложных сигналов. М.: Радио и связь, 1983.
28. Соркин Р. Представление слуховой и тактильной информации. Человеч. фактор. Т.5. М.: Мир. 1992. С. 175-221.
29. Тарасова М.А., Баронкин В.М., Дубровский H.A. Статистическая оценка предельных возможностей слухового обнаружения при настройке на сигнал определенного направления // Сенсорные системы. 1988. Т.2. No 2. С. 177-186.
30. Шило В.Л. Популярные цифровые микросхемы: Справочник. М.: Радио и связь, 1989. 352 С.
31. Agranovski A.V., Evreinov G.E. Converting of visual graphic information into sound images Hint. Conf. "New technologies in the education of the visually handicaped", Paris 10-11 Juin 1996. V 2, pp. 28-30.
32. Agranovski A.V., Evreinov G.E., Yashkin A.S. Graphic Audio Display for the Blind //Interdisciplinary Aspects in Computers Helping People with Special Needs. 5th Int. Conf. ICCHP'96 Linz, Austria, July 1996, pp. 539-542.
33. Agranovski A.V., Evreinov G.E. The design of the tool methods in the distance learning for visually impaired //The Second International Conference on Distance Education in Russia. ICDED'96 Moscow 2-5 July, 1996. V. 2, pp. 268-270.
34. Agranovski A.V., Evreinov G.E. Translating of visual graphic information into sound //Fouth Int. Congress on sound and vibration, St. Petersburg 24-27 June 1996. V 1, pp. 301-304.
35. Agranovski A.Y., Evreinova T.G., Evreinov G.E. Alternative pointing devices: some emphasises at designing of visual-independent HC-interface //Computers and Assistive Technology ICCHP'98. Proceedings of XV IFIP World Computer Congress Vienna/Austria and Budapest/Hungary, 31 August - 4 September 1998, pp. 517-518.
36. Altman J.A. Role of the higher parts of the auditory system in the location of a moving sound source //Journal of Neuroscience and Behavioral Psychology, 1984. V.14. No 3, pp. 200-205.
37. Astheimer, P. Sonification tools to supplement dataflow visualization. In: Palamidese P. Scientific Visualization: Advanced Software Techniques. E. Horwood 1993, pp. 15-36.
38. Ballas J.A., Fouad H., Hahn J.K. Perceptually based scheduling algorithms for realtime synthesis of complex sonic environments //the Fourth Int. Conference on Auditory Display. Palo Alto, CA, USA, Nov. 3-5, 1997, pp. 77-81.
39. Barker P. Interactive Electronic Books //Interactive Multimedia, 1991. V. 2, No 1, pp. 11-28.
40. Bass L., Kasabach Ch., Martin R., et all. The Design of a Wearable Computer //CHI 97 Electronic Publications, 1997. http://www.acm.org/sigchi/chi97/proceedings/paper
41. Blattner M.M., Sumikawa D.A. and Greenberg R.M. Earcons and Icons: Their Structure and Common Design Principles //Human-Computer Interaction, 1989. V. 4. No l,pp. 11-44.
42. Borenstein J., Koren Y. Fast motion in unknown environments with NavBelt: A sophisticated electronic travel aid for the blind //J. Rehabil. Res. and Dev. 1991. V. 28. No 1, pp. 390-402.
43. Boyd L.H., Boyd W.L. and Vanderheiden G.C. The graphical user interface: Crisis, danger and opportunity //Journal of Visual Impairment and Blindness, 1990. No 12, pp. 496-502,.
44. Bregman A.S., Rudnicky A.I. Auditory segregation: Stream or streams? //Journal of Experimental Psychology: Human Perception & Performance, 1975. VI. No 3, pp. 263267.
45. Brewster S.A., Wright P.C. and Edwards A.D.N. A detailed investigation into the effectiveness of earcons. /G. Kramer Auditory Display Proceedings of the First International Conference on Auditory Display, Reading, Massachusetts: Addison-Wesley, 1994, pp. 471-498.
46. Brewster S.A., Wright P.C. and Edwards A.D.N. Experimentally derived guidelines for the creation of earcons //Proceedings of HCI'95: People and Computers, 1995, pp. 155-159.
47. Brewster S.A., Wright P.C. and Edwards A.D.N. The design and evaluation of an auditory-enhanced scrollbar. //Proceedings of ACM Chi'94, Reading, Massachusetts, Addison-Wesley, 1994, pp. 173-179.
48. Brewster S.A., Wright P.C., Dix, A.J. and Edwards A.D.N. The sonic enhancement of graphical buttons //Human Computer interaction. Proceedings of Interact '95 Lillehammer, Norway 1995, pp. 43-48.
49. Chapin W.L. and Foster S.H. Virtual Environment Display for a 3D Audio Room Simulation. //Proceedings of the SPIE - The International Society for Optical Engineering, Vol. 1669. Stereoscopic Displays and Applications III., pp. 256-267. Bellingham, WA: SPIE, 1992.
50. Cohen M. & Ludwig L.F. Multidimensional audio window management // International Journal of Man-Machine Studies, 1991. V.34, pp. 319-336.
51. Cohen M. and Koizumi N. Virtual Gain for Audio Windows //Proceedings of the IEEE Symposium on Research Frontiers in Virtual Reality. Los Alamitos, CA: IEEE Society Press, 1993, pp. 85-91.
52. Cohen M. Integrating Graphie and Audio Windows. Presence: Teleoperators and Virtual Environments, 1993. V. 1. No 4, pp. 468-481.
53. Cohen M. Throwing, pitching and catching sound: Audio windowing models and modes //International Journal of Man-Machine Studies, 1993. V.39, pp. 269-304.
54. Coleman P.D. An analysis of cues to auditory depth perception in free space // Psychol. Bull. 1963. V. 60. No 3, pp. 302-315.
55. Coleman P.D. Dual role of frequency spectrum in determination of auditory distance // J. Acoust. Soc. Amer. 1968. V. 44. No 2, pp. 631-632.
56. Coren S. Subjective contours and apparent depth //Psychological Review, 1972. V.79, pp. 359-367.
57. Darvishi A. A visual user interface for creation and manipulation of auditory scenes // Proc. of the Fourth Int. Conference on Auditory Display. Palo Alto, CA, USA, November 3-5, 1997, pp. 125-127.
58. Durlach N.I., Woods W.S., Colburn H.S., Wenzel E. On the externalization of auditory images // Presence, 1992. V. 1. No 2, pp. 251-257.
59. Edwards A.D.N, Pitt I.J., Brewster S.A. & Stevens R.D. Multiple Modalities in Adapted Interfaces /Extra-Ordinary Human-Computer Interaction. Edwards A.D.N. (ed.), Cambridge University Press, Cambridge, England, 1995, pp. 221-244.
60. Edwards A.D.N. and Stevens R.D. Mathematical representations: Graphs, curves and formulas //Proceedings of the INSERM Seminar Non-visual presentations of data in human-computer interactions, Paris, March 1993, pp. 181-194.
61. Edwards A.D.N. Computers and people with disabilities /In A.D.N. Edwards ExtraOrdinary Human-Computer Interaction, New York: Cambridge University Press 1995, pp. 19-44.
62. Edwards A.D.N. Graphical User Interfaces and Blind People //Proceedings 3rd International Conference on Computers for Handicapped Persons, Vienna, July 1992, pp. 114-119.
63. Edwards A.D.N. Modelling blind users' interactions with an auditory computer interface //Int. Journal of Man-Machine Studies, 1989. V. 30. No 5, pp. 575-589.
64. Edwards A.D.N. Soundtrack: An auditory interface for blind users //Human Computer Interaction, 1989. V. 4. No 1, pp. 45-66.
65. Edwards A.D.N. The design of auditory interfaces for visually disabled users // Proceedings of CHI'88 : Human Factors in Computing Systems, Washington, DC, May 1988, pp. 83-88.
66. Edwards A.D.N., and T.M. O'Shea Making graphics-based programming systems usable by blind people //Interactive Learning International, 1986. V. 2. No3, pp. 11-12.
67. Foster S. and Wenzel E. Three Dimensional Auditory Displays. //Proceedings of EC2, Informatique '92, International Conference Interface to Real and Virtual Worlds 1992, p. 41-47.
68. Fu C. A "Hands-Off ' Workstation /Cognitive Engineering in the Design of HumanComputer Interaction and Expert Systems, Amsterdam, Netherlands: Elsevier Science Publishers 1987, pp. 423-430.
69. Gaver W.W. The sonicfmder: An interface that uses auditory icons //Human Computer Interaction, 1989. No 4, pp. 67-94.
70. Gregory R.L. Cognitive contours. //Nature, 1972. V. 238, pp. 51-52.
71. Grinstein G.G. and Pickett R.M. Exvis - an exploratory visualization environment //Proceedings of Graphics Interface '89, 1989, pp 312-334.
72. Hartmann W.M., Rakerd B. Auditory spectral discrimination and the localization of clicks in the saggital plane // J.Acoust. Soc. Amer. 1993-94. No 4, pp. 2083-2092.
73. Hollander A. An Exploration of Virtual Auditory Shape Perception. M.S. Thesis, 1994. HITL Washington State Univ. http://www.hitl.washington.edu/public/hollander.
74. Itoh K., Yonezawa Y. Support system for the blind using feedback of sound imaing signals // J.Microcomput. Appl., 1990. V. 13. No 2, pp. 117-183.
75. King J., Weghorst S. Ear Tracking: Visualizing Auditory Location Strategies // Proceedings of CHI '95, Denver, Colorado, USA, 1995, pp. 214-215.
76. Kuroki S. The influence of light stimulus upon hearing //Japanese Journal of Psychology, 1937, No 12. /Цит. по Кравков C.A. Взаимодействие органов чувств. АН СССР, Москва-Ленинград, 1948.
77. Kurze M. TDraw: A computer-based tactile drawing tool for blind people. In: Proceedings of the ASSETS'96; Vancouver, ВС, Canada 11.-12.04 1996, pp. 131-138.
78. Lakatos S. Recognition of complex auditory-spatial patterns //Perception, 1993. V.22. No 3, pp. 363-374.
79. Lodha S.K., Sheehan В., Pang A.T., and Wittenbrink C.M. Visualizing geometric uncertainty of surface interpolants //Proceedings of Graphics Interface '96, 1995, pp. 238245.
80. Loughborough W. Establihing parameters for a screen reader //ICAART'88: Int. Conf. Assoc. Adv. Rehabil.Technol. Montreal. 25-30 June 1988. Ottawa, 1988. pp. 208-209.
81. Madhyastha T. and Reed D. Data sonification: Do you hear what I see? IEEE Software, 1995. V. 12. No 2, pp. 85-90.
82. McQueen C., MacKenzie I.S., & Zhang S.X. An extended study of numeric entry on pen-based computers //Proceedings of Graphics Interface '95, Toronto: Canadian Information Processing Society, 1995, pp.215-222.
83. Meijer P.B.L. An Experimental System for Auditory Image Representations. // IEEE Transactions on Biomedical Engineering, 1992. V. 39. No. 2, pp. 112-121.
84. Meijer P.B.L. Cross-Modal Sensory Streams //ACM SIGGRAPH 98, Conference Abstracts and Applications, 1998, pp. 184-195.
85. Meijer P.B.L. Image audio transformation system, particularly as a visual aid for the blind//Заявка No 0410045 ЕПВ МКИ 5 A 61 F 9/08. Опубл. 30.01.91.
86. Minghim R. and Forrest A.R. An illustrated analysis of sonification for scientific visualization. Proceedings of IEEE Visualization '95, 1995, pp. 110-117.
87. Mynatt E.D., and Edwards W.K. Mapping GUIs to Auditory Interfaces //Proceedings of the ACM Symposium on User Interface Software and Technology. New York, USA: ACM. 1992, pp. 61-70.
88. Ng S.S. Sonic electronic guide for the blind // Proc. Annu. Int. Conf. IEEE Eng. Med. and Biol.Soc. Orlando. Fla. Oct. 31-Nov. 3. 1991, pp.1920-1924.
89. Perrott D. Descrimination of the spatial distribution of concurrently active sound sources: Some experiments with stereophonic arrays. //Journal of the Acoustic Society of America, 1984. V. 76. No 6, pp. 1704-1712.
90. Perrott D. Concurrent minimum audible angle: A re-examination of the concept of auditory spatial acuity. // Journal of the Acoustical Society of America, 1984. V.75. No 4, pp. 1201-1206.
91. Pitt I.J. & Edwards A.D.N. Making Line Graphs Accessible to Blind Students //Dept. of Computer Science, Univ. of York, Heslington, UK, 1992 (http://simsrv.cs.uni-magdeburg.de/~pitt/ian.html)
92. Pitt I.J. and Edwards A.D.N. Navigating the Interface by Sound for Blind Users //Proceedings of the HCI'91 Conference, Cambridge Univ. Press, 1991, pp. 373-383.
93. Pitt I.J. and Edwards A.D.N. Pointing in an auditory interface for blind users // Intelligent Systems for the 21st Century: Proceedings of the 1995 IEEE International Conference on Systems, Man and Cybernetics. V. 1, pp. 280-285.
94. Rosenberg L.B. Adding a realistic sense of FEEL to the Computing Experience. //Technical Report: F41624-96-C-6029, USAF Armstrong Lab., Wright-Patterson AFB OH, USA, 1997, http://www.force-feedback.com
95. Rosenblum L., Carello C., Pastore R. Relative effectiveness of three stimulus variables for locating a moving sound source //Perception, 1987. V.16. No 1, pp. 175186.
96. Ruff R.M., Perret E. Auditory spatial pattern perception aided by visual choices. // Psychological Research, 1976. V. 38. No 4, pp. 369-377.
97. Scaletti C. Sound synthesis algorithms for auditory data representations /G. Kramer, Auditory Display: Sonification, Audification, and Auditory Interfaces, Addison-Wesley, 1994, pp.223-251.
98. Schiller P. Interrelation of different senses in perception //Brit. J. Psychology 1935. No 25. Цит. по: Кравков C.A. Взаимодействие органов чувств. АН СССР, Москва-Ленинград, 1948.
99. Sellen A.J., Kurtenbach G.P., Buxton W.A.S. The Prevention of Mode Errors Through Sensory Feedback //Human-Computer Interaction, 1992, V. 7, pp. 141-164.
100. Shimizu Y., Shinohara M., Nagaoka H. A tactile display for mouse operation by blind computer user //Interdisciplinary Aspects on Computers Helping People with Special Needs, ICCHP'96, Linz, Verlag R. Oldenburg, Wien Munchen 1996, pp. 755-760.
101. Shinohara M., Shimizu Y., Nagaoka H. Experimental study of 3D tactile display: a step towards the improvement //Interdisciplinary Aspects on Computers Helping People with Special Needs, ICCHP'96, Linz, Verlag R. Oldenburg, Wien Munchen 1996, pp. 749-754.
102. Talor Ch.R., Hodges J.E. Computer access technology for people with several visual disabilities: development, evaluation, and dissimination of a knowledge - based expert system //J. Rehabil. Res. and Dev. 1991. V. 28. No 1, pp.381-382.
103. The PHANToM Haptic Interface from SensAble Technologies, Inc. Cambridge, MA, USA. THE ASEL HAPTIC PAGE, 1996, http.V/www. asel.udel.edu
104. Thurlow W.R., Mangels J.W., Runge P.S. Head Movements during Sound Localization //J. of the Acoustical Society of America, 1967. V. 42. No 2, pp. 480-493.
105. Tobin M.J., Bozic N.M. Microcomputer software for blind and partially sighted people //J. Reabil. Res. and Dev. 1991.V.28. No 1, pp. 385-386.
106. Wenzel E.M., Stone P.K., Fisher S.S. and Foster S.H. A System for Three-Dimensional Acoustic "Visualization" in a Virtual Environment Workstation // Proceedings of the First IEEE Conference on Visualization, Visualization '90. Los Alamitos, CA: IEEE Computer Society Press 1993, pp. 329-337.
107. Wilson C.M. Listen: A data sonification toolkit. M.S. Thesis, Dept. of Computer Science, University of California, Santa Cruz, 1996. ftp://ftp.cse.ucsc.edu/.
108. Wood C. Evaluation of the Software Package "Soundgraph". 1993. Univ. of York. England, http://www.cs.york.ac.uk/~papers.html.
109. Woods W.S., Colburn St. Test of model of auditory object formation using intensity and interaural time difference discrimination //J. Acoust.Soc.Amer. 1992. V. 91. No 5. pp. 2894-2902.
110. 3D information display unit for the blind // Techo Jap. 1992.V. 25. N 8. P.102.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.