Системы интерфейсов человек-компьютер на основе анализа спектральных особенностей биомедицинских сигналов и гибридного интеллекта тема диссертации и автореферата по ВАК РФ 05.13.01, доктор наук Туровский Ярослав Александрович
- Специальность ВАК РФ05.13.01
- Количество страниц 463
Оглавление диссертации доктор наук Туровский Ярослав Александрович
ВВЕДЕНИЕ
1 СОВРЕМЕННОЕ СОСТОЯНИЕ ГИБРИДНО-ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ В ИНТЕРФЕЙСАХ ЧЕЛОВЕК-
КОМПЬЮТЕР
1. 1 Моделирование интерфейсов мозг компьютер
1.1.1 Общие вопросы моделирования эргатических систем
1.1.2 Моделирование в задачах прогноза поведения пользователя эргатическими системами
1.1.3 Эргатические системы гибридного интеллекта
1.2 Вейвлет- и Фурье-анализ в задачах обработки медико-биологических сигналов, служащих командами для систем БОС и интерфейсов человек-компьютер
1.2.1 Анализ фоновой ЭЭГ и вызванных потенциалов с использованием вейвлет-преобразования
1.2.2 Фурье- и вейвлет-преобразование в задачах интерфейса мозг-компьютер
1.2.3 Спектральные методы в оценке ЭКГ и ВСР
1.2.4 Генетические алгоритмы в задачах цифровой обработки сигналов
1.3 Эмоционально-зависимые (стресс-зависимые) интерфейсы и вычисления
1.3.1 Роль эмоций в эргатических системах
1.3.2 Способы оценки эмоций и функционального напряжения пользователя. «Аффективные» вычисления
1.3.3 Характеристика методов анализа состояния пользователя на основе видеоизображений
1.3.4 Характеристика методов анализа состояния
пользователя на основе кожно-гальванической реакции
и паттернов дыхательной активности
1.3.5 Характеристика методов анализа
вариабельности сердечного ритма
2 МЕТОД АНАЛИЗА ОСОБЕННОСТЕЙ МЕДИКО-БИОЛОГИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ ЛОКАЛЬНЫХ ЭКСТРЕМУМОВ ИХ СПЕКТРОВ
2.1 Спектральный анализ ЭЭГ на основе использования непрерывного вейвлет-преобразования
2.2 Локализованный спектральный анализ энцефалограмм
2.3 Обработка данных ЭЭГ на основе анализа частотных зависимостей и вейвлет-преобразования
2.4 Анализ электроэнцефалограмм на основе исследования изменяющейся во времени структуры локальных максимумов матрицы вейвлет-коэффициентов
2.5 Моделирование выделения и анализа цепочек локальных максимумов вейвлет-спектров на примере сигналов с известными свойствами
2.6 Моделирование процесса выделения частотных локальных минимумов в сигналах электроэнцефалограмм
2.7 Сравнение эффективности различных вейвлетов для анализа электроэнцефалограмм
2.8 Частотные параметры цепочек локальных максимумов
2.9 Энергетические показатели цепочек локальных максимумов
2.10 Динамика цепочек локальных максимумов спектров электроэнцефалограмм человека
2.11 Анализ энцефалограмм на основе исследования
цепочек локальных максимумов скейлограмм
2.12 Исследование динамики максимумов локальных
вейвлет-спектров вызванных зрительных потенциалов
головного мозга
2.13 Заключение к главе
3 РАЗРАБОТКА ЦИФРОВЫХ ФИЛЬТРОВ ОСОБЕННОСТЕЙ МЕДИКОБИОЛОГИЧЕСКИХ СИГНАЛОВ В СИСТЕМАХ ЧЕЛОВЕКО-МАШИННЫХ ИНТЕРФЕЙСОВ
3.1 Метод оценки взаимодействия локальных экстремумов для матриц коэффициентов непрерывного вейвлет-преобразования сигналов ЭЭГ
3.2 Выделение компонент сигнала ЭЭГ на основе анализа цепочек локальных экстремумов матрицы вейвлет-преобразования
3.3 Создание фильтров для анализа ЭЭГ-состояний на
основе генетических алгоритмов
3.4 Оптимизация работы синхронного нейрокомпьютерного интерфейса на основе селекции каналов
электроэнцефалограммы
3.5 Оценка активности участков головного мозга на основе классификации цепочек частотных локальных экстремумов
в сигналах электроэнцефалограмм
3.6 Исследование вызванных потенциалов головного мозга на основе адаптивного варианта обратного вейвлет-преобразования
3.7 Заключение к главе
4 МОДЕЛИРОВАНИЕ НЕЙРОКОМПЬЮТЕРНОГО ИНТЕРФЕЙСА НА ОСНОВЕ АКТИВНОСТНОЙ ПАРАДИГМЫ И ГИБРИДНОГО ИНТЕЛЛЕКТА
4.1 Оценка скорости работы нейрокомпьютерного интерфейса, основанного на технологии SSVEP
4.2 Увеличение скорости передачи информации по
нейрокомпьютерному интерфейсу на основе оценки частот встречаемости последовательности символов в командах
4.3 Оптимизация работы нейрокомпьютерного интерфейса с учетом поведения человека
4.4 Математическая модель нейрокомпьютерного интерфейса на основе активностной парадигмы
4.5 Прогноз эффективности нейрокомпьютерного интерфейса, основанного на активностной парадигме
4.6 Оценка скорости работы нейрокомпьютерного интерфейса, реализованного с использованием гибридного интеллекта
4.7 Моделирование дополнительного канала обратной связи
в нейрокомпьютерных интерфейсах
4.8 Заключение к главе
5 ОСОБЕННОСТИ РЕАЛИЗАЦИИ СИСТЕМЫ РАСПРЕДЕЛЁННО-ПАРАЛЛЕЛЬНЫХ ВЫЧИСЛЕНИЙ, ОБЕСПЕЧИВАЮЩЕЙ МОДЕЛИРОВАНИЕ И ФУНКЦИОНИРОВАНИЕ ЧЕЛОВЕКО-МАШИННЫХ ИНТЕРФЕЙСОВ
5.1 Реализация численного вейвлетного преобразования на графических адаптерах архитектуры NVIDIA CUDA
5.2 Фактор времени при реализации непрерывного вейвлет-преобразования для анализа электроэнцефалограмм
5.3 Выбор анализирующих вейвлетов для системы с параллельной обработкой биомедицинских данных
5.4 Реализация системы распределённо-параллельных вычислений
5.5 Заключение по главе
6 РАЗРАБОТКА СИСТЕМ НЕПРОИЗВОЛЬНО УПРАВЛЯЕМЫХ ЧЕЛОВЕКО-МАШИННЫХ ИНТЕРФЕЙСОВ НА ОСНОВЕ ОЦЕНКИ ФУНКЦИОНАЛЬНОГО НАПРЯЖЕНИЯ ПОЛЬЗОВАТЕЛЯ
6.1 Применение систем биологической обратной связи для целей управления внешними устройствами
6.2 Особенности проектирования НФ-зависимого человеко-машинного интерфейса
6.3 Сравнительные характеристики непроизвольно управляемых функционально-зависимых человеко-машинных интерфейсов
6.4 Дополнительный канал для оценки эмоциональной динамики человека при работе с нейрокомпьютерным интерфейсом
6.5 Заключение к главе
7 ЗАКЛЮЧЕНИЕ
СПИСОК СОКРАЩЕНИЙ
СПИСОК ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ А.
СПИСОК ПУБЛИКАЦИЙ АВТОРА ПО ТЕМЕ
ДИССЕРТАЦИИ
ПРИЛОЖЕНИЕ Б.
КОПИИ ПАТЕНТОВ НА ИЗОБРЕТЕНИЕ
ПРИЛОЖЕНИЕ В.
СВИДЕТЕЛЬСТВА О ГОСУДАРСТВЕННОЙ РЕГИСТРАЦИИ
ПРОГРАММ ДЛЯ ЭВМ
ПРИЛОЖЕНИЕ Г.
КОПИИ АКТОВ О ВНЕДРЕНИИ
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Разработка методов и алгоритмов для классификации многомерных временных рядов в интерфейсе мозг-компьютер2020 год, кандидат наук Сотников Петр Иванович
Методы, алгоритмы и программный комплекс для построения естественного человеко-компьютерного взаимодействия на основе жестов2015 год, кандидат наук Стародубцев Илья Сергеевич
Многоканальный человеко-машинный интерфейс для интеллектуальных киберфизических комплексов2024 год, кандидат наук Возненко Тимофей Игоревич
Интерфейс мозг-компьютер на волне Р300: исследование эффектов повторения и движения стимулов2013 год, кандидат биологических наук Ганин, Илья Петрович
Метод и алгоритмы анализа данных электроэнцефалографии для верификации субъекта2023 год, кандидат наук Светлаков Михаил Олегович
Введение диссертации (часть автореферата) на тему «Системы интерфейсов человек-компьютер на основе анализа спектральных особенностей биомедицинских сигналов и гибридного интеллекта»
ВВЕДЕНИЕ
Актуальность темы исследования. В разработке и совершенствовании эргатических систем в последнюю четверть века наметился существенный прогресс, связанный, в первую очередь, с появлением новых аппаратных решений, позволяющих реализовать ресурсоёмкие алгоритмы управления. Как следствие, развитие современных информационных технологий, в сочетании с достижениями медицины и, особенно, физиологии, дало возможность создать большое количество устройств, относящихся к классу интерфейсов человек-компьютер, действующих «в обход» или как альтернатива традиционных каналов коммуникации: клавиатуры, джойстика, мыши и т.д. При этом области применения данных технологий достаточно обширны. Так, решения в области реабилитации могут быть направлены, например, на восстановление функционала больных. Они могут осуществляться в двух основных направлениях: тренировка самого пациента путем совершенствования оставшегося функционала и тренировка с целью замещения утраченных функций программно-аппаратными решениями; усовершенствование уже существующих интерфейсов управления, например, компьютером или автомобилем, за счёт появления новых возможностей в рамках концепции так называемого «дополненного управления», когда новые коммуникационные каналы не подменяют существующие, а дополняют их. Развитием этого подхода являются попытки использования подобных разработок в военной сфере, в первую очередь в авиации. Считается, что, например, интерфейс мозг-компьютер (нейрокомпьютерный интерфейс, ИМК, НКИ) (Wolpaw J. R., Nicolelis M. A. L., Ortiz-Rosario A. , Zhu D., Garcia G. L., A. Farwell, E. Donchin, Каплан А.Я.,Фролов А.А.) имеет потенциальную скорость передачи команд, значимо превышающую существующие программно-аппаратные решения, в первую очередь за счёт исключения из цепочки передачи команд временной задержки, вызванной перемещением «команды» по проводящим путям головного мозга и мышцам. Однако, фактические параметры реализации группы т.н. альтернативных
(классическим) интерфейсов человек-компьютер существенно уступают как теоретически возможным, так и ожидаемым, если сравнивать прогнозы десяти-пятнадцатилетней давности. Традиционные подходы, несмотря на существенный теоретический задел (Венда В.Ф., Гарькина И.А.), в целом не решают проблему увеличения скорости управления внешними устройствами и в рамках концепции «дополненного управления». Весьма перспективный задел в области реабилитации больных пока не позволяет определить, для каких групп пациентов он будет достаточно успешен, в первую очередь потому, что не решена проблема эффективности освоения того или иного типа альтернативных интерфейсов. Несмотря на наличие ряда основополагающих работ (Picard R. W., Minsky, M., Гоулман, Д.), научным сообществом уделено недостаточно внимания проблеме ограниченности коммуникаций с использованием классических интерфейсов «человек-компьютер» и «человек-компьютер-человек», традиционно использующих либо текстовые сообщения, либо достаточно ограниченный набор звукового и/или визуального ряда. Таким образом, ключевыми проблемами, стоящими на данном этапе развития интерфейсов человек-компьютер, являются: увеличение скорости коммуникации, улучшение эргономичности, расширение спектра коммуникационных возможностей. Работа над разрешением указанных проблем в направлении совершенствования распознавания паттернов мозговой активности, формирование гибридно-интеллектуальных систем, непроизвольно-управляемых интерфейсов позволит достигнуть значимых результатов в совершенствовании процессов реабилитации, будет способствовать выходу на новый уровень общения «человек-компьютер» и «человек-компьютер-человек» в том числе и в задачах маркетинга, генерации мультимедийного контента, появлению новых подходов к исследованию мозга человека и операторской деятельности, что станет существенным шагом в создании новых эргатических систем. Диссертационная работа выполнена на кафедре цифровых технологий Воронежского государственного университета. Работа поддержана грантами
РФФИ09-01-97530р_центр_а, 16-29-08342-офи_м, грантами Национальной ассоциации развития информационных технологий, грантом фонда поддержки предпринимательства в научно-технической сфере по программе Майкрософт СТАРТ 2009, грантом фонда «Династия» по программе «Научный музей в 21 веке», программами поддержки инновационных проектов в 2010-2011 и в 2011-2012 годах Лаборатории Касперского, Стипендией президента Российской Федерации 2012 года.
Объектом исследования являются системы человеко-машинных интерфейсов (включая нейрокомпьютерные), генерируемые ими медико-биологические сигналы, используемые для создания систем нейрокомпьютерных интерфейсов и систем биологической обратной связи, модели систем человеко-машинных интерфейсов (включая нейрокомпьютерные).
Предмет исследования - методы разработки систем человеко-машинных и нейрокомпьютерных интерфейсов, биомедицинские временные ряды, используемые для управления системами нейрокомпьютерных интерфейсов, систем биологической обратной связи и методы их анализа; методы математического моделирования систем нейрокомпьютерных и стресс-зависимых интерфейсов. При выполнении работы использовались базовые положения теории систем, эргатических систем, гибридного интеллекта, теории алгоритмов, цифровой обработки сигналов, методы теории вероятности, численные методы, статистические методы обработки данных, теории игр.
Целью исследования является разработка методологии создания человеко-машинных интерфейсов на основе анализа спектральных особенностей биомедицинских сигналов и гибридного интеллекта; обобщение научных достижений, разработка теоретических основ и практических решений в создании интерфейсов человек-компьютер с использованием парадигмы непроизвольного управления и гибридного интеллекта для улучшения параметров человеко-машинного взаимодействия.
Достижение цели обеспечено решением следующих задач.
1. Разработка методологии, принципов, моделей и методов создания систем нейрокомпьютерного интерфейса на основе активностной парадигмы и гибридного интеллекта с последующей верификацией.
2. Создание системы детектирования, обработки и передачи непроизвольных, генерируемых человеком команд компьютеру (или устройству на его основе) для изменения параметров функционирования операционных систем и иных программных продуктов.
3. Разработка методов и алгоритмов анализа медико-биологических сигналов на основе построения цепочек локальных экстремумов матрицы вейвлет-преобразования для реализации в эргатической системе.
4. Создание метода и алгоритмов, реализованных в эргатической системе, на основе выделения областей сближения локальных экстремумов матрицы вейвлет-преобразования.
5. Разработка методов и алгоритмов построения фильтра медико-биологических сигналов на основе структуры цепочек локальных экстремумов матрицы вейвлет-преобразования и генетических алгоритмов в задачах синтеза систем человеко-машинного интерфейса, обеспечивающего управление внешними устройствами.
Научная новизна исследования заключается в создании систем интерфейсов человек-компьютер, методологии, методов, моделей, алгоритмов моделирования и разработки интерфейсов человек-компьютер, включая нейрокомпьютерные и стресс-зависимые, а также обработки сигналов, генерируемых нервной системой человека.
1. Разработана методология, включающая методы и алгоритмы создания эргатических систем (стресс-зависимых и мозг-компьютер), отличающиеся тем, что они были реализованы на основе активностной парадигмы и гибридного интеллекта, обеспечивающих увеличение скорости работы интерфейса человек-компьютер, построение интерфейсов на принципах распределения решаемых задач между программно-аппаратной частью и
пользователем с выбором первой необходимых алгоритмов обработки команд человека, обеспечение возможности модифицировать разработку и управление эргатическими системами (пп. 9, 11, 12 паспорта специальности 05.13.01).
2. Впервые предложены методы и алгоритмы анализа медико-биологических сигналов, отличающиеся тем, что основой подхода является выделение областей сближения локальных экстремумов матрицы вейвлет-преобразования, полученной при анализе сигнала, генерируемого исследуемой системой, и позволяющие выявлять новую значимую информацию для экспериментальных (выделение паттернов мозговой активности, вариабельности сердечного ритма), клинических исследований (выделение вызванных потенциалов головного мозга) и создания эргатических систем (стресс-зависимых и мозг-компьютер) в задачах детекции команд в системах интерфейсов человек-компьютер) (пп.5, 6 паспорта специальности 05.13.01).
3. Разработаны принципы проектирования и реализации системы интерфейса передачи непроизвольных, генерируемых человеком команд компьютеру, отличающиеся тем, что созданная эргатическая система может быть использована в формировании элементов искусственного эмоционального интеллекта системы человек-компьютер (пп. 4, 6, 9 паспорта специальности 05.13.01).
4. Предложен и реализован подход к разработке интерфейсов человек-компьютер на основе команд, полученных при обработке медико-биологических сигналов, отличающийся тем, что основой подхода являются методы и алгоритмы, обеспечивающие оценку частотно-временных паттернов исследуемых сигналов и позволяющие выявлять новую значимую информацию для экспериментальных (выделение паттернов мозговой активности, вариабельности сердечного ритма) и клинических исследований (выделение вызванных потенциалов головного мозга), конструирования эргатических систем, распознающих частотно-временные особенности
исследуемых сигналов (например, амплитуд и латентного времени вызванных потенциалов), порождаемых нервной системой (пп.5, 6 паспорта специальности 05.13.01).
5. Предложены принципы и методы построения фильтра медико-биологических сигналов для классификации состояния эргатических систем человек-компьютер (стресс-зависимых и мозг-компьютер), отличающиеся тем, что на основе структуры цепочек локальных экстремумов матрицы вейвлет-преобразования и генетических алгоритмов, обеспечивающих эргатически-значимую (например, концентрация внимания) интерпретацию полученных данных, формируются команды для интерфейсов человек-компьютер (пп.5, 6, 9 паспорта специальности 05.13.01).
Теоретическая значимость заключается в получении новых научных результатов в области исследования эргатических систем (стресс-зависимых и мозг-компьютер) и цифровой обработки сигналов биомедицинской природы, необходимых для формирования корректных управляющих команд в рамках эргатических систем. Разработанные и апробированные алгоритмы обработки электроэнцефалограммы позволяют выявить ряд частотно-временных особенностей сигнала, отражающих деятельность мозга и необходимых при разработке эргатических систем, при работе в широком спектре условий, включая когнитивные задачи и вызванные потенциалы различной природы, служащие командами в эргатических системах. Алгоритмы создания адаптивных фильтров на основе вейвлет-преобразования открывают возможности создания новых индивидуальных подходов к анализу систем и органов человека, учитывающих, например, спектральные характеристики вариабельности сердечного ритма. Разработанные модели эргатических систем на основе гибридного интеллекта и активностной парадигмы позволяют модифицировать проектирование и управление созданными эргатическими системами по типу нейрокомпьютерного или непроизвольно-управляемого стресс-зависимого интерфейса. Непроизвольно-управляемые стресс-зависимые интерфейсы
позволяют выйти на новый уровень формирования эргатических систем, заключающийся в появлении у программно-аппаратных решений элементов искусственного эмоционального интеллекта.
Практическая значимость. Созданные в рамках работы методы, модели, алгоритмы как элементы эргатических систем могут найти применение в исследованиях медико-биологических процессов различной природы. К таковым процессам можно отнести сигналы электроэнцефалографической, кардиографической природы, которые, в свою очередь, могут быть использованы как источники команд для интерфейсов человек-компьютер или систем биологической обратной связи, в качестве технологий управления самоходными шасси, дронами, миопротезами и компьютером, что найдёт применение в реабилитации больных неврологического, ортопедического и кардиологического профиля. Отдельно следует отметить значимость результатов работы для разработки нового мультимедийного контента, в частности, игровых приложений, социальных сетей, мессенджеров. Результаты работы могут быть применены в поведенческой экономике, нейромаркетинге для изучения особенностей поведения человека в условиях выбора решений.
Практическая ценность подтверждена внедрением результатов диссертации в педагогическом процесс в Воронежском государственном университете при чтении спецкурсов, выполнении курсовых и выпускных квалификационных работ, в научной работе в Воронежском государственном медицинском университете, Первом Московском государственном медицинском университете имени И.М. Сеченова, МГХПА им. Строганова, Северо-восточном федеральном университете им. М.К.Аммосова, ИПУ им. В.А Трапезникова РАН. Элементы диссертации в виде методов, алгоритмов, программ, эргатических систем применяются в исследованиях и реабилитации больных нейрососудистого отделения БУЗ ВО «ВГКБСМП №1», БУЗ ВО ОКБ №1, БУЗ ВО «ВГКБСМП №10» г. Воронежа.
Основные результаты, выносимые на защиту
1. Методология, методы и алгоритмы проектирования и реализации зависимых от функционального напряжения пользователя системы непроизольно-управляемых человеко-машинных интерфейсов (НФ-интерфейсов), обеспечивающие формирование эргатических систем с элементами искусственного эмоционального интеллекта.
2. Метод и алгоритмы анализа медико-биологических сигналов на основе построения цепочек локальных экстремумов матрицы вейвлет-преобразования, которые обеспечивают выделение особенностей сигнала, в задачах медико-биологических исследований (например, компонентов вызванных потенциалов головного мозга) и построения систем человеко-машинных интерфейсов.
3.Метод и алгоритмы анализа медико-биологических сигналов на основе выделения областей сближения локальных экстремумов матрицы вейвлет-преобразования, которые обеспечивают выделение особенностей сигнала для медико-биологических исследований (например, вызванных потенциалов головного мозга), построения новых систем человеко-машинных интерфейсов (например, паттернов, отражающих эмоциональное напряжение пользователя).
4. Принципы разработки, модели, методы, алгоритмы моделирования систем нейрокомпьютерного интерфейса на основе активностной парадигмы и гибридного интеллекта, позволяющие предсказать параметры скорости и точности работы нейрокомпьютерных интерфейсов.
5. Методы и алгоритмы построения цифровых фильтров медико-биологических сигналов на основе структуры цепочек локальных экстремумов матрицы вейвлет-преобразования и генетических алгоритмов, дающие возможность создавать системы принятия решения, индивидуально адаптированные к конкретным задачам разработки интерфейсов мозг-компьютер.
Достоверность полученных результатов подтверждается корректным
использованием апробированного математического аппарата теории систем, математической статистики, цифровой обработки сигналов, теории игр, а также непротиворечивостью разработанных методов и алгоритмов.
Основные положения диссертационной работы были представлены на международных научно-практических конференциях «Информатика: проблемы, методология, технологии», Воронеж, 2006-2011,2013,2014 гг.; региональной межвузовской научно-практической конференции «Национальные проекты как фактор созидания в современной России», Воронеж, 2007; V всероссийской научно-практической конференции «Образовательная среда сегодня и завтра», Москва, 2008; ежегодной Всероссийской научной школы-семинара «Методы компьютерной диагностики в биологии и медицине», Саратов, 2006; 3-го, 4-го, 5-го международного форума «Medsoft», Москва, 2007, 2008, 2009; пятого международного междисциплинарого симпозиума ФиПС - 08, Москва, 2008; Всероссийской научно-практической конференции: «Биотехнология, Биомедицинская инженерия и технология современных социальных практик», Курск, 2009; «Актуальные проблемы прикладной математики информатики и механики», Воронеж, 2009; десятой Всероссийской научно-технической конференции «Теоретические и прикладные вопросы в современных информационных технологиях», Улан-Удэ, 2009; Всероссийской молодежной выставки-конкурса прикладных исследований, изобретении и инноваций, Саратов, 2009; XV, XVI, XVII Всероссийской научно-методической конференции «Телематика», Санкт-Петербург, 20082010; 6-го международного семинара «Физико-математическое моделирование систем», Воронеж, 2010; Всероссийской научно-технической конференции «Перспективные исследования и разработки в области информационных технологий и связи», Воронеж, 2012; Всероссийском форуме «Образовательная среда 2008», Москва 2008; Всероссийском форуме «Образовательная среда 2010», Москва, 2010; XII Всероссийское совещание
по проблемам управлени, Москва, 2014, Всероссийской конференции «Цифровая обработка сигналов 2014», Москва, 2014.
Результаты работы были победителями конкурсов: творческого конкурса 12 Всероссийского форума «Образовательная среда 2010» в номинации «Новые образовательные технологии в ИКТ-насыщенной среде», творческого конкурса 10 Всероссийского форума «Образовательная среда 2008» в номинации «Новые образовательные технологии в ИКТ-насыщенной среде»; всероссийского конкурса «ИТ-прорыв. Твой старт» в номинации «Реализация»; конкурса ИТ-Черноземье 2014 и ИТ-Черноземье 2015, проходивших под эгидой фонда «Сколково».
Личный вклад автора. Основные результаты по теме диссертации получены автором лично. Разработка алгоритмов проводилась самостоятельно, либо совместно с соавторами опубликованных работ. Разработка методов и моделей, проведение экспериментов, статистическая обработка результатов и их интерпретация проводились автором лично.
Публикации. Результаты диссертации опубликованы в 39 печатных изданиях, рекомендованных ВАК РФ (включая четыре, индексируемых в WoS и Scopus), в 30 тезисах докладов и материалах конференций различного уровня, получено 7 патентов на изобретения (из них один включен в перечень «Перспективные российские изобретения» Роспатента) и 27 свидетельств о государственной регистрации программ для ЭВМ. Структура и объём работы. Диссертация состоит из введения, семи глав, заключения, списка литературы из 412 наименований. Объём диссертации 463 станицы, из них 359 страниц основного текста и 112 рисунков Благодарности. Автор выражает глубокую признательность за помощь в работе над диссертацией к.х.н., доц. Л.А.Битюцкой, к.ф.-м.н., доц. С.В.Борзунову, к.ф.-м.н., доц. А.В.Вахтину, к.м.н., доц. Е.В.Киселевой, д.м.н., проф. И.И.Логвиновой, д.м.н., проф. А.Ф. Неретиной, д.м.н., проф. Б.Р.Шумиловичу.
1 СОВРЕМЕННОЕ СОСТОЯНИЕ ГИБРИДНО-ИНТЕЛЛЕКТУАЛЬНЫХ СИСТЕМ В ИНТЕРФЕЙСАХ ЧЕЛОВЕК-КОМПЬЮТЕР 1.1 Моделирование интерфейсов мозг компьютер 1.1.1 Общие вопросы моделирования эргатических систем Широкое, практически повсеместное распространение информационных технологий, в том числе и развитие микроэлектроники, позволило существенно продвинутся в создании новых поколений эргатических (эргономических, биотехнических) систем, т. е. систем, реализующих взаимодействие человек-устройство [110, 58, 152, 115] и являющихся динамическими, т. е., согласно [115], развивающимися во времени. Одним из направлений развития эргатических систем [156] является создание программно-аппаратных решений, регистрирующих команды, генерируемые человеком на иных принципах, чем непосредственная работа верхних конечностей пользователя с клавиатуроподобными устройствами. К таковым решениям можно отнести, например, нейрокомпьютерный интерфейс (синоним - интерфейс мозг-компьютер, ИМК, НКИ) [319, 332, 233, 257, 328, 352, 197, 309, 395, 401]. Причем данный тип интерфейсов человек-компьютер может быть реализован на зрительных вызванных потенциалах [284]. Другим примером могут служить стабилометрические платформы [100], миоэлектрические решения [314] или реакция на жесты [317]. Во всех этих случаях используются так называемые альтернативные каналы коммуникации, в том аспекте, что они альтернативны классическим: клавиатуре, джойстику, мыши или устройствам на их основе. Очевидно, что в целом эти каналы коммуникации требуют иных подходов к формированию эргатических систем. Типовым вариантом такой эргатической системы (рисунок 1.1) являются решения, в которых поступающую из внешней среды информацию обрабатывает сам пользователь, он же генерирует сигналы, которые программно-аппаратная часть интерфейса интерпретирует как команды, направляя на устройства-эффекторы (самоходное шасси, дрон,
компьютер и т. д.). Данный подход имеет ряд недостатков, связанных с относительно низкой скоростью и точностью работы, поскольку практически все команды генерирует пользователь, применяя весьма ограниченный «алфавит», связанный с низкой пропускной способностью программно-аппаратного комплекса (ПАК) интерфейса. Более расширенный вариант системы подразумевает возможности для ПАК самостоятельного решения частных задач управления.
Рисунок 1.1 - Схема эргатической системы управления внешними устройствами с использованием ИМК (НКИ).
По сути, задачи, решаемые в рамках этих подходов, сводятся к использованию физиологических основ [98] для выявления и создания систем, максимально эффективно взаимодействующих с пользователем [50, 23]. В ходе решения таких задач можно выделить, не считая чисто физиологических, следующие междисциплинарные направления: создание интерфейсов компьютер-человек, обеспечивающих быструю передачу зрительной информации пользователю (задача традиционно связана с авиационной тематикой [85]); расширение уже существующих каналов коммуникации человек-компьютер с созданием новых возможностей для передачи информации пользователю; совершенствование устройств для передачи данных по каналу человек-компьютер для различных внешних
управляемых устройств; разработка новых каналов коммуникции человек-компьютер. Последняя задача разбивается на две подзадачи: в одном случае требуется восстановление утраченных пациентом функций (назовём это восстановительное управление), в другом - дополнение существующих функций новыми (назовём это дополненным управлением).
Очевидно, что, исходя из целей, задач, технических возможностей и образовательного профиля специалиста, моделирование систем может радикально различаться. Значительная часть работ посвещена моделированию с использование блок-схем. Такие модели носят общий характер и малоприменимы для получения конкретных результатов.
1.1.2 Моделирование в задачах прогноза поведения пользователя
эргатическими системами
Вопрос моделирования реакции пользователя тех или иных интерфейсов эргатических систем на различные стимулы и в различных условиях является одним из центральных вопросов в задачах эргономики и физиологии труда. Наиболее популярной в настоящее время задачей прогнозирования поведения пользователя является задача прогноза ожидаемого контента и взаимодействия с мультимедиа-устройствами [300]. Однако значительно чаще под «моделированием» подразумевается работа оператора или человека, имитирующего его деятельность на тренажере с той или иной степенью воспроизводства. Так, в [114] лица, считающие себя киберспортсменами, имитировали операторскую деятельность диспетчера железнодорожного транспорта. При этом регистрировались параметры вариабельности сердечного ритма и стабилометрии. Аналогичный подход (только с лётчиками) использован и в [51]. В работе [40], защищённой по психологическим наукам, в качестве модели использовались элементы теории графов. Элементы математического моделирования представлены в серии работ [44, 43], где авторы используют для человеко-машинной системы термин «эргамат». Авторы сообщают о наличии «когнитивного
моделирования», но не детализируют это понятие. В [42] на основе общих подходов к психофизиологии обнаружения сигналов авторы предприняли попытку смоделировать реакцию оператора на экстренный сигнал. Предпринята попытка оценить и смоделировать работу оператора с визуальной информацией [87], связанной с принятием решений, но не связанной с командами управления мобильными устройствами. Близким по идее является имитационное моделирование [109]. Подходы на основе нечётких множеств использовались в [166], где предпринимались попытки моделирования надёжности операторской деятельности. Однако представлено ограниченное количество примеров, не позволяющих оценить верификацию модели. Нечёткая модель применена и в [155, 154]. Физиологические параметры операторской деятельности изучены в [22], однако как таковая модель отсутствует, её, с некоторой долей условности, можно построить на основе табличных данных в статье. Физиологические параметры использовались так же при отсутствии математического моделирования в [104]. В работе [105] моделирование заключается в формировании условий внешней среды, имитирующей экстремальные параметры деятельности оператора. Таким образом, значительная часть работ, выполняемых на территории Российской Федерации, так или иначе носят медико-психологическую направленность. Математические модели разрозненны и не имеют в большинстве случаев верификации.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях2013 год, доктор технических наук Карпов, Алексей Анатольевич
Оценка параметров дикторонезависимых признаков фонем с применением адаптивного частотно-временного анализа2005 год, кандидат технических наук Киселев, Алексей Николаевич
Компьютерные модели и программные средства для исследования биомедицинских систем2011 год, кандидат физико-математических наук Насер Нихад Махмуд
Методы и алгоритмы принятия решений и управления сложными системами на основе анализа сигналов системных ритмов2011 год, кандидат технических наук Белобров, Андрей Петрович
Алгоритмы распознавания речевых команд в управляющих системах2006 год, кандидат технических наук Литвиненко, Сергей Леонидович
Список литературы диссертационного исследования доктор наук Туровский Ярослав Александрович, 2019 год
- - - 1
- - - - - - - _ -
II -
n n П П п П nil
Рисунок 1.8 - Число статей, проиндексированных в базе WoS.
Запрос указан в заголовке гистограммы
Одной из наиболее широко известных ранних работ является [362]. В ней вейвлет-анализ был применён для выделения желудочковых аритмий на ЭКГ. Установлено, что вейвлет-анализ позволяет с большой достоверностью выявлять данную группу аритмий. Успех исследования был связан со способностью вейвлет-анализа выделять разночастотные (разномасштабные) компоненты в одном сигнале. При этом аритмии находятся в области более низких частот (больших масштабах наблюдения), чем нормальные желудочковые комплексы ЭКГ. Благодаря локальному во времени анализу удаётся не только выделить аритмии, но и определить момент их появления.
На основе данного алгоритма авторами была реализована система автоматического распознания экстрасистол. Наряду с исследованием всей ЭКГ, вейвлет-анализ используется и для оценки её фрагментов.
В работе [390] авторы использовали вейвлет-анализ (ВА) для выделения в разные моменты времени разночастотных компонентов ЭКГ и ВСР. По их мнению, вейвлет-анализ позволил выявить ряд элементов сигнала (зубцы и сегменты), обнаружение которых стандартными методами не всегда возможно. В работе [392] наряду с классическим преобразованием Фурье вейвлет-анализ использовался для оценки влияния атропина и пропранолола на ВСР. По мнению авторов, ВА позволил несколько дополнить результаты, полученные классическими методами, в первую очередь за счёт временной развертки динамики частотных компонент. В [376] вейвлет-анализ использовался для оценки ВСР и давления в левом желудочке при ишемии. Установлено изменение как динамики ВСР, так и давления, имеющего частотную динамику, близкую к частоте колебаний симпатических влияний. По мнению авторов, используемый ими метод является хорошим дополнением к классическим методикам оценки автономной нервной системы. В работе [361] вейвлет-анализ используется как метод исследования симпатической активности. При анализе результатов ультразвуковых исследований частоты сердечных сокращений плода, изложенных в [333], применение ВА позволило качественно произвести фильтрацию сигнала. Помимо этого была оценена хаотическая составляющая сигнала и построена модель, прогнозирующая поведение ВСР плода. В [288] проведено сравнительное исследование желудочковых комплексов ЭКГ методом ВА и коротковременным преобразованием Фурье. Авторы указывают, что за счёт сходства формы анализирующего вейвлета с формой желудочкового комплекса применение ВА является более адекватным при исследовании больных с тахикардией. В работе [237] исследуется динамика R-R и О-Т интервалов на основе результатов Холтеровского мониторирования. Использование ВА позволило выявить «эффект памяти»,
согласно которому, по мнению авторов, наблюдается задержка в 3-4 минуты между изменениями ЧСС и изменениями интервала О-Т. Вейвлет-анализ достаточно популярен и при анализе ЭКГ высокого разрешения. Так, в [226] изложены теоретические основы одного из вариантов применения вейвлетного анализа к данному типу сигналов, обоснованы возможности эффективного применения метода. Большинство отечественных прикладных работ в значительной мере используют алгоритмы, изложенные в иностранных работах. Для этого достаточно обратить внимание на работы [182, 212]. Так, в [68] использован метод оценки дисперсии вейвлетных коэффициентов на разных частотах (масштабах). В основу подобного подхода положен метод, изложенный в [69], который, в свою очередь, восходит к работам И. Добеши [263]. В [34] представлено рассмотрение ВСР на основе непрерывного вейвлет-преобразования, однако дальше расчета квадрата коэффициентов вейвлет-преобразования авторы не пошли, ограничившись, по сути, аналогом оконного преобразования Фурье.
1.2.4 Генетические алгоритмы в задачах цифровой обработки сигналов
Генетические алгоритмы(ГА) представляют собой большую группу математических методов, использующих бионические подходы. В данном случае из живой природы был позаимствован эволюционный принцип, заключающийся в конкуренции различных организмов (или даже молекул) за ресурсы. Применительно к задачам обработки сигналов и создания классификаторов [25] это означает, что созданный алгоритм должен обеспечивать поиск оптимума фитнесс-функции, которая и отражает качество его работы.
К примеру, в [20] рассматривается применение генетических алгоритмов для оптимизации работы персептрона. Сама по себе тематика приненения ГА именно в нейросетях достаточно популярна [26, 82, 157]. В [132] указывается на возможность применения ГА для прогноза нечётких временных рядов, однако, не сообщается о результатах верификации данной модели.
Приментиельно к задачам анализа ЭЭГ и ИМК генетические алгоритмы использовались в [186], где стояла задача оптимизации выделения частотного диапазона для асинхронных интерфейсов на основе депрессии ц-ритма. Аналогичная задача решалась и в [360]. В работе [286] автор заявляет о не менее чем 85 % точности распознавания особенностей ЭЭГ при применении генетических алгоритмови или же о 76 % [359] в задачах ИМК. ГА были применены и в анализе вызванных потенциалов [381], где, по утверждению авторов, им удалось достигнуть более чем 90 % точность распознавания. Используются генетические алгоритмы и для анализа эпилептической активности [337, 266].
Таким образом, генетические алгоритмы зарекомендовали себя как достаточно эффективный инструмент в анализе ЭЭГ и применимы для асинхронных вариантов НКИ. Однако эффективность их реализации для задач синхронных ИМК остаётся не достаточно ясной.
1.3 Эмоционально-зависимые (стресс-зависимые) интерфейсы и
вычисления 1.3.1 Роль эмоций в эргатических системах
Роль эмоций в принятии пользователем тех или иных решений очевидна, что, естественно, привело к появлению информационных систем, обеспечивающих контроль и оценку эмоций пользователя. Рынок данных систем активно растёт [287], что, в свою очередь, подстёгивает научные группы как корпораций, так и университетов к разработке и внедрению своих оригинальных решений или, по крайней мере, декларированию о существовании таковых. Хорошо заметно, что разделение на различные парадигмы регистрации эмоций сильно зависит от базового образования в группе разработчиков. Медики и биологи предпочитают сигналы, несущие информацию о функционировании органов и систем человека: вариабельность сердечного ритма, электроэнцефалграмму; выходцы из ИТ-
сферы делают упор на обработку видеоизображений, содержащих мимику. Промежуточные результаты занимает детекция движений и голоса [409].
1.3.2 Способы оценки эмоций и функционального напряжения пользователя. «Аффективные» вычисления.
Одной из ключевых проблем, стоящих при разработке гибридного интеллекта, является способность данного конгломерата естественного и искусственных интеллектов к полноценной коммуникации как друг с другом, так и с другими подобными конгломератами. Очевидно, что в данном случае, учитывая наличие в системе естественного интеллекта, необходимы бионические подходы. Иными словами, коммуникация как внутри гибридного интеллекта, так и групп гибридных интеллектов должна содержать в той или иной степени те элементы, которые используются и людьми в межличностном общении. Одним из таких элементов является невербальный компонент информации [139] или первая сигнальная система, по И. П. Павлову [98]. Очевидно, что, рассматривая взаимодействия человек-компьютер и человек-компьютер-человек, приходится признать, что при данном взаимодействии теряется эмоциональный компонент, а в более широком смысле - невербальный, который является весьма значимым для коммуникации. Наряду с этим, эмоции являются мощным инструментом принятия решения для естественного интеллекта [52, 96]. Сказанное выше, наряду с достижениями когнитивных наук привело к формированию понятия «эмоциональный интеллект», как способность генерировать и понимать эмоции участника общения [178, 53, 53]. При бионических подходах логичным кажется тем или иным путём смоделировать эмоции и использовать полученные модели для решения тех или иных задач в области ИТ. Данное, весьма общее направление получило название «эмоциональные», или «аффективные», вычисления. Считается, что появление направления эмоциональных вычислений, или Affective Computing, относится к 1997 г., когда Р. Пикард опубликовала свою книгу
«Affective Computing» [349]; к этому же времени относятся и другие публикации [230]. Несколько позже свет увидела основополагающая монография М. Мински [320]. Направление вызвало большой интерес, не столько в плане идей, многие из которых были широко известны до указанных публикаций [229], сколько благодаря формализации и междисциплинарным подходам (рисунки 1.9-1.11), донесшим до представителей ИТ-индустрии именно формализованные данные о физиологических особенностях функционирования человека. Текущие проекты группы Р. Пиккарад и саттелитных групп представлены на сайте [227]. При этом работы в значительной своей части, по сути, сводятся к оценке реакции вегетативной нервной системы на те или иные стресс-раздражители. Парадигма, давно известная в физиологии, но ограниченная в медицине именно анализом самих реакций, в частном случае, реализованных в системах биологической обратной связи [126]. Между тем работы MIT содержат и компонент управления рядом устройств.
В РФ из теоретических работ в данной области можно упомянуть [193], содержащая весьма общие посылки, [101] где предпринимается попытка моделирования эмоций на основе трёх медиаторов нейронной активности, [111], где осуществляется моделирование взаимодействия отделов мозга. Таким образом, собственно ИТ-компоненты в виде появления у программно-аппаратных решений реакций, по принципам возникновения и функциональной роли напоминающие эмоции, отсутствуют. В этом плане интересна работа [89], где рассматриваются вопросы «эмоций» и самоходных роботов. Однако то, что трактуется как «эмоции», в значительной мере базируется на эмоциональной модели Симонова [180, 365], которая, в свою очередь, имеет ряд существенных недостатков, в частности связанных со сложностью интерпретации формирования положительных эмоций, которые возникают как результат разности между необходимой и имеющейся информацией. Предпринимаются попытки использовать полученый невербальный канал с элементами нормализации данных [73] для оценки
взаимодействия пользователей. В целом можно отметить, что фундаментальные разработки в области «аффективных» вычислений в РФ находятся на начальном уровне.
Иная ситуация в попытках применить те или иные технологии детекции эмоций человека в рамках создания коммерческих продуктов. Так, ООО «Нейроботикс» представила проект EmoDetect, реализованный на основе анализа мимики [406]. Однако данный подход не может считаться достаточно перспективным (см. ниже раздел 1.3.3). Действительно, на представленном разработчиками видео, мы видим лицо пользователя с хорошим и, видимо, заранее определённым освещением, лицо малоподвижное относительно камеры и обладающее определёнными анатомическими особенностями в виде брадиморфии.
Близкую разработку представил проект neurodatalab [326]. Наряду с оценками параметров выраженности мимики авторы предлагают использовать характеристики голоса и моторики пользователя, а также ряд физиологических параметров в виде кожно-гальванической реакции и значений пульса. Как и в предыдущем случае, перед нами имеется постановочное освещений, малоподвижное лицо пользователя с теми же анатомическими особенностями.
Рисунок 1.9 - Динамика числа статей, согласно данным WoS, по запросу
«affective computing»
Запрос: "affective machine"'
14 о 120 100 SO 60 4ü 2D О
, ill
. - • . 1 1 1 1 II
Кол-во стзтей
Рисунок 1.10 - Динамика числа статей, согласно данным WoS, по запросу
«affective machine»
Рисунок 1.11 - Динамика числа статей, согласно данным WoS, по запросу
«affective system»
В отличие от РФ в США, Китае и Западной Европе данная тематика развивается весьма активно [322, 264]. К примеру, в Германии DFG с 2009 г.
финансирует на базе университетов Ульма и Магдебурга (с участием в последнем случае Лейбницевского центра нейробиологии) крупный междисциплинарный проект «Компаньонная технология для когнитивных технических систем» (SFB 62), где большой раздел с группой подпроектов посвящен как раз задаче объективного выявления текущего эмоционального состояния и использования этой информации в различного рода интерфейсах [272].
В обзоре [223], являющимся одним из лидеров по цитированию в области аффективных (эмоциональных) вычислений по данным WoS, рассмотрены различные варианты анализа эмоций, как по позе (незначительная часть работ), так и по лицу пользователя. При этом использовались как вейвлеты Габора, так и выделение тем или иным путём ключевых точек на лице человека. Отдельная глава обзора посвещена голосовым признакам, однако, очевидно, что данная технология функционирует только если пользователь что-то говорит и, следовательно, остаётся за пределами задач, поставленных в работе. В работе 2001 г. Р. Пиккрад [350], так же входящей в список наиболее цитируемых, рассматриваются вопросы интеграции и верификации оценки состояния пользователя в зависимости от числа распознаваемых эмоций, и с использованием физиологических сигналов - электромиограммы, артериального давления, кожно-гальванической реакции и паттернов дыхания. Следует обратить внимание, что вариабельность сердечного ритма в этой работе не изучалась. Авторы утверждают, что выявили «особенности» сигналов для тех или иных эмоций, однако очевидно, что перегрузка пользователя множеством датчиков, не отличающихся высокой эргономикой само по себе является эмоциогенным фактором. В более поздней работе [95] этим же автором рассматриваются проблемы (вызовы) для направления «эмоциональных» вычислений. В целом данная работе в большей степени является концептуальной и не содержит изложения конкретных алгоритмов и результатов их применения, как, впрочем, и [278].
В обзоре 2010 г. [251] рассматривались подходы для детекции эмоций. На первое место авторы поставили мимическую активность, на второе -голосовую, на третье - позу человека и «язык тела». Сигналы медико-биологической природы процитированы только в 10 работах. Электрокардиограмма была упомянута в 7 работах, равно как и показатели кожно-гальванической реакции. Лучший результат распознания составил 82 %. При этом вопрос относительно опорной, базовой, эмоции, т. е. некоего базового норматива, по которому можно калибровать те или иные системы, в работе обойдён стороной.
В работе [344] «идеальная» обратная связь для оценки эмоций пользователя представлено только видео и аудио-каналами. Таким образом, о регистрации физиологических показателей и их интерпретации речи не идёт. В целом близкий подход представлен и в [303]. В [210] предпринята попытка установить связь между данными ЭЭГ и эмоциями пользователя. Данный подход, по сути, повторяет одну из стандартных задач в области физиологии [130, 108, 162, 203, 217]. Аналогично можно и охарактеризовать задачу распознавания эмоций при различных стимулах, например прослушивания музыки [304, 95].
Таким образом, основной проблемой «аффективных» (эмоциональных) вычислений в рамках интерфейсов человек-компьютер является создание информационной системы, способной детектировать эмоции пользователя на основе физиологически обоснованных параметров, и интеграция полученных данных в существующие и перспективные интерфейсы человек-компьютер. Интересно отметить, что разработчики достаточно редко упоминают о латентном времени реакции на эмоции разработанных систем, что вновь возвращает нас к вопросу об эталонных эмоциях.
Однако даже на бытовом уровне известно, что человек испытывает не какую-то одну эмоцию, а достаточно сложный их букет. Эти знания позволили сформировать к разработчикам требования по выявлению не одной эмоции, а их спектра. Между тем, очевидно, что выраженность самих
эмоций, их сила также существенным образом влияют на поведение человека, и следовательно - на взаимодействие в рамках интерфейсов человек-компьютер.
Таким образом, приходится признать, что сами эмоции являются недостаточно изученными психофизиологическими процессами. Как следствие, и детекция эмоций, включая их верификацию, представляется задачей сложной и при текущем уровне знаний трудно выполнимой. Значительный пласт разработок в области распознавания эмоций, сконцентрированный в частных фирмах и стартапах, по сути, отражает запрос бизнеса на существование подобной технологии, но с точки зрения научного подхода указанные технологии не отображают то, что заявляют их разработчики.
Выход из сложившейся ситуации лежит в области разработки информационных систем на основе тех показателей, которые достаточно глубоко изучены к настоящему времени и отражают состояние пользователя в его физиологическом, а не психологическом аспекте. Подобные информационные системы могут служить входными модулями для интерфейсов человек-компьютер. При этом используются подходы не на основе сложно верифицируемых понятий подобно «эмоциям», а гораздо более лучше изученный подход на основе функционального напряжения. Функциональное напряжение - уровень активности физиологических функций, необходимый для обеспечения деятельности. Функциональное напряжение определяется степенью тяжести и напряженностью труда, его ритмом и физиологической сложностью. Чрезмерное функциональное напряжение организма при неадекватных возрасту требованиях к деятельности, приближающееся к пределу функциональных возможностей организма, называется функциональной напряженностью [19]. Понятие тесно связано с «функциональным резервом» как мерой адаптации человека [164]. Поскольку само явления достаточно изучено в рамках физиологии труда, то имеются и верифицированные прораммно-аппаратные методики,
оценивающие означенное функциональное напряжение. Следует отметить, что сами по себе эмоции, являясь оценкой окружающей среды, так же порождают указанное функциональное напряжение. Следовательно, существующие программно-аппаратные решения могут оценить силу эмоций и в некоторых случаях их направление (положительные или отрицательные) [130, 108]. При этом оценка знака эмоций по факту не только является избыточной функцией, но и вносит существенные искажения в интерпретацию состояния пользователя. Для доказательства этого утверждения достаточно привести два примера. Первый - это удачно развивающийся силовой конфликт двух персон. Побеждающая сторона испытывает как отрицательные эмоции в виде ярости, так и положительные, поскольку конфликт развивается в удачном для этой стороны русле. Второй -экстремальные виды спорта и отдыха. С одной стороны, в ходе данного действия пользователь испытывает сильный страх, с другой - резко положительные эмоции. Однако и в первом, и во втором случаях мы увидим выраженную сильную эмоцию, которая по факту и может повлиять на поведение человека. Данная эмоция вызывает характерные изменения целого ряда медицинских сигналов, которые могут служить входными параметрами для различного рода интерфейсов, генерирующих команду на компьютер или иные внешние устройства.
Задачи оценки функционального напряжения пользователя эргатической системой подразумевают наличие в самой системе специализированных программно-аппаратных решений, обеспечивающих получение с пользователя информации в реальном масштабе времени. При этом под «реальным масштабом времени» подразумевается биомедицинский смысл этого термина, когда обработка полученных с пользователя данных осуществляется со скоростью, достаточной для принятия тех или иных диагностических или процедурных решений, реализуемых на пациенте в ходе регистрации самого сигнала. Требования к таким решениям, интегрированным в функционирующую систему помимо эргономичности
должны включать достаточную точность оценки состояния пользователя, что накладывает определённые требования в области медицинского приборостроения.
1.3.3 Характеристика методов анализа состояния пользователя на
основе видеоизображений
Наиболее популярным направлением в оценке «эмоций» является оценка изображения лица пользователя, полученное с помощью видеокамеры. Этот путь, являясь продолжением естественного и, можно даже сказать, «бытового» способа детекции эмоций, изначально привлёк внимание разработчиков из ИТ-области. В настоящее время выделяется несколько подходов к распознаванию мимики с точки зрения выделения эмоций.
Предпринимаются попытки использовать искусственные нейронные сети [280]. Разработчики заявляют о высоком качестве распознавания лиц, возраста и пола, что подтверждено независимым тестированием [273]. Однако при распознавании эмоций возникает очевидный вопрос - каким образом, кроме самоотчёта, люди, чьи фотографии были представлены в базе объективно, а не субъективно, фиксировали свои эмоции? Поскольку ответа на этот вопрос нет, можно предположить, что алгоритм лучше конкурентов фиксирует не сам факт эмоций, а устанавливает связь между мимикой и самоотчётом пользователя. Решение аналогичной задачи демонстрирует Майкрософт [410], предлагая пользователям API и SDK.
Об успехах в области дистанционного распознавания эмоций заявляют ещё ряд производителей: «QUIVIDI», «Вокорд», «VisionLabs» [355, 402, 385], во всех случаях упоминая использование нейронных сетей глубокого обучения. Из альтернативных методов можно упомянуть метод динамического шаблона, совмещаемого с лицом человека и модифицируемого исходя из данных видеозаписи Cognitec Systems, Noldus [330, 258].
В ряде случаев технология является засекреченной или же неполной для оценки сущности алгоритмов лежащих в её основе [386]. Так в [329] представлена система распознания эмоций человека на основе видеоизображения. Как и в отечественных разработках [326, 287], здесь чётко видны необходимые требования к устойчивой работе системы в виде освещения, отсутствия перемещения лица и определённых антропологических типов. Активные работы в этом направлении ведёт Майкрософт [289], однако до выхода полноценного релиза довольно далеко. Согласно современным тенденциям, фирмы-разработчики предлагают SDK [228] и обширный набор фотографий для тренировки системы.
Предпринимаются попытки анализа положения и движения головы, как показатели состояния человека [86]. Для анализа подкожного кровотока, чувствительного к эмоциям, применяют соответствующие системы [334], так же весьма чувствительные к освещению и положению поверхности кожи относительно источника излучения и приёмника отраженного сигнала. Возникают идеи интеграции в очки виртуальной реальности одной из указанных выше схем детекции эмоций [274].
Таким образом, несмотря на кажущуюся простоту и очевидность метода оценки эмоций по видеоданным изображения, данная технология имеет ряд как сложностей реализации, так и принципиально не устранимых недостатков. К первым относятся требования к освещению лица, необходимости отслеживать его при активном движении пользователя, требования к определённой амплитуде мимики (отсутствие так называемого poker face, т. е. малоэмоциональной мимики), состоянию кожи пользователя. Как видно из ссылок, подавляющее большинство решений работает в «тепличных» условиях. При этом очевидно, результаты будут сильно зависеть от анатомических особенностей лица пользователя. К неустранимым недостаткам метода относятся необходимость постоянно иметь перед лицом пользователя видеокамеру, отсутствие физиологически обоснованной и верифицированной для конкретного пользователя
корреляции между эмоциями человека и его мимикой. Сказанное выше позволяет сделать вывод о сложности использования анализа изображения лица пользователя для оценки его эмоционального и функционального напряжения. Как видно, необходимо использовать иные подходы и методы, обеспечивающие в первую очередь физиологически интерпретируемый компонент технологии.
Попытки использовать значения диаметра зрачка [345], несмотря на кажущуюся перспективность, имеют существенные ограничения в плане разработки программного обеспечения, требующего не только детекции лица пользователя, но и анализа положения зрачка. Неудивительно, что данная тематика не нашла широкого отклика у исследовательских групп, вопреки популярность ай-трекинга [364, 377] и возможность его применения в задачах оценки состояния пользователя [18, 83, 93, 198, 214, 204, 183, 168].
Используются даже возможности текстовой коммуникации пользователь-компьютер [305] в аспекте оценки эмоций. Однако и это направление не получило распространения по причине сложностей в объективной верификации состояния пользователя.
1.3.4 Характеристика методов анализа состояния пользователя на основе кожно-гальванической реакции и паттернов дыхательной
активности
Широко известные факты изменения паттерна дыхания при стрессе и вызванных им эмоциональных переживаниях [63, 56] привели к появлению серии устройств, известных как «полиграф», или «детектор лжи», в которых осуществляется анализ данных феноменов. На основе достаточно простых аппаратных решений анализируется экскурсия грудной клетки и делается заключение об особенностях дыхательного цикла, и в том числе о функциональном состоянии человека. Однако такие устройства не обладают должной для длительной и эффективной регистрации данных эргономикой. В случае реализации на акселерометрах (гироскопах) требуется
дополнительный анализ движений человека, а если датчики резистивные, то возникает необходимость контролировать их положение на грудной клетке и повышаются требования к одежде пользователя, играющей в ряде случаев роль демпфера между проводящей ток полосой датчика, растягивающейся и сжимающейся в ходе цикла вдох-выдох, и, собственно, грудной клеткой пользователя. По этой причине решения, основанные на оценке паттернов дыхания не нашли широкого применения в системах оценки эмоционального состояния пользователя.
Более перспективным в плане аппаратных решений является кожно-гальваническая реакция - изменение электрических параметров кожи при изменении состояния пользователя [116, 117]. Очевидно её применение в задачах операторской деятельности [32, 91, 163], где осуществляется контроль за состоянием оператора эргатической системы, в частности, подобные подходы нашли применение в работе водителя. Однако, как и во многих случаях, и в анализе полученных сигналов, и в конструировании соответствующих устройств доминирует исключительно
феноменологический подход, заключающийся в констатации факта изменения реакции пользователя, без создания программно-аппаратных решений для включения в контур управления устройством. Предпринимались единичные попытки оценки эмоционального состояния пользователя [199].
В то же время имеется значительный набор устройств для регистрации кожно-гальванической реакции [219, 134, 142, 144, 138, 141, 136, 150, 151, 30], как самостоятельных, так и интегрированных в системы диагностики состояния человека и терапевтического воздействия, включая системы биологической обратной связи. Модельные системы, генерирующие сигнал, имитирующий кожно-гальваническую реакцию, единичны [33], как и модели обработки данных [107], полученных в ходе регистрации кожно-гальванической реакции. Указанные выше устройства, как правило, предназначены исключительно для регистрации состояния пользователя, без
формирования команд на какие-либо системы, находящиеся за пределами контура биологической обратной связи.
Имеется большая группа патентов [147, 145, 143, 133, 137], применение которых, однако, ограничивается оценкой состояния пользователя, как в общеклинических подходах, так и в задачах, например, работы на полиграфе, или оценкой состояния оператора [3, 64, 135, 160,172], или же, подходя максимально широко, оценкой психофизиологического состояния человека [188]. Одной из работ, декларирующих реализацию системы оценки кожно-гальванической реакции как инструмента запуска тех или иных программно-аппаратных решений для воздействия на пользователя, является [31]. В целом, такой подход уже можно рассматривать как переходную форму к эмоционально- или стресс-зависимым интерфейсам человек-компьютер. Близкая идея изложена в [158].
Вместе с тем сама кожно-гальваническая реакция не только является недостаточно изученным феноменом в физиологическом плане, но и имеет ряд ограничений в плане аппаратной реализации. Ключевым ограничением является чувствительность к состоянию кожи человека под электродами, связанная с выделениями потовых и сальных желез. Один и тот же участок кожи, но с разной степенью активности означенных желез и загрязнения их секретами может давать разные показатели кожно-гальванической реакции, что при длительном ношении датчиков делает данный подход малопригодным для использования его как генератора команд в рамках эргатических систем.
1.3.5 Характеристика методов анализа вариабельности сердечного
ритма
Вариабельность сердечного ритма является известным физиологическим феноменом, заключающимся в том, что интервалы времени между ударами сердца различаются и формируют волновые структуры в пространстве: порядковый номер кардиоцикла - значения
пульса. Зарегистрированные таким образом волновые процессы несут информацию о функционировании разнообразных регуляторных механизмов организма и могут быть использованы как маркеры эмоционального состояния пользователя.
С момента начала исследований вариабельности сердечного ритма и до настоящего времени остаётся острым вопрос об эффективности применения различных методов математического анализа ВСР и, в конечном итоге, об интерпретации полученных результатов. Основоположником математического подхода к исследованиям вариабельности сердечного ритма является Р. М. Баевский [13, 15]. Несколько позже интенсивные работы по исследованию ВСР велись Д. И. Жемайтите [75, 76, 77, 78, 79, 181]. Основной задачей исследования ВСР является определение на основе структуры ВСР характера функционирования контуров регуляции сердечной деятельности, что тесно связано с функциональным состоянием человека и, следовательно, его эмоциональным статусом. Р. М. Баевский выделяет центральный и автономный контуры регуляции ВСР. Автономный контур регуляции представлен блуждающими нервами, синусным узлом и ядрами вагуса в стволе мозга. Центральный контур представлен вышележащими центрами интеграции вегетативных влияний. В рамках одного контура выделяется несколько уровней регуляции, связанных с характером решаемых задач. Имеется классификация регуляторных механизмов ВСР [170, 169, 171], где описываются уровни регуляции не по характеру решаемых задач, а по положению в продолговатом, промежуточном мозге или коре больших полушарий. В зависимости от показателей, полученных в ходе исследования, делается заключение об особенностях функционирования контуров и уровней регуляции. Как следствие, делается вывод об особенностях протекания адаптационных процессов.
Исследования ВСР базируются на анализе структуры ритма сердца с точки зрения описания процесса как периодического (используются спектральные методы обработки сигнала), шумового (используются и
статистические, и спектральные методы обработки сигнала), так и детерминированного хаоса (используется ряд алгоритмов, описанных, к примеру, в работе [84]) или с точки зрения других моделей. В структуре ВСР также выделяют стационарные и нестационарные фрагменты. Фрагмент считается стационарным, в медицинском или физиологическом понимании, если он сохраняет во времени свои статистические свойства и определённый набор частот, что означает, что в этот отрезок времени пользователь не испытывал значимых изменений своего состояния. Если же эти свойства меняются, например, при функциональной пробе, то процесс считается нестационарным [61, 113].
Классические методы анализа ВСР делятся на статистические и спектральные [12].
К статистическим показателям ВСР в первую очередь относится среднее значение R-R интервала (Хср , М, математическое ожидание) и обратное ему значение среднего ЧСС. Однако ни в одном из исследований выводы не делаются только на основе результатов расчёта средней ЧСС. С точки зрения статистического анализа для оценки полученного ряда к среднему значению ЧСС необходимо добавить целый ряд показателей.
Одним из них является мода, т. е. значение наиболее часто встречающегося R-R интервала, и амплитуда моды (количество кардиоинтервалов, соответствующих моде, выраженное в процентах к общему количеству кардиоциклов). С точки зрения статистического исследования, различия между средним R-R интервалов и модой этого вариационного ряда будут наблюдаться только в том случае, если вариационный ряд имеет распределение, отличное от нормального. Эти различия могут быть в случае, если количество R-R интервалов меньше 50, но поскольку практически во всех клинических исследованиях минимальная длительность записи составляет 100 R-R интервалов, то эти значения не будут существенно различаться. Однако для интерфейсов человек-компьютер необходимость накопления 100 или даже 50 кардиоциклов
является неприемлемой, поскольку создаёт существенный лаг по времени между изменением состояния пользователя и реакцией устройства. Другой возможной причиной в различии моды и среднего значения R-R интервала может являться несимметричность волн на кардиоинтервалограмме, т. е. восходящий фронт (увеличение продолжительности R-R интервала) будет по количеству кардиоинтервалов отличным от нисходящего фронта. Другим случаем является появление относительно редких высокоамплитудных волн. Волны таких типов можно увидеть в [119]. Их детальное описание встречается в [208], где этот феномен связывается с морфо-функциональной неоднородностью синусового узла. Авторы указывают, что для подтверждения этого предположения необходимо более детально исследовать начальные фрагменты зубца Р в момент появления таких волн.
Второй группой необходимых статистических параметров являются различные показатели отклонения от среднего значения ряда R-R интервалов. Классическим показателем является среднеквадратическое отклонение, а (SDNN) [12, 13, 16, 15], которое показывает отклонение варианта около математического ожидания и характеризует вариабельность. Увеличение а в ряде работ [77, 169] связывают с ростом активности парасимпатических влияний (появление дыхательной аритмии), а его уменьшение - с ростом симпатической активности. Р. М. Баевский трактует этот параметр как суммарный эффект вегетативной регуляции кровообращения. Эта трактовка справедлива при относительно короткой длине КИГ, так как при длительной записи, превышающей 15 минут, возможны увеличения относительного вклада различных гормональных влияний. Следует обратить внимание, что в значительной мере этот показатель является в клинико-физилогическом аспекте информативным в случае распределения, близкого к нормальному. Однако если речь идёт о выделении реакции пользователя, то требование к нормальности распределения времени кардиоциклов является излишним.
На основе <г и среднего значения R-R интервала рассчитывается
коэффициент вариации (V, СУ), представляющий собой отношение <г к Хср, выраженный в процентах. Его рост отражает увеличение парасимпатической активности, а снижение - симпатической [118, 122, 169] по физиологическому смыслу он не отличается от <т, но при оценке степени ваготонии имеет преимущество, так как показывает относительные значения. К примеру, рост сможет быть связан с уменьшением ЧСС, в то время как СУ может остаться неизменным.
С появлением стандартов оценки ВСР [294] к данным показателям добавилось ещё несколько: rMSSD - квадратный корень суммы разностей пар последовательного ряда кардиоинтервалов, отражающий активность парасимпатического отдела ВНС, и РЫЫ50 - число пар кардиоинтервалов разностью более 50 мс в процентах к объему числу кардиоинтервалов. Эти показатели отражают преобладание парасимпатического звена регуляции над симпатическим, так как различие длительности соседних кардионтервалов вызываются увеличением тонуса вагуса [170].
Другим подходом к оценке разброса полученных кардиоинтервалов является оценка вариационного размаха АХ [55]. Этот показатель демонстрирует границы изменения значений кардиоинтервалов, т. е. разницу между максимальным и минимальным значениями кардиоинтервала. Таким образом, отражается максимальная амплитуда колебаний кардиоцикла, что, возможно, связано с активностью парасимпатического отдела ВНС. Необходимо обратить внимание, что нарушение сердечного ритма или артефакты могут существенно увеличить вариационный размах, что особенно актуально, если пользователь находится в состоянии свободного перемещения в пространстве.
Наряду со статистическими параметрами используется целый ряд коэффициентов, рассчитанный на их основе. К таким коэффициентам относится индекс напряжения, рассчитанный как отношение амплитуды моды к удвоенному произведению вариационного размаха и моды [13, 15]. Проанализировав процесс его расчёта, можно сказать, что фактически он
отражает степень однородности выборки кардиоинтервалов. Считается, что он отражает уровень напряжения регуляторных систем [13, 15], степень активности центрального контура регуляции и увеличивается в несколько раз при функциональной нагрузке. Вегетативный показатель ритма рассчитывается как единица, делённая на произведение моды и а. Чем этот показатель больше, тем, по мнению авторов, более выражена симпатикотония. Показатель адекватности процессов регуляции представляет собой отношение амплитуды моды к моде. Этот индекс используется достаточно редко. Скорее всего, это связано с явной трудностью интерпретации полученных данных. Что и когда считать адекватной регуляцией? Ответ на этот вопрос с помощью предложенного индекса не представляется возможным.
Тем не менее, несмотря на перечисленные выше сложности, целый ряд работ по вариабельности сердечного ритма был посвящен исследованию именно этих значений и поиску их физиологических интерпретаций. В качестве примера можно взять [192, 164]. Основным недостатком статистических методов анализа является усреднение результатов. Хотя предприняты попытки проводить расчёты на коротких отрезках ВСР [12, 169], результаты исследований нельзя признать удовлетворительными. Наряду с усреднением, недостатком статистических методов анализа является их неспособность определять наличие периодических составляющих КИГ и их разделение по частоте. Отсюда становится очевидной необходимость использования методов спектрального анализа.
Наиболее распространённым методом спектрального анализа является анализ по методу Фурье в различных модификациях. Для качественного использования результатов преобразования Фурье необходимо чётко представлять частотные диапазоны, в которых будут проводиться исследования. Но именно вопрос о частотных диапазонах является спорным. В работах Р. М. Баевского использовались следующие частотные диапазоны: ДВ - дыхательные волны, связанные с активностью дыхательного центра
(частота 0,4-0,15 Гц), МВ1 - медленные волны первого порядка, связанные с активностью сосудодвигательного центра (частота 0,15-0,04 Гц), и МВ2 -медленные волны второго порядка, связанные с центральными влияниями (частота ниже 0,04 Гц). До середины 90-х гг. данная классификация широко использовалась в различных исследованиях [118, 122]. Так, к примеру, в [90] проведена классификация реакции ВСР на физическую нагрузку на основе изменения амплитуды волн в МВ1 диапазоне. Имеются и несколько иные названия 3-х основных частотных диапазонов: ВЧС - высокочастотные составляющие, связанные с вагусной активностью, СЧС - среднечастотные составляющие, вероятно связанные с симпатической активностью, и НЧС -низкочастотные составляющие вариабельности сердечного ритма, активность которых связывают с гормональными влияниями. Эта работа интересна тем, что в ней встречается отдельный анализ а в каждом из исследуемых частотных диапазонов. Таким способом авторы определяют степень выраженности каждого из частотных диапазонов в общей картине вариабельности сердечного ритма. Эта идея была более детально разработана в [119]. Не совсем понятен смысл этого подхода, так как спектральный анализ даёт весьма близкие результаты.
С 96-го г. рекомендованы иные названия других частотных диапазонов [294]. Предложенные диапазоны и их интерпретация во многом связаны с уже исследованными диапазонами в СССР и России. В то же время, если с интерпретацией НР-диапазона (высокочастотная составляющая, частота 0,40,15 Гц) противоречий нет, его активность однозначно связывается с вагусными влияниями [293, 380], то LF-диапазон (низкочастотная составляющая, частота 0,15-0,04Гц) связывают с активностью сосудодвигательного центра [253, 311, 394], в то же время встречаются утверждения о симпатической природе этих волн [171, 207, 241, 271, 299].
Помимо двух выше перечисленных диапазонов (НР, LF), выделяют ^Р-диапазон (очень низкочастотная составляющая, 0,04-0,0033 Гц), связанный с активностью церебральных и гуморально-метаболических механизмов
регуляции ВСР, и ULF-диапазон (ультранизкочастотная составляющая, ниже 0,0033Гц), связанный с активностью высших центров регуляции ВСР. Ряд авторов по-прежнему продолжает пользоваться параметрами, основанными на собственных многолетних исследованиях [75], или используют альтернативные классификации [119].
В зарубежных публикациях новая классификация практически является общепринятой и широко используется для анализа различных функциональных проб и патологических состояний [343, 238, 302, 310, 368]. Более детальное исследование и сравнительная характеристика информативности статистических и спектральных методов анализа, в частности в НР- и LF-частотных диапазонах, представлены в [241, 293]. Интересно, что в этих же частотных диапазонах происходит и анализ других данных системы кровообращения, например: давления крови, параметров капиллярного кровотока [236, 252, 261, 291, 331]. В этом же ряду находится и работа [348], в которой автор высказывает мнение о доминирующей роли дыхания в формировании волновой активности.
Особый интерес представляют работы, в которых используется расчёт частотных диапазонов, отличных от общепринятых. Так, в [242] частотные диапазоны волн ВСР несколько перемещены в область высоких частот, что, возможно, связано с объектом исследования (ЧСС у крыс, как известно, значительно выше ЧСС человека). Однако сами авторы не предлагают объяснений изменениям общепринятых частотных диапазонов. В [316] также изменены частотные диапазоны в сторону более высокочастотных составляющих. Процесс выбора исследуемого диапазона частот и возможные сложности, связанные с этим процессом будут рассмотрены ниже.
Исследование методом Фурье периодических составляющих ВСР сталкивается с рядом проблем, которые недостаточно освещены в литературе. Одной из основных сложностей является выявление и удаление артефактов. Оставленные и проанализированные артефакты могут существенно исказить результаты исследования. В [171] указана
необходимость выявления и удаления таких артефактов, а также описано два алгоритма их выявления и удаления. Один из них основан на методе «триангулярной интерполяции», где рассчитывается «основание» гистограммы, а значения, не попавшие в него, исключаются из расчетов. При подобном методе в дальнейшей обработке применимы только статистические методы исследования. Метод «20 %» заключается в выбраковке кардиоинтервалов, отличающихся от предыдущего больше чем на 20 %. Однако не встречается описание алгоритма, позволяющего заменить выбракованный кардиоинтервал, что необходимо для спектрального анализа.
Отдельным вопросом является применение различных вариантов преобразования Фурье. Некорректное использование спектрального анализа может существенно исказить результаты исследования [84, 113]. Требуется осторожность и при предварительной фильтрации данных (выделении определённых фрагментов данных) для выявления разночастотных компонентов ВСР [321]. Весьма интересной представляется работа [290], в которой наряду с оценками различных вариантов анализа ВСР оцениваются и возможные ошибки, как в самих расчётах, так и в процессах регистрации сигнала.
Сложность представляет и выбор частотных диапазонов, в которых необходимо проводить исследования, так как расчёт мощности дыхательных волн без учёта истинной частоты дыхания может вызвать искажение результатов как в сторону увеличения, так и в сторону уменьшения [208].
В последнее время всё в большем количестве работ встречается указание на сложность применения преобразования Фурье для анализа нестационарных (изменяющихся во времени) паттернов ВСР [12]. Действительно, в целом ряде работ показана невозможность применения классического преобразования Фурье в случае нестационарности сигнала [12, 60, 61, 113, 129].
Предпринимаются попытки моделирования ВСР. В [252] на основе вариабельности артериального давления построена психофизиологическая
модель заболевания коронарных артерий. Построенная модель объясняет ряд фактов при заболевании коронарных артерий, но авторы полагают, что необходимы дальнейшие клинические исследования.
Наряду с классическими методами, используется и ряд относительно новых подходов к анализу ВСР. На основе фрактального анализа ВСР больных ишемической болезнью сердца установлено изменение фрактальной размерности исследуемого ряда кардиоинтервалов, что может иметь прогностическое значение [292]. В [195] на основе классического анализа Фурье предложена методика временной оценки частотных компонентов ВСР с использованием локальных спектров. Фактически это можно рассматривать как первый шаг к вейвлет анализу ВСР. По идее, заложенной в исследовании, к предыдущей работе близка [311], в ней также предпринята попытка отразить изменение во времени структуры ВСР. В [84] представлен оригинальный метод анализа ВСР, основанный на расчёте странных аттракторов. К сожалению, в данной работе не было изложено развёрнутых физиологических интерпретаций полученных результатов. В отличие от [84], в [324] авторы пытаются провести корреляции с общеизвестными понятиями анализа ВСР, изложенными выше. В [276] также представлены методы нелинейного анализа ВСР на основе теоремы Такенса (определение количества факторов, влияющих на ВСР, и построение в полученном фазовом пространстве траектории изменения ВСР), к сожалению, и здесь авторы весьма бегло останавливаются на физиологических механизмах исследуемого процесса.
Работа [333] интересна тем, что в ней авторы предпринимают попытку оценить коротковременные составляющие ВСР, в частности дыхательную аритмию. В работе [347] наряду с фазовым анализом сердечных сокращений в медицинской интерпретации исследуется этот же процесс с точки зрения латентного времени между теми или иными фазами процесса. В [316] наряду с классическими методами анализа использован коэффициент нелинейности, позволяющий детализировать информацию о нестационарных фрагментах
ВРС. Работа [380] интересна в первую очередь тем, что в ней используется анализ с использованием разномасштабного подхода - это ещё один шаг к вейвлетному анализу.
Использование в различных вариациях классических методов анализа позволило описать целый ряд феноменов ВСР. Описаны механизмы дыхательной аритмии, установлена прогностическая роль ВСР при целом ряде заболеваний сердечно-сосудистой системы. В то же время не сняты противоречия, вызванные сложностью и неоднозначностью интерпретации феноменов ВСР с помощью классических методов анализа, что, в свою очередь, влечёт за собой разную трактовку близких феноменов ВСР.
Подобные феномены активно пытаются использовать в качестве детекции эмоций совместно с другими показателями [351], на основе уже готовых аппаратных решений «Самсунг» или используя собственные разработки [398]. Однако авторы не приводят связи между клиническими и физиологическими показателями анализа ВСР и их оригинальными решениями. Мало того, в ряде случаев алгоритмы вывода данных вообще не позволяют оценить качество обработки сигнала ВСР [411, 274], что делает сомнительным возможность реального использования данных решений.
В ряде работ предпринята попытка использовать в качестве эмоциогенного фактора компьютерные игры. При этом в одном случае зарегистрированные с пользователя данные служили командами для персонажа [231], правда, в весьма ограниченном диапазоне (отступление при «стрессе» игрока), либо же анализировались без обратной связи на человека [313].
Таким образом, в отличие от анализа дыхательных паттернов и кожно-гальванической реакции, вариабельность сердечного ритма является существенно более разработанным в физиологическом плане феноменом, что позволяет выбрать именно его для систем оценки функционального и эмоционального состояния пользователя для непроизвольно управляемых интерфейсов человек-компьютер.
Регистрацию параметров вариабельности сердечного ритма можно проводить двумя основными способами: электрокардиографическим и фотоплетизмографическим. Электрокардиографический способ
подразумевает запись электрокардиограммы, её анализ и расчет ЯЯ-интервалов с последующим построением на их основе кривой ВСР [128, 41]. Фотоплетизмографический способ - анализ изменения потока света проходящего через ткани в зависимости от их кровенаполнения [99, 209, 196, 173]. Очевидным преимуществом ЭКГ является большая точность регистрации, а очевидным недостатком - необходимость ношения электродов либо на конечностях, либо на поверхности грудной клетки, что неудобно для пользователя. В ситуации с фотоплетизмографией преимуществом является как раз большая, по сравнению с ЭКГ, эргономичность - датчик может быть расположен на ухе, запястье, пальцах. При этом не требуются провода, соединяющие несколько датчиков. Недостатком является существенно меньшая точность регистрации сокращения сердца. Фактически регистрируется пульсовая волна, которая ещё зависит от тонуса сосудов. Однако преимущества в эргономике, в случае если интерфейс рассчитан на широкий круг пользователей, компенсируют указанные недостатки.
Сказанное выше позволяет рассматривать параметры вариабельности сердечного ритма как данные, несущие на основе физиологической проработки феномена данные о функциональном напряжении пользователя, в том числе и о силе испытываемых им эмоций.
1.3.6 Синтез системы интерфесов человек-компьютер
Таким образом, система интерфейсов человек-компьютер, работающая с использованием интерфейсов мозг-компьютер и стресс-зависимых интерфейсов должна включать в себя следующие элементы(рис.1.12). Подсистемы анализа окружающей среды, обеспечивающие дополнительные входные данные, несущие информацию о возможности выполнения тех или
иных команд исходя из обстановки. Подсистемы оценки функционирования устройств-эффекторов, обеспечивающие трансформацию команд интерфейса в управляющие команды непосредственно на устройства их исполняющие.
{а }
{ V }
Человек:
сознательные и бессознательные реакции
{ V }
X, }
Анализ состояния пользователя
Модель НКИ на основе активностной парадигмы.
{ V;
{ X, }
{ х, }
{ х, }
\
Анализ
непроизвольных
реакций на основе
вариабельности
\ )
{ V }{X, }
Модель НКИ на основе гибридного интеллекта.
Оценка пропускной способности канала НКИ, функционирующего на основе SSVEP
{ V }{X, }
{X, }
{X, } {X, }
Интерфейс основе статистических подходов в оценке ВСР.
Окружающая среда
5
{в. }
Выполнение команды
Анализ ЭЭГ: выделение цепочек локальных экстремумов вейвлет-
Классификация выявленных феноменов
{.М, }
^ X, }
Фильтрация ЭЭГ на основе ЦЛМ
Восстановленный сигнал
{X, }
{ X, }
Генетические алгоритмы
{X,}
Выбор требуемых параметров детекции ЭЭГ-феномена
{ X, }
{ 4 }
НФ-интерфейсы на основе
спектрального анализа вариабельности сердечного ритма
Генераций команды на устройство эффектор
{ I }
№ }
Устройство-эффектор
НФ-интерфейс для адаптивного НКИ в котором существует множество алгоритмов обработки полученных от пользователя сигналов и стратегий
{I, }
Рисунок 1.12. Эргатическая система с элементами гибридного интеллекта; {х,} мгновенные амплитуды сигналов биомедицинской природы до и после препроцессинга; {Х} результаты обработки сигналов биомедицинской природы; {X,} модельные результаты обработки сигналов биомедицинской природы; { Ж,} состояние пользователя в момент времени ,, как исходное, так и после выделения психофизиологических маркеров; {а,} состояние окружающей пользователя среды; {I} {1к} {I,} управляющие параметры синтезированные интерфейсом; {М,} результаты моделирования эргатической системы; {в,} выполнение команд устройством эффектором, изменяющим состояние окружающей пользователя среды; генерация команд на устройство-эффектор
Подсистемы цифровой обработки сигналов полученных непосредственнос пользователя и трансформации их в команды на устройства-эффекторы. Подсистемы, интегрирующие данные о внешней среде и команды, полученные после цифровой обработки сигналов с
а
пользователя. Модели поведения пользователя и модели функционирования программно-аппаратной части интерфейса человек-компьютер. Обмен информацией между этими подсистемами и моделями должен обеспечить, исходя из индивидуальных паттернов поведения пользователя и генерируемых им команд, как выполнение этих команд устройствами эффекторами, исходя из их возможностей, особенностей окружающей среды, и стиля поведения человека, так и возможность прогноза эффективности взаимодействия пользоваетяля с программно-аппаратной частью интерфейса человек-компьютер.
2 МЕТОД АНАЛИЗА ОСОБЕННОСТЕЙ МЕДИКО-БИОЛОГИЧЕСКИХ СИГНАЛОВ НА ОСНОВЕ ЛОКАЛЬНЫХ ЭКСТРЕМУМОВ ИХ СПЕКТРОВ
Уровень развития информационно-коммуникационных технологий позволяет приступить к созданию новых эффективных систем обработки медико-биологической информации. Разрабатываются алгоритмы для анализа больших потоков данных, получаемых от высокотехнологичной медицинской аппаратуры. Однако выявляемые в современных исследованиях не известные ранее закономерности или свойства пока ещё не во всех случаях могут быть надежно интерпретированы с точки зрения процессов, происходящих в организме человека. Другой проблемой, возникающей при анализе такой информации, является значительная ресурсоёмкость применяемых алгоритмов. Так, использование для обработки данных даже «классического» быстрого преобразования Фурье далеко не всегда может быть реализовано на персональном компьютере в реальном масштабе времени применительно к последним моделям современных многоканальных полиграфических систем.
В главе предлагается метод обработки медико-биологических сигналов, основанный на непрерывном вейвлет-преобразовании. Он используется для анализа данных, получаемых от компьютерного электроэнцефалографа. Электроэнцефалограмма (ЭЭГ), представляющая собой результат записи электрических сигналов с поверхности головы человека, связанных с активностью определенных разделов головного мозга, традиционно является одним из наиболее важных «поставщиков информации», используемых при анализе физиологических процессов, происходящих в центральной нервной системе. Таким образом, развитие методов обработки данных ЭЭГ позволяет выявить новую информацию относительно функционирования ЦНС, связать её с теми или иными психологическими феноменами и использовать в системах биологической обратной связи и нейрокомпьютерных интерфейсах.
Подзадача, на решение которой направлен разработанный метод,
заключается в необходимости интерпретабельного, в клинико-физиологическом плане, анализа ЭЭГ (электроэнцефалограммы), генерируемой большим количеством ансамблей нейронов.
2.1 Спектральный анализ ЭЭГ на основе использования непрерывного вейвлет-преобразования
Рассмотрим формализм метода спектрального анализа ЭЭГ на основе использования непрерывного вейвлет-преобразования. Вейвлет-преобразование является инструментом для разделения данных (или функций) на составляющие с разными частотами, каждая из которых может затем изучаться с разрешением, соответствующим необходимому масштабу [10, 507].
Мы будем использовать непрерывное вейвлет-преобразование в виде [10, 200, 206]:
да /А
W(a, b) = 1/4a J f (tM—)dt (2.1)
—да a
где f(t) - анализируемые данные, зависящие от времени t; W - вейвлет; a и b -параметры масштаба и времени для вейвлет-преобразования; a, b е R; a > 0.
Коэффициенты непрерывного вейвлет-преобразования W(a,b) инвариантны по отношению к выбору начальной точки отсчёта исследуемого сигнала. Это особенно важно при изучении переходных процессов различной природы[486] (например, переходных процессов в головном мозге, возникающих при умственных нагрузках, которые находят отражение в ЭЭГ).
В результате сравнительного анализа целесообразности использования как ортогональных, так и неортогональных вейвлетов в качестве основной анализирующей функции для проведения исследований были выбраны вейвлеты Morlet и Wave:
= /2, (2.2)
где ш0 - несущая частота (было взято либо ш0 = 6, либо 2п ); ц - параметр времени для вейвлета.
¥0 = WV/2. (2.3)
Использовась действительная часть вейвлетов. При изучении переходных процессов на основе данных ЭЭГ преимущество использования вейвлета Morlet по сравнению, например, с применением вейвлета Добеши (Daubechies) связано с достижением наилучшего разрешения по частоте при достаточно хорошем разрешении по времени, при условии правильного выбора частотного диапазона исследования для on-line. При off-line вопрос ресурсоёмкости, очевидно, не актуален. Отметим, что в предлагаемом методе могут быть использованы с разной степенью успеха и другие типы вейвлетов, даже, при соблюдении определенных условий, «оконное» преобразование Фурье [512].
Результатом вейвлет-преобразования является матрица вейвлет-коэффициентов W(al,bk), отражающая степень «присутствия» определённой частоты в общей структуре сигнала в конкретный момент времени (индекс l характеризует номер масштаба, а к - номер временного отсчета для вейвлет-преобразования).
На основе матрицы вейвлет-коэффициентов W(al,bi) можно построить «энергетические» диаграммы - скейлограммы V(ai) [514] сигналов как среднее значение квадратов этих коэффициентов при фиксированном параметре масштаба а1:
1 ^
V (a) = - X W 2( a, ък), (2.4)
N к=1
где N - число усредняемых вейвлет-коэффициентов W(al,bi).
Являясь функцией масштаба al, скейлограмма V(ai) включает в себя ту же информацию, что и спектральная плотность мощности (СПМ) преобразования Фурье, которая является функцией частоты. Как известно, использование вейвлет-преобразования имеет преимущество по сравнению с другими распространенными видами преобразований, прежде всего, за счет
свойства частотно-временной локализации вейвлета. Вейвлет-преобразование, представляющее собой «временную развертку» спектра, позволяет получать локализованную во времени энергетическую информацию[487].
Определим скейлограмму на временном отрезке [Ьг, Ьу] Уу (а1) как:
(а1) = N i (W 2( а1, Ьк)) , (2.5)
М к = I
где индексы I и у (^ j < N; j > ^ характеризуют частотный диапазон исследуемого процесса.
Скейлограммы можно построить на малых временных отрезках (от 0,05 с до 0,1 с), что позволяет детально изучать динамику процессов, отражаемых на ЭЭГ.
Следующим этапом обработки данных является выделение на скейлограммах физиологически значимых для дальнейшей интерпретации частотных диапазонов, ответственных за различные типы механизмов регуляции в исследуемых органах. В каждом из частотных диапазонов [ат, ап] можно определить величину ипту как сумму значений функции ¥у(а1) на временном отрезке [Ь, Ьу], представляющую собой вейвлетную плотность мощности (ВПМ):
т
иТ =Е Уа,), (2.6)
I = п
где атах - максимальный масштаб вейвлет-преобразования, полученный в ходе исследования; п, т < атах; т > п; у > I.
Важно, что временной ряд значений ипту будет отражать изменение активности различных механизмов генерации ЭЭГ.
Изложенный выше формализм (2.1-2.6) был использован для создания алгоритмов, реализующих метод изучения временной динамики ЭЭГ. Он может быть применен, как будет показано ниже, для анализа различных энцефалограмм[413].
Анализ результатов, полученных согласно (2.1-2.6). Для проведения исследований был использован компьютерный электроэнцефалограф «Нейрон-Спектр-4», имеющий 21 канал для записи ЭЭГ и 4 полиграфических канала с разрядностью АЦП 16 бит и частотой дискретизации 5 кГц. Объём информации, получаемой от этого прибора в единицу времени, велик, в особенности, если сравнивать его с другими распространенными аналогами.
На рисунках 2.1-2.2 представлены графики функций Цпту (2.6), характеризующих временную динамику полученных ЭЭГ. Они отражают активность сигналов головного мозга в частотных диапазонах а- и в-ритмов. На графиках можно выделить чётко выраженные фрагменты как с низкой, так и с высокой активностью исследуемых регуляторных систем. Следовательно, активность влияний, модулирующих ритмы ЭЭГ, не постоянна, а носит квазипериодический характер (для в-ритма, например, с периодом от 0,5 с до 3 с).
Как видно из рисунков 2.1-2.2, на графиках можно выделить участки, на которых значения Цпту изменяются мало, и участки, где значения Цпту резко изменяются в короткие промежутки времени (~ 1-3 с). Первые из них можно интерпретировать с физиологической точки зрения как тонические влияния, модулирующие волны ЭЭГ, а вторые - как переходные процессы. Следующим этапом обработки сигнала является разделение и последующий отдельный анализ тонических влияний и переходных процессов.
Результаты, представленные на рисунках 2.3-2.4, демонстрируют распределение величин 1Тту для двух механизмов, модулирующих ЭЭГ. Поскольку тонические влияния оцениваются как относительно медленные изменения величин Цпту, то значения моды в распределении 1Тту будут отражать «частотно стабильные» фрагменты временного ряда данных ЭЭГ.
Для оценки величин Цпту, соответствующих переходным процессам или нестационарным фрагментам, проводился расчёт граничного значения Цптн.
Рисунок 2.1 - Динамика изменения величин Цпту, отражающая активность в частотном диапазоне а-ритма: по оси абсцисс - временные интервалы с ценой деления 0,05 с, по оси ординат - значения ЦпШу
Рисунок 2.2 - Динамика изменения величин Цпту, отражающая активность в частотном диапазоне в-ритма: по оси абсцисс - временные интервалы с ценой деления 0,05 с, по оси ординат - значения ЦпШу
Было использовано несколько способов задания граничных значений для поиска физиологически значимых коррелянт: а) граничное значение определяется суммой моды распределения и величины среднеквадратичного отклонения ряда Цпту„ что позволяет учитывать высокую асимметрию выборок; б) граничным является значение, равное удвоенному значению моды; в) граничное значение оценивается как точка, в которой касательная,
проведённая к кривой нормального распределения, находится под углом 45°. Если величина ЦпШу оказывается ниже граничного значения, то она относится к тоническим влияниям, если выше - то к нестационарным фрагментам.
Рисунок 2.3 - Распределение величин Цпту, отражающее активность в частотном диапазоне а-ритма: по оси абсцисс - величины Цпту, по оси
ординат - частота встречаемости
Рисунок 2.4 - Распределение величин Цпту, отражающее активность в частотном диапазоне в-ритма: по оси абсцисс - величины ЦпШу, по оси
ординат - частота встречаемости
Также был разработан алгоритм для анализа кратковременных существенных отклонений параметров ЭЭГ от стационарных состояний (для оценки количества резких изменений величины Цптгу) в различных переходных процессах, связанных с умственной нагрузкой пациента [489].
После определения параметров нестационарных фрагментов ЭЭГ можно исследовать вопрос о том, являются ли синхронизированными процессы, порождающие эти фрагменты. На рисунке 2.5 представлена схема, иллюстрирующая процедуру поиска эффекта синхронизации нестационарных процессов по данным ЭЭГ. В диапазоне 1 (см. рисунок 2.5) имеются два нестационарных фрагмента, в диапазоне 2 выделяют временные интервалы, соответствующие нестационарным фрагментам диапазона 1 (их два). С использованием статистических критериев сравниваются значения Цпту в диапазоне 2 во временных интервалах, соответствующих нестационарным фрагментам в диапазоне 1 (выделено серым цветом на рисунке 2.5), и вне их. Наличие статистически значимых различий в значениях ЦпШу в этих частотных диапазонах будет свидетельствовать о синхронизации процессов [452, 453].
диапазон 1 ^-^
диапазон 2 / 1
время
Рисунок 2.5 - Схема процедуры выявления синхронизации нестационарных процессов, исследуемых на ЭЭГ: по оси абсцисс - время, по оси ординат -
значения Цпту
На следующем этапе обработки данных проводится подсчёт количества
частотных пиков на каждой из скейлограмм Vy(a^). Свойство локальности во времени в каждом из вышеуказанных диапазонов ограничивает число пиков в любом из физиологически значимых частотных диапазонов. При анализе
3 8
сигнала строится большое число (~10 - 10 ) скейлограмм, что позволяет чётко определить изменение во времени количества частотных пиков, а также оценить их амплитуду и частоту [465].
Установить степень синхронизации переходных процессов по данным ЭЭГ можно и путем сравнения значений Цпту высокочастотных (а-, в- и у-) составляющих сигнала, соответствующих восходящему и нисходящему фронтам низкочастотных волн, на основе использования статистических критериев [506].
Итак, знание величин 1Тту позволяет провести детальное изучение свойств исследуемых процессов. Например, можно сопоставить спектральные характеристики двух временных рядов данных ЭЭГ, сравнивая при этом как все элементы рядов Цпту, так и значения, соответствующие только стационарным или нестационарным фрагментам, что дает весьма «тонкий» инструмент для изучения ЭЭГ [479].
2.2 Локализованный спектральный анализ энцефалограмм в реальном масштабе времени на основе преобразования Фурье
Помимо подходов на основе вейвлет-преобразования возможно развитие метода спектрального анализа ЭЭГ на основе преобразования Фурье, обеспечивающего необходимое разрешение компонентов (или особенностей) сигнала ЭЭГ по частоте при обеспечении их достаточно хорошей локализации по времени.
Как известно, преобразование Фурье в своей классической реализации не обладает способностью анализировать динамику исследуемого процесса во времени. Для того чтобы уменьшить влияние этого ограничения, используются варианты оконного преобразования Фурье, в которых исследуемый ряд данных исследуется в последовательных перекрывающихся
или неперекрывающихся окнах. Однако помимо необходимости обеспечить нужное разрешение по времени, требуется ещё добиться и нужного разрешения по частоте, которое для преобразования Фурье зависит от числа получаемых отсчётов исследуемого сигнала.
Так, проведенное нами исследование зависимости разрешения по частоте от размера окна анализа при использовании преобразования Фурье применительно к сигналу ЭЭГ с частотой дискретизации 1 кГц (рисунок 2.6) показало, что в данном случае разрешения по частоте недостаточно для получения полноценной картины частотных пиков на кривой ЭЭГ. При окне анализа, меньшем 0.3 с, ряд основных ритмов ЭЭГ будет представлен всего 2-5 коэффициентами преобразования Фурье.
Рисунок 2.6 - Зависимость разрешения сигнала ЭЭГ по частоте (в Гц) от размера окна анализа (в с), которое использовалось при обработке данных ЭЭГ с помощью преобразования Фурье. Частота дискретизации исследуемого сигнала - 1 кГц
Попытка преодолеть эти недостатки была предпринята с использованием вейвлет-анализа, являющегося представителем второго из отмеченных выше классических подходов. Применение вейвлетов, как предполагается, обеспечит лучшую локализацию разночастотных элементов сигнала по времени и поможет эффективнее выявлять локальные особенности исследуемого сигнала, при этом разрешение по частоте всё же не будет достаточно высоким.
Анализ изменения структуры частотных диапазонов сигнала ЭЭГ, исходя из положения минимумов и максимумов матрицы вейвлет-коэффициентов, между тем, позволяет существенно расширить представления о функционировании нейронных ансамблей головного мозга, формирующих сигнал ЭЭГ. Применение данного метода для изучения других медико-биологических сигналов также представляется весьма перспективным, поскольку позволит более детально описать структуру и временную динамику осцилляторов, порождающих те или иные феномены в исследуемых последовательностях ЭЭГ. Таким образом, возникает необходимость модификации уже существующих методов анализа медико-биологических сигналов, основанных на преобразовании Фурье и/или вейвлет-анализе. При этом разрабатываемые алгоритмы должны давать хорошее разрешение исследуемого сигнала по частоте и приемлемое по времени. В этом случае под приемлемым разрешением по времени подразумевается, что отрезок времени, в котором данным методом локализуется частотный феномен (паттерн) ЭЭГ, должен быть сопоставим с периодом, в течение которого происходит реакция человека на внешние стимулы [416]. Например, латентное время реакции коры головного мозга на вспышку света составляет от 50 до 300 мс, что может служить отправной точкой при оценке разрешения по времени для исследования данной группы процессов.
Проведенные нами вычисления для двух анализирующих вейвлетов (Morlet и Wave) показали (рисунок 2.7), что разрешение сигнала ЭЭГ по частоте в области высоких частот сигнала (~35-300 Гц) невелико, что не позволяет провести анализ изменения структуры частотных диапазонов, исходя из структуры минимумов и максимумов матрицы вейвлет-коэффициентов.
В основу одного из предложенных в данной работе алгоритмов обработки сигналов ЭЭГ положено классическое оконное преобразование Фурье, где функция окна является П-образной и равной единице в каждой
точке окна. Размер окна должен обеспечивать необходимое разрешение по частоте для детального выявления разночастотных феноменов. Сдвиг окна анализа должен быть значительно меньше его длины (эпохи анализа) и задаваться, исходя из требования временной локализации исследуемого процесса, а в случае реализации в реальном масштабе времени - ещё и с учётом имеющихся компьютерных ресурсов.
Разрешение по частоте , Гц
0.25 0.75 5.00 25 75 50D
0.50 2.50 7.50 50 250
Рисунок 2.7 - Зависимость разрешения по частоте (в Гц) для сигнала ЭЭГ от частоты сигнала (в Гц): точки «А» - результаты, полученные при использовании вейвлета Morlet, точки «Б» - при использовании вейвлета
Wave
Итак, пусть имеется исходный сигнал, в частности сигнал ЭЭГ, в котором появляется и исчезает дополнительная гармоника частоты сигнала. Задачей обработки сигнала является локализация этой гармоники в частотном и временном пространстве.
Отметим, что применение аппарата вейвлет-анализа не позволяет достаточно четко локализовать определенные частоты сигнала ЭЭГ во времени, так как они приходятся на ту область частотно-временного пространства, где, несмотря на хорошее разрешение по времени, разрешение
по частоте крайне неудовлетворительное. Фактически, интересующие нас частоты сигнала могут быть локализованы в любом участке частотного пространства от 0.5 до 500 Гц при частоте дискретизации в 1 кГц. Нижняя граница частоты сигнала будет определяться характеристиками частотного фильтра прибора, например электроэнцефалографа, удаляющего низкочастотные колебания, а верхняя её граница - частотой Найквиста.
Рассмотрим результаты работы предлагаемого алгоритма обработки сигнала ЭЭГ на основе преобразование Фурье. На рисунках 2.8 и 2.9 представлен отрезок модельного сигнала, соответствующий по числу отсчётов за период регистрации сигнала 1 с при частоте дискретизации 1 кГц. Используемое преобразование Фурье при величине окна в 250 отсчётов даёт разрешение по частоте в 3.968 Гц, но при этом возникают проблемы с локализацией во времени компонентов сигнала, содержащих эти частоты. По сути, мы можем локализовать интересующую нас компоненту сигнала, содержащую определенную частоту, с точностью, не превышающей 250 мс (это зависит от размера окна). Использование первого окна (блока «А» на рисунке 2.8) позволяет получить начальные значения спектральной плотности мощности (СПМ) F , от которых в дальнейшем можно отталкиваться для проведения анализа сигнала ЭЭГ (см. рисунок 2.9, а). В случае использования модельного сигнала есть только одна частота (~ 80 Гц), превышающая заданный исследователем порог (который устанавливается для устранения шумов).
Введём матрицу появления частот, состоящую из единиц и нулей, в которой столбцы матрицы будут соответствовать отрезкам времени, отражающим сдвиг окна для преобразования Фурье, а строки - самим частотам. В том случае, если значения СПМ на данной частоте превышают порог, устанавливаемый исходя из целей исследования, то соответствующему элементу матрицы присваивается «1», в противном случае - «0». На начальном этапе обработки сигнала в нём присутствует
компонента только с одной частотой. Произведем сдвиг окна анализа и вновь выполним преобразование Фурье.
Рисунок 2.8 - Схема реализации алгоритма, использующего модельный сигнал: по оси X отложены порядковые номера отсчётов, по оси Y -амплитуда модельного сигнала в условных единицах
Получим, что в этом случае ряд значений СПМ превысит заданный порог частоты. Таким образом, в столбце, соответствующем новому положению окна преобразования Фурье (соответствующему блоку «Б»), будет уже две группы единиц, отражающие появление в сигнале второй компоненты с другой частотой.
с 2 2
г, мкВ
пр ого вые значения СПМ
частота .Гц
1 -Г 2 Г, мкВ
А 1 проговые значения СПМ
Ы 1 частота г Гц
Рисунок 2.9 - Динамика поведения спектральной плотности мощности F (в мкВ ) в зависимости от частоты сигнала (в Гц), соответствующая блоку «А» рисунка 2.8 (справа) и блоку «Б» (слева). Видна появившаяся новая частотная
компонента сигнала в блоке «Б»
Проведем локализацию во времени компоненты сигнала с новой частотой, появившуюся в результате моделирования. Отметим, что положение «Б» соответствует окну с протяженностью от В1 до В2 (см. рисунок 2.8), и, если имеется только это положение окна, локализовать такую компоненту можно было бы лишь на этом отрезке. Однако есть ещё и окно «А», локализованное между А1 и А2. Из матрицы СПМ можно определить, что на этом отрезке отсутствует частота, соответствующая частоте, проявившейся при анализе блока «Б». Но отрезок от В1 до А2 использовался и для расчёта спектра сигнала в позиции «Б». Отсюда следует, что на отрезке А2-В1 компонента сигнала с новой частотой в составе сигнала либо появлялась, либо значительно увеличивала свою амплитуду. Так, для модельного сигнала при разрешении по частоте 3.968 Гц была получена локализация времени появления частоты в 50 мс при величине окна анализа 250 мс. Сравним полученные при использовании предложенного алгоритма результаты с данными вейвлет-анализа такого же сигнала, если взять в качестве анализирующего вейвлет Мог1е1 При этом надо отметить, что такой вейвлет мало приспособлен для анализа ЭЭГ-данных в реальном масштабе времени из-за значительных размеров окна во временной области. Для этого вейвлета на данном масштабе (частоте) величину отрезка D, на котором его значения ненулевые, можно представить как D ~ 5.5 а, где а - масштаб вейвлет-преобразования. Для выявления наличия различных частот в структуре модельного сигнала масштаб вейвлет-преобразования надо взять равным 24 (см. рисунок 2.7), что даст длину анализирующего вейвлета 132 отсчёта. Однако при непрерывном вейвлет-преобразовании и использовании порога значений вейвлетной плотности мощности точность локализации во времени интересующей нас частоты сигнала составит ±1 отсчёт, т. е. в данном случае ±1 мс. Однако для такой локализации необходимо провести обработку сигнала продолжительностью 132 мс, что превышает локализацию, полученную в предлагаемом нами модифицированном методе преобразования Фурье. При этом локализация по частоте сравнима с таковой
при использовании преобразования Фурье. Погрешность локализации исследуемой частоты в области более высоких частот сигнала составляет 0.27 Гц, а в области низких частот - 0.53 Гц. При достижении локализации процесса по времени в 50 отсчётов (т. е. в 50 мс) погрешность в определении частоты для случая использования вейвлета Мог^ составит 6.73 Гц - в области более высоких частот и 5.38 Гц - в области более низких, что более чем в 2,5 раза уступает предлагаемому нами методу. Для других типов вейвлетов, дающих худшее, чем у вейвлета Мог1е^ разрешение по частоте, показатели такого разрешения будут ещё ниже.
Исследуем теперь, как локализовать частотную компоненту, исчезающую из модельного сигнала. В этом случае (см. рисунки 2.8, 2.9) её исчезновению будет соответствовать блок «Г», при том, что эта компонента в предшествующем блоке «В» присутствует, но исчезает до его окончания.
По аналогии с матрицей появления частот, введём матрицу исчезновения частот. И в этом случае частоте, превышающей пороговое значение СПМ для заданной частоты, будет соответствовать значение «1», а подпороговому значению - «0». Очевидно, что в столбце блока «В» частота будет присутствовать, но будет отсутствовать в столбце блока «Г». Сказанное выше означает, что исследуемая частота уменьшала своё представительство в картине сигнала в период времени от С1 до D2. Сопоставив матрицы частот, получим, что компонента с данной частотой присутствовала в сигнале на отрезке от А2 до D2. Естественно, что разрешение, даваемое используемым методом, лимитируется во времени величиной сдвига окна.
Таким образом, сохранив высокое разрешение по частоте, мы смогли при использовании предлагаемого модифицированного метода добиться при анализе сигналов ЭЭГ существенного, практически трёхкратного увеличения разрешения по времени по сравнению с применением обычного оконного преобразования Фурье.
Рассмотрим ограничения, возникающие при использовании предлагаемого метода для обработки данных ЭЭГ в реальном масштабе
времени. Ключевым ограничением является задержка по времени, связанная с тем, что есть интервал времени между появлением первых отсчетов исследуемого сигнала и моментом времени, когда количество отсчётов становится достаточным для начала обработки информации с помощью преобразования Фурье. Проведённые нами вычислительные эксперименты показали, что, несмотря на то, что размер используемого окна анализа составил 250 мс, задержка по времени накопления данных была только 50 мс, так как лишь отсчёты в этом отрезке должны быть добавлены к уже существующим. В этом случае задержка в локализации компоненты сигнала с появившейся частотой будет определяться временем накопления данных в окне плюс время на проведение расчётов, необходимых для выполнения преобразования Фурье, а задержка по времени при исчезновении этой компоненты в сигнале - это время, затраченное на накопление отсчетов в первом окне, где частота отсутствует, т. е. равное в данном случае 250 мс.
2.3 Обработка данных ЭЭГ на основе анализа частотных зависимостей и вейвлет-преобразования
Несмотря на то, что по поводу механизмов электрогенеза ЭЭГ до сих пор ведутся многочисленные дискуссии, тем не менее, считается, что в целом сигнал ЭЭГ формируется сложением локальных ответов, возникающих на дендритах нейронов в основном в коре больших полушарий головного мозга. Следовательно, можно сказать, что ЭЭГ - это суперпозиция волн активности нейронов головного мозга, объёдинённых в ансамбли.
Выявление цепочек локальных максимумов для матрицы квадратов вейвлет-преобразования. Были получены и использованы электроэнцефалограммы 22-х пациентов, при разрядности АЦП 16 бит и частоте дискретизации 5000 Гц. Согласно традиционным представлениям о вейвлет-анализе, максимумы вейвлетной плотности мощности Ж (а,Ь) соответствуют компонентам сигналов, амплитуды которых резко выделяются на фоне амплитуд сигналов с другими частотами в структуре сигнала.
На рисунке 2.10 дан график зависимости величины вейвлетной
2
плотности мощности W2(a,b) от масштаба а вейвлет-преобразования для пациента в состоянии покоя. Использовано отведение Oz, частота дискретизации сигнала - 1кГц, время построения скейлограммы - 10 мс с шагом 20 мс. Можно заметить из рисунка 2.10, что разные локальные спектры ЭЭГ имеют различное расположение экстремумов в частотном пространстве, что с физиологической точки зрения характеризует изменение периода колебаний исследуемых параметров, выделенных пользователем. Ключевым моментом является выбор оптимального метода расчета
локальных максимумов и минимумов матрицы вейвлет-коэффициентов
22 W (а,Ь). Значения экстремумов W (а,Ь) вычисляются при постоянном
масштабе а вейвлет-преобразования, что даёт, например, возможность
рассчитать параметр d, который трактуется Н. М. Астафьевой [10] как
«фрактальная размерность исследуемого ряда».
Масштаб
Рисунок 2.10 - Зависимость величины вейвлетной плотности мощности
2
W2(a,b) от масштаба а вейвлет-преобразования для пациента в состоянии покоя. Использовано отведение Oz, частота дискретизации сигнала - 1кГц, время построения скейлограммы - 10 мс с шагом 20 мс. Спектры построены в следующем порядке: сплошная линия, пунктирная, точечная и штрих-
пунктирная
Однако если проводить расчеты не при постоянном значении масштаба а, а при постоянном времени, то распределение локальных максимумов и минимумов частотного спектра будет изменяться (см. рисунки 1.11, 1.12). Очевидно, что в общем случае координаты локальных максимумов и минимумов W (a,b) в пространстве (a,b) не будут совпадать друг с другом. Следовательно, полученные данные будут нести новую информацию, которую можно использовать, например, для анализа сигналов с точки зрения выявления возможности существования переходных процессов [456] к состоянию хаоса. В то же время надо чётко представлять себе и те ограничения, которые накладываются на обработку данных при использовании этого метода.
В первую очередь речь идёт о том, что использование разных типов вейвлетов приводит к разному разрешению по частоте исследуемых сигналов. Так, при использовании одного из самых популярных видов вейвлетов для анализа биомедицинских данных - вейвлета Morlet - можно с разрешением менее 1 Гц достаточно подробно исследовать сигнал ЭЭГ при частоте его дискретизации 1 кГц, начиная с частоты в 32 Гц, что охватывает большую часть частот ЭЭГ. Однако это не даёт возможности во всей полноте проанализировать малоисследованные высокие частоты у-ритма, диапазон которых - от 35 Гц и выше. Наряду с этим, такое разрешение по частоте можно применять только при компьютерном off-Нпе-исследовании, поскольку при использовании вейвлетов Morlet невозможно проводить оперативный вейвлет-анализ ЭЭГ с задержкой менее 2-3 с, что, например, является проблемой при использовании таких вейвлетов в технологиях нейрокомпьютерного интерфейса или биологической обратной связи.
Отсюда возникает необходимость применения обеспечивающих лучшую локализацию во временном пространстве типов вейвлетов, однако при этом произойдет ухудшение частотного разрешения сигнала. Так, применение вейвлета типа Wave позволяет выйти на обозначенный уровень разрешения,
полученный с использованием вейвлета Мог1е^ только для частот < 13 Гц, вейвлета МНАТ - < 15 Гц, вейвлета DOG-8 - < 20 Гц.
Иными словами, волны электромагнитных колебаний нейронного ансамбля, частоты которых находятся в диапазоне наилучшего выделения их конкретными вейвлетами, могут значительно уменьшить свои амплитуды. Следовательно, они могут остаться недетектированными указанными выше способами или же будут отнесены к одной из центральных частот, на которых происходит вейвлет-анализ, что исказит результаты исследования [433].
Рассмотрим теперь ход изменения положения локальных максимумов вейвлетной плотности мощности Ж (а,Ь), отмечаемое в процессе анализа регистрируемого сигнала ЭЭГ.
На рисунках 2.11, 2.12, где в координатах масштаб-время представлены картины расположения локальных максимумов вейвлетной плотности мощности Ж (а,Ь) при использовании отведения Oz, частоты дискретизации сигнала - 1кГц и периода построения скейлограммы - 1 мс, видна характерная древовидная структура этой зависимости. На рисунке 2.13 представлен пример динамической картины поведения локальных максимумов вейвлетной плотности мощности Ж (а,Ь) для ЭЭГ в состоянии покоя пользователя. Как видно из рисунка, можно выделить два типа динамических картин частот ЭЭГ: «активирующая» (область Б, характеризующаяся повышением частоты и появлением новых частотных пиков на скейлограммах) и «угасающая» (область А, характеризующаяся снижением частоты выбранного осциллятора и уменьшением числа осцилляторов, участвующих в формировании сигнала ЭЭГ) [421].
Интерпретация результатов динамических картин поведения локальных максимумов вейвлетной плотности мощности Ж (а,Ь) позволяет выявить изменение активности нейронных ансамблей, формирующих сигнал ЭЭГ [483]. Увеличение частоты выбранного осциллятора и появление новых осцилляторов (или рассогласование работы уже существующих ансамблей)
характерно, например, для ориентировочной реакции, а синхронизация их работы и снижение частот - для состояния сна.
масштаб (а)
Рисунок 2.11 - Распределение локальных максимумов вейвлетной плотности мощности W (a,b). Использовано отведение Oz, частота дискретизации сигнала - 1кГц, период построения скейлограммы - 1 мс
Рисунок 2.12 - Распределение локальных максимумов вейвлетной плотности
2
мощности рассчитанных для каждого масштаба а. Использовано
отведение Oz, частота дискретизации сигнала - 1кГц, период построения
скейлограммы - 1 мс
Рассмотрим выделенный блок А на рисунке 2.13. Хорошо видно, что в течение определённого времени 20-50 мс) период колебаний волны ЭЭГ в
ряде случаев остается почти постоянным, т. е. масштаб а вейвлет-преобразования, соответствующий пиковой частоте в данном частотном диапазоне ЭЭГ, лишь незначительно дрейфует в область увеличения периода данной волны. В дальнейшем следует резкий переход (скачок) частоты исследуемой волны ЭЭГ на уровень более низких частот.
Использование различных вариантов кластерного анализа позволило подтвердить, что отмеченные точки на рисунке 2.13 действительно лежат ближе друг к другу, чем точки, отмечающие локальные максимумы, входящие в иные последовательности локальных максимумов на матрице W(a,b), что позволяет интерпретировать их именно в качестве одного или группы тесно связанных между собой осцилляторов, а не в виде отдельных независимых нейронных ансамблей. Здесь важно отметить, что процесс изменения и скачков частот ритмов ЭЭГ захватывает одновременно и диапазон в-ритма, и высокочастотный поддиапазон а-ритма без их разделения, однако такое разделение традиционно проводится при проведении исследований непосредственно по медицинской тематике.
Рисунок 2.13 - Картина расположения локальных максимумов матрицы вейвлет-коэффициентов. Использовано отведение Oz, частота дискретизации сигнала - 1кГц, период построения скейлограммы - 1 мс
На блоке Б рисунка 2.13 представлен процесс, обратный по отношению к процессу, отмеченному в блоке А. Хорошо видно, что в том же частотном
диапазоне (а именно, при изменении частот от ~ 9 Гц до ~ 35 Гц) происходит дрейф пиковой частоты выявленных осцилляторов в область высокочастотного в-ритма. При этом исчезновение одного пика, приводит к появлению двух пиков, природа которых в настоящее время неизвестна. Первый находится в интервале более высоких частот и, как правило, в области, принадлежащей доверительному интервалу точек линии регрессии, построенной на основе координат локальных максимумов предыдущего осциллятора. Второй находится в том же частотном диапазоне, что и предыдущий пик, и во многом повторяет его динамику: зарождается на более низких частотах, дрейфует в сторону высокочастотных диапазонов и в дальнейшем через некоторое время исчезает.
Таким образом, выше продемонстрировано, что применение непрерывного вейвлет-анализа с использованием разработанного способа оценки локализации частотных пиков, несмотря на ограничение по разрешению по частоте для а-, в- и у-ритмов, позволяет получить новую ценную информацию о феноменах ЭЭГ, связанных с дрейфом частот сигналов ЭЭГ, и появлением или исчезновением осцилляторов, формирующих такие сигналы.
2.4 Анализ электроэнцефалограмм на основе исследования изменяющейся во времени структуры локальных максимумов матрицы вейвлет-коэффициентов
В разделе 2.3 анализ полученных локальных максимумов величин W(a,b) с целью определить наиболее выраженные частоты в сигнале ЭЭГ показал, что координаты таких максимумов в частотно-временном пространстве образуют особые структуры - «цепочки локальных максимумов» (ЦЛМ), частотные характеристики которых меняются во времени (рисунок 2.14). Ключевым моментом в формировании подобной цепочки, или же в её прерывании, являются правила или критерии, по которым новая координатная точка (а,Ь), соответствующая локальному
максимуму на скейлограмме, включается или не включается в уже имеющуюся ЦЛМ. Скейлограмма Ру(а/) сигнала ЭЭГ при этом определяется как (2.6).
В ходе проведенной серии экспериментов наилучшим образом зарекомендовал себя подход, основанный на оценке числа локальных максимумов в цепочке таких максимумов и времени, в течение которого существует эта цепочка [457].
Рисунок 2.14 - Распределение локальных максимумов в матрице квадратов коэффициентов вейвлет-преобразования Ж (а,Ь) сигналов ЭЭГ, построенное
на основе скейлограмм
Основной задачей данного этапа было определение оптимальных правил формирования ЦЛМ: будут ли эти правила постоянными для всей матрицы квадратов коэффициентов вейвлет-преобразования или же они должны меняться динамически с учётом значений координат исследуемого максимума как во времени, так и по частоте. Как для ЭЭГ, так и при использовании модельных сигналов, новая точка локального максимума «присоединяется» к уже имеющейся цепочке на основе динамически формируемого правила включения локальных максимумов в ЦЛМ. В случае если единичная ЦЛМ не имеет разрывов во временной области, т. е. для
каждого значения Ь матрицы W (а,Ь) будет существовать локальный максимум, включенный в ЦЛМ, то отношение А?/к (где А? есть разность времён начала и конца цепочки, совпадающая с числом построенных локальных спектров; к - число точек в ЦЛМ) стремится к единице, равно как и обратное отношение к/А?. Однако если параметр к является универсальным в любой системе отсчёта, то при определении параметра А? следует учитывать систему координат. Если величина А? измеряется в секундах, то большое число точек к в сигнале ЭЭГ может приводить к весьма малым значениям А?/к при высоких частотах дискретизации, например: 1, 2, 2.5, 5 или 40 кГц [408]. Максимальных значений отношение А?/к будет достигать в случае наибольших значений частот дискретизации сигнала, используемого для расчета матрицы коэффициентов вейвлет-преобразования, при этом дальнейшее построение локальных спектров будет происходить при усреднении нескольких значений Ь, что может потребоваться в ресурсоёмких вычислениях. В том же случае, если величина А? определяется как число отсчётов в сигнале, то отношение А?/к (и к/А?) должно стремиться к единице при достижении максимально возможного числа точек локальных максимумов в единицу времени для одной ЦЛМ. Для устранения особенности отношения А?/к, связанного с «привязкой» числителя А? к частоте дискретизации сигнала и дальнейшей возможной децимации или усреднения локального спектра, логично вместо А? использовать параметр АЬ, так как он отражает разность между порядковыми номерами локальных спектров, в которых находились локальные максимумы. Параметр АЬ, являясь безразмерным, обеспечивает достаточно простую оценку времени исследуемого процесса для одного и того же сигнала. При этом следует использовать параметр АЬ, исходя из учёта принципа максимизации числа точек к ЦЛМ, приходящихся на длину единичной цепочки (так как в данном случае длина единичной ЦЛМ и есть АЬ), которая, заметим, здесь будет оцениваться не количеством секунд, а числом локальных спектров, максимумы которых формируют ЦЛМ. Отметим, что величина к/АЬ
принадлежит диапазону значений (0;1] и, по сути, выражает долю насыщения ЦЛМ определённой длины локальными максимумами. Её удобно использовать при анализе ЦЛМ, а также в расчетах для систем реального времени и для интерпретации полученных показателей [423]. Изложенный выше подход позволяет, с одной стороны, выделять ЦЛМ, а с другой -избежать неправомерного объединения таких ЦЛМ, когда между ними наблюдаются частотно-временные области без локальных максимумов. Укажем также, что при использовании k/^b—>1 для одиночной ЦЛМ в было получено выражение для логической функции f^by) принятия решения о включении (или не включении) локального экстремума с координатами (a^by) в конкретную ЦЛМ. Используя это правило, было получено выражение для логической функции f(a,b) принятия решения о включении (или не включении) локального экстремума с координатами (ai,bj) в конкретную ЦЛМ:
1,(a, е [a,_1 _ (vas + и), a,_1 + (vas + и)]) л (b7 е (b7b7_! + (vas + и)]);
0,(a, € [ai-1 - (vas + и), ai-1 + (vas + и)]) v , (2.7)
(b7 € (by_l,b7_i + (vas + и)]
где аг-1 - масштаб локального максимума концевой точки ЦЛМ, ближайшей по величине масштаба к предполагаемому для включения в ЦЛМ локальному максимуму; Ьу-1 - время (или номер отсчёта, номер скейлограммы) концевой точки ЦЛМ, ближайшей по времени (номеру отсчёта, номеру скейлограммы) к аналогичному значению предполагаемого для включения в ЦЛМ локального максимума; as - значение масштаба первой точки формирующейся ЦЛМ. Константы и и v получены при использовании правила максимизации отношения k/Ab. Для вейвлетов Morlet и Wave экспериментально были получены значения и = 3 и v = 0.05.
Полученное в ходе такой кластеризации множество ЦЛМ может быть подвергнуто дальнейшей обработке с целью выявления в них физиологически значимых элементов. Целесообразно использовать для этого
f (a,, by)
следующие характеристики ЦЛМ: масштаб вейвлет-преобразования а (или соответствующую частоту), при котором появилась (а3) или прервалась (а/) данная ЦЛМ; время появления ts и прекращения / ЦЛМ; длительность ЦЛМ Аt = / - ts^; «дрейф» масштаба Аа = а3 - а/; количество k локальных максимумов в ЦЛМ; отношение А^, отражающее «плотность» локальных максимумов в ЦЛМ [469].
2.5 Моделирование выделения и анализа цепочек локальных максимумов вейвлет-спектров на примере сигналов с известными свойствами
Создание новых методов анализа, в том числе с использованием вейвлет-преобразования, требует особого внимания при их применении к исследованию многокомпонентых сигналов, порождаемых, например, нейронами, входящими в состав головного мозга. Использование модельных сигналов с заранее известными характеристиками позволяет наиболее полно оценить возможности и ограничения применяемого метода, выявить его преимущества и недостатки по сравнению с тем, что можно получить при теоретических оценках.
В разделах 2.1, 2.3-2.5 был разработан метод анализа электроэнцефалограмм на основе непрерывного вейвлет-преобразования с использованием информации о динамике поведения локальных максимумов частот на скейлограммах. Определены условия, при которых конкретный локальный максимум матрицы вейвлет-коэффициентов включается в цепочку локальных максимумов (ЦЛМ), отражающую активность определённого пула нервных клеток, участвующих в формировании сигнала ЭЭГ. Указан набор показателей для проведения исследования структуры ЦЛМ. На основе метода ЦЛМ был проведён анализ как нативной ЭЭГ, так и вызванных потенциалов головного мозга. Предложенный в метод использовался для изучения реальных ЭЭГ. В то же время для детального определения механизма формирования и поведения ЦЛМ в разных случаях
или ситуациях можно было бы использовать и достаточно простые функции, моделирующие сигналы ЭЭГ. Это позволило бы выявить дополнительные возможности метода.
Целью настоящего раздела является оценка возможностей метода ЦЛМ на основе использования модельных функций в качестве обрабатываемых сигналов. Для пяти групп модельных сигналов с определёнными временными и спектральными характеристиками, полученными классическими методами преобразования Фурье, будут выделяться и исследоваться различные типы структур ЦЛМ [422].
Этапы построения ЦЛМ применительно к модельным сигналам. Коэффициенты вейвлет-преобразования W(a,b), формирующие матрицы в пространстве (a,b), рассчитывались согасно (1). Анализ полученных локальных максимумов матрицы W (a,b) при постоянном значении b с целью определить наиболее выраженные частоты в сигнале ЭЭГ показал, что координаты таких максимумов в частотно-временном пространстве образуют особые структуры - цепочки локальных максимумов - ЦЛМ.
В качестве анализирующих вейвлетов для непрерывного вейвлет-преобразования сигналов в данной работе использовались вейвлеты Morlet и Wave. По аналогии с обработкой данных ЭЭГ, сигналы оценивались как на нативной модели, т. е. анализировался полученный исходный сигнал, так и на децимированном сигнале. Подобная процедура необходима для определения устойчивости метода к различным условиям регистрации сигнала, связанным с изменением частоты дискретизации. Поэтому очевидной является необходимость показать малую чувствительность разработанного метода к изменению частоты дискретизации сигнала.
Рассмотрим теперь конкретные модельные сигналы, которые будут обрабатываться с использованием алгоритмов построения и оценки цепочек локальных максимумов на основе матрицы вейвлет-коэффициентов.
Модельный сигнал № 1 - это функция вида:
y = sin(x3/2/100), (2.8)
где у - амплитуда сигнала; х - порядковый номер отсчёта в сигнале.
Очевидно, что согласно (2.8) частота этого сигнала при изменении х будет увеличиваться, а следовательно, масштаб вейвлет-преобразования -уменьшаться (см. рисунки 2.15, 2.16).
Рисунок 2.15 - Распределение локальных максимумов в матрице квадратов коэффициентов вейвлет-преобразования Ж (а,Ь) для модельного сигнала (1). Использован вейвлет Мог!е^ краевые эффекты удалены
Рисунок 2.16 - Распределение локальных максимумов в матрице квадратов коэффициентов вейвлет-преобразования W (a,b) для модельного сигнала (1.8). Использован вейвлет Wave, краевые эффекты удалены
На рисунках 2.15-2.16, помимо «главной» ЦЛМ, формирующейся из наиболее выраженных пиков локальных спектров, получаемых по формуле (2.8), видны «дополнительные» ЦЛМ, отражающие эффекты частотной модуляции сигнала. Из рисунка также видно, что разрешение по частоте для вейвлета Wave значительно ниже такового для вейвлета Morlet, при этом само расположение локальных максимумов соответствует меньшим значениям масштаба а.
В качестве модельного сигнала № 2 был использован набор синусоид,
моделирующий ситуацию, когда, в отличие от модельного сигнала № 1, осуществляется резкий переход между частотами сигнала с последующим возвращением частоты к исходному значению:
у = sin(х/ 5), х е [1,355] у = вш(х/25.12),х е [356,746] [у = sin(х/5),х е [747,1000]
(2.9)
где у - амплитуда модельного сигнала, а х - номер отсчета. Рассмотрим модельный сигнал № 2 длиной 1000 отсчетов.
Рисунок 2.17 - Распределение локальных максимумов в матрице квадратов коэффициентов вейвлет-преобразования Ж (а,Ь) для модельного сигнала (2.9). Использован вейвлет Мог1е1 Краевые эффекты не удалены для демонстрации ограничения метода
Рисунок 2.18 - Распределение локальных максимумов в матрице квадратов коэффициентов вейвлет-преобразования W (a,b) для модельного сигнала, полученного по формуле (2.9), построенное на основе скейлограмм. Использован вейвлет Wave, краевые эффекты удалены
Из рисунка 2.18-2.19 видно, что в целом для вейвлета Wave задача разделения фрагментов сигнала в частотно-временном пространстве решена успешно: дающий лучшую локализацию во времени по сравнению с
вейвлетом Morlet, он позволяет зафиксировать переход частот в сигнале, в то время как даваемое им достаточно низкое разрешение по частоте не оказывает существенного влияния на качество детектирования частот сигнала из-за их значительного различия. В то же время лучшее разрешение вейвлета Morlet по частоте по сравнению с вейвлетом Wave оказалось недостаточно эффективным для выделения низкочастотного компонента сигнала из-за малого времени его существования. Так, при проведении вычислительного эксперимента низкочастотный компонент присутствовал только в 390 отсчетах сигнала (2.9), при этом число отсчётов, формирующих вейвлет, составляло величину ~ 900, что значительно превосходило число отсчётов в данном фрагменте сигнала, и, следовательно, в расчете вейвлет-коэффициентов использовались значения сигнала, содержащие иную -большую частоту (2.9).
Сигналы нескольких следующих типов были получены в результате генерации белого шума (100 сигналов), каждый из которых в дальнейшем был подвергнут последовательному суммированию с окном в 20 отсчётов:
g + 20-1
zg = X X , (2.10)
i = g
где zg - g-я точка сигнала z после проведения суммирования отсчетов; g - порядковый номер сдвигаемого окна суммирования; xi - амплитуда белого шума в i-й точке от начала модельного сигнала.
Таким образом для каждого из 100 файлов, содержащих исходный белый шум, был получен набор из 100 модельных сигналов, спектр которых приближался к виду Af)~1/f где f - частота исследуемого сигнала, A(f) - его амплитуда на частоте f. Аналогично, из белого шума путём последовательного дифференцирования было получено 100 реализаций модельных сигналов вида A~f представляющих собой третью производную функции белого шума. Группу из трёх сигналов: белого шума и полученных из него сигналов типов Af)~1f и Af)~f будем называть «пулом сигналов».
Усреднённые спектры каждого из этих типов модельных сигналов представлены на рисунке 2.19.
5 т-
■25
Частота (Ьо§2(п))
Рисунок 2.19 - Усредненные спектры трёх типов шумов, используемых в качестве модельных сигналов: по оси абсцисс отложена частота (п -порядковый номер коэффициента преобразования Фурье), по оси ординат -
амплитуда сигнала в децибелах; ромбовидные маркеры - белый шум; треугольные маркеры - шум, полученный как третья производная функции белого шума; квадратные маркеры - шум, полученный из белого шума по
формуле (2.10)
Рассмотрим динамику цепочек локальных максимумов для данных видов модельных сигналов. При этом будем использовать классификацию ЦЛМ, аналогичную той, которая применялась для анализа ЭЭГ. Для частотного пространства: 1) стабильно растущая по частоте ЦЛМ; 2) стабильно убывающая по частоте ЦЛМ; 3) ЦЛМ, практически не изменяющаяся в частотном пространстве; 4) ЦЛМ, демонстрирующая сначала рост частоты локальных максимумов, а потом её уменьшение, при том, что завершиться она может как на более высокой, так и на более низкой частоте по сравнению с начальной; 5) ЦЛМ, в которой частота локальных максимумов первоначально уменьшается при последующем её росте; как и
для предыдущего типа, отношение частот начала и завершения ЦЛМ может быть различным.
Применительно к показателям
Ж2(а,Ь) типы динамики ЦЛМ считаются аналогичными: 1) стабильно нарастающая по энергии ЦЛМ; 2) стабильно убывающая по энергии ЦЛМ; 3) ЦЛМ, практически не изменяющиеся по энергии; 4) ЦЛМ, демонстрирующая сначала рост энергии сигнала, а потом её уменьшение, при том, что завершиться она может как на более высоком, так и на более низком значении энергии по отношению к начальному; 5) ЦЛМ, демонстрирующая уменьшение энергии с последующим ростом; как и для предыдущего типа, отношение энергий начала и завершения ЦЛМ может быть различным.
На первом этапе исследования оценим количество ЦЛМ по частотным и по энергетическим Ж (а,Ь) составляющим. В обоих случаях критерий Крускайла-Уолеса и медианный тест указывают на достоверность различий как между типами ЦЛМ (р < 0.01), так и между тремя группами модельных сигналов (р < 0.01). Число различных ЦЛМ в энергетическом пространстве значительно различается в зависимости от типа модельного сигнала. Так, третий тип ЦЛМ, характеризующийся отсутствием динамики по энергии, наиболее характерен для использования белого шума, в то время как «нарастающие» и «убывающие» типы почти в 5 раз чаще встречаются для модельных сигналов с зависимостями типа 1// при том что для остальных групп модельных сигналов их число невелико. Данный феномен можно объяснить наличием в модельных сигналах с функциональными зависимостями выраженных низкочастотных составляющих, что и
формирует ЦЛМ первых двух типов. Важно отметить, что для каждого типа модельных сигналов число ЦЛМ первого и второго типов значимо не различалось, тогда как сравнение четвёртого и пятого типов показало более чем на порядок большее число ЦЛМ пятого типа по сравнению с четвертым (р << 0.001).
При анализе параметров распределения числа ЦЛМ в частотном
пространстве исследуемых пулов сигналов было получено, что модельные сигналы с функциональными зависимостями ~1f и сигналы типа белого шума продемонстрировали схожую структуру средних значений числа ЦЛМ, однако для фликкероподобного шума средние значения числа ЦЛМ значимо ниже аналогичных показателей для белого шума, чем в случае использования белого шума, что можно объяснить наличием выраженных низкочастотных компонентов в сигналах с зависимостями ~1/f при значительно менее выраженных высокочастотных.
Анализируя результаты, полученные с использованием вейвлета Wave для исследуемых пулов сигналов, можно заметить, что сравнение числа ЦЛМ различных типов, полученных для трёх групп модельных сигналов методом Крускайла-Уоллеса и медианным тестом, продемонстрировало их значимое различие (р < 0.001). Тем не менее важно указать, что, хотя общая структура частот встречаемости ЦЛМ различалась, для трёх типов модельных сигналов различия по ряду шкал (типы сигналов 1, 2 и 5) отсутствовали: так, для частотного пространства различия между сигналами группы фликкероподобного шума и шумов, полученных путём дифференцирования белого шума, не различались, уступая по частоте встречаемости ЦЛМ для белого шума.
Несмотря на применение двух разных вейвлетов, общая тенденция в структуре встречаемости типов ЦЛМ остаётся без изменения - это большее число ЦЛМ в частотном пространстве при использовании белого шума по сравнению с использованием цветного шума и сходная для этих шумов структура встречаемости типов ЦЛМ. Данный эффект нетрудно объяснить, проанализировав информацию, представленную на рисунке 2.19. Видно, что в спектре белого шума представлены все частоты модельного диапазона, тем временем, как для цветных шумов характерны частотные области, где амплитуда сигнала более низкая, а следовательно, выявление в этих областях локальных максимумов для построения ЦЛМ на фоне более высокоамплитудных компонентов далеко не всегда возможна. В
энергетическом пространстве практически отсутствуют ЦЛМ четвёртого типа, при том что пятый тип достаточно хорошо выражен. Интересно, что для белого шума оказался хорошо выраженным стабильный (третий) тип динамики ЦЛМ в энергетическом пространстве, чего практически не наблюдается в фоновой ЭЭГ и для вызванных потенциалов. Данное различие нетрудно объяснить тем, что сигналы, зарегистрированные с головного мозга, являются нестационарными по своей природе, т. е. изменяются во времени в достаточно широких пределах, тогда как статистические и спектральные свойства модельных сигналов остаются постоянными в течение всего времени анализа. Используя наиболее часто используемые частоты дискретизации современных электроэнцефалографов, можно определить, что протяженности модельных сигналов, составляющие 1000 отсчётов, эквивалентны временному диапазону сигнала ЭЭГ длиной от 1 до 4 с.
Анализируя результаты распределения ЦЛМ по частотам (масштабам) вейвлет-преобразования, можно по ряду признаков легко различить заявленные 3 группы модельных сигналов. Шум, амплитуда которого нарастает пропорционально частоте, практически не имеет ЦЛМ в низкочастотных областях, в то время как в высокочастотных областях отдельные цепочки достигают длины свыше 10 % от общего числа отсчётов в сигнале. Децимация наиболее сильно повлияла именно на этот показатель для данного типа сигналов. В то же время различия между белым шумом и фликкероподобными колебаниями выражены для большинства используемых типов ЦЛМ незначительно.
Применение для анализа тех же сигналов вейвлета Wave ожидаемо продемонстрировало меньшее по сравнению с использованием вейвлета Morlet число ЦЛМ для шума, содержащего в спектре доминирующие высокочастотные компоненты. Поскольку максимально возможная частота вейвлета Wave существенно ниже таковой для вейвлета Morlet, то очевидно, что часть высокочастотных ЦЛМ для него не может быть зарегистрирована.
Указанные выше закономерности являлись типичными для всех 100 пулов исследуемых модельных сигналов, включая их децимацию, при этом общее число проанализированных сигналов составило 300.
Для определения временной динамики поведения локальных максимумов матрицы W (а,Ъ) используем на первом этапе исследований модельные сигналы двух видов.
Во-первых, рассмотрим стационарный сигнал длиной 1000 отсчётов:
у( х) = 8т(2^96 х) + в1п(2^32 х), (2.10)
где у - амплитуда модельного сигнала, а х - номер отсчета.
Подвергнем этот сигнал (как в последствии и сигналы ЭЭГ) непрерывному вейвлет-преобразованию с использованием вейвлета Мог1е^ построив в дальнейшем набор скейлограмм. Очевидно, что в случае использования вейвлета, обладающего необходимой разрешающей способностью, мы должны получить два пика в локальном вейвлет-спектре. Следовательно, в построенном наборе вейвлет-спектров вне краевых эффектов должны оказаться две линии, параллельные оси времени. Действительно, учитывая «угол влияния» вейвлета, нетрудно определить, что локальные вейвлет-спектры в исследуемом диапазоне частот можно будет рассчитать только в тех временных областях, где анализирующий вейвлет полностью локализован на исследуемом отрезке сигнала, не выходя за его пределы. При этом длительность О анализирующего вейвлета применительно к модельному сигналу составляет с учетом обнуления малых значений величину О ~ 5.5 а , где а - масштаб вейвлет-преобразования.
Во-вторых, рассмотрим другой, более сложный модельный сигнал,
изменяющий свою частоту с течением времени:
у( х) = 8т(2^96 х), х е [1,215] у( х) = 8т(2^96 х) + 8т(2я"32 х), х е
[216,616]
< у(х) = 81П(2^96х) + 81п(2^48х), х е [617,760] (2.11)
у( х) = 8т(2^96 х), х е [761,862] у( х) = 8т(2^96 х) + 8т(2^48х), х е [863,1000]
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.