Алгоритмы обработки и анализа изображений иерархической временной сетью тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Болотова, Юлия Александровна
- Специальность ВАК РФ05.13.01
- Количество страниц 162
Оглавление диссертации кандидат технических наук Болотова, Юлия Александровна
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
1 АНАЛИЗ СУЩЕСТВУЮЩИХ БИОЛОГИЧЕСКИ ПОДОБНЫХ МОДЕЛЕЙ ЗРИТЕЛЬНОГО ВОСПРИЯТИЯ
1.1 Особенности биологической зрительной системы
1.2 Отображение биологических особенностей неокортекса в моделях распознавания объектов на изображениях
1.3 Модель иерархической временной памяти
1.4 Преимущества и недостатки модели
1.5 Цель и задачи исследования
1.6 Основные результаты и выводы по главе 1
2 МОДИФИКАЦИЯ МОДЕЛИ ИВП ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ
2.1 Применение генетического алгоритма для подбора настроечных параметров сети
2.2 Выбор наилучшей структуры сети
2.3 Обучение сети
2.4 Распознавание в сети
2.5 Предобработка изображений
2.6 Моделирование саккадных движений
2.7 Основные результаты и выводы по главе 2
3 ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ РАСПОЗНАВАНИЯ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ ИЕРАРХИЧЕСКОЙ ВРЕМЕННОЙ СЕТЬЮ
3.1 Разработка ПО для задачи распознавания объектов на изображениях
3.2 Приложение, реализующее генетический алгоритм
3.3 Библиотека фильтров Габора
3.4 Библиотека сети ИВП
3.5 Распараллеливание отдельных частей программы
3.6 Программа распознавания статических изображений
3.7 Программа распознавания объектов в видеопоследовательности GestureRecognition
3.8 Основные результаты и выводы по главе 3
4 ТЕСТИРОВАНИЕ И ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ АЛГОРИТМОВ И ПРОГРАММНЫХ СРЕДСТВ ДЛЯ РАСПОЗНАВАНИЯ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ
4.1 Описание тестируемых выборок
4.2 Параметры сети
4.3 Параметры для фильтра Габора
4.4 Тестирование сети
4.5 Основные результаты и выводы по главе 4
ЗАКЛЮЧЕНИЕ
ОБОЗНАЧЕНИЯ
СПИСОК СОКРАЩЕНИЙ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ 1
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Математическая модель наблюдателя в процессе зрительной обработки изображений1998 год, доктор технических наук Трифонов, Михаил Иванович
Многоканальная нейросетевая модель системы компьютерного зрения для задач текстурной сегментации2005 год, кандидат технических наук Цымбал, Дмитрий Александрович
Методы построения и разработки оптических линейно-алгебраических процессоров для параллельных вычислительных систем1997 год, кандидат физико-математических наук Стариков, Ростислав Сергеевич
Применение импульсных рекуррентных нейронных сетей для решения задачи распознавания динамических образов2013 год, кандидат технических наук Никитин, Кирилл Вячеславович
Модели и методы распознавания динамических образов на основе пространственно-временного анализа последовательностей изображений2011 год, доктор технических наук Фаворская, Маргарита Николаевна
Введение диссертации (часть автореферата) на тему «Алгоритмы обработки и анализа изображений иерархической временной сетью»
ВВЕДЕНИЕ
Актуальность работы. Распознавание объектов на изображениях является одной из важнейших задач человеческой деятельности. Исследования в этой области ведутся с середины 20 века. С тех пор значительно пополнились знания нейрофизиологии, появились автоматические системы распознавания изображений, применяемые в повседневной жизни. Однако до сих пор решение этой задачи лишь в малой степени приблизилось к человеческим возможностям.
Задача распознавания объектов на изображениях является одной из востребованных в современной информационной науке и инженерии [72, 73, 84, 88, 116]. Ее решение требуется для обеспечения общественной безопасности (системы видеонаблюдения), улучшения качества медицинского обслуживания (анализ медицинских снимков), для исследования труднодоступных объектов и территорий (анализ космических снимков) и окружающей среды (распознавание лесных пожаров), а также для помощи людям с ограниченными возможностями (распознавание жестов). На сегодняшний день создано много алгоритмов распознавания. Постепенно они находят свое применение в системах, используемых в производственной и социальной сфере, однако достигнутые результаты все еще далеки от возможностей зрительной системы человека и требуют доработки и улучшения [126, 129, 130].
Первые алгоритмы распознавания разрабатывались на основе принципов сопоставления, формальной логики и математической статистики [13]. Для их успешной работы необходимо, чтобы исследуемые входные характеристики изображения были инвариантны к различным аффинным преобразованиям. Достичь этого достаточно сложно, так как изображения, представленные в памяти компьютера, сложно формализуемы. Даже небольшая смена освещения или поворот, не искажающие изображение в восприятии человека, значительно изменяют его цифровое представление. Таким образом, алгоритмы, основанные
на формальной логике и статистике, работают только со строго ограниченными типами изображений и практически не обладают универсализмом.
В процессе эволюции методов и средств решения задачи распознавания объектов на изображениях происходит развитие алгоритмов, основанных на биологическом подобии структуры и функциональных особенностях мозга. Подобные алгоритмы, работающие по принципам, заложенным самой природой, обладают большей гибкостью и универсализмом.
Нейронные сети [131], генетические алгоритмы и модель автоассоциативной памяти были последовательными успешными биологически-подобными разработками в области распознавания объектов на изображениях. Их особенность заключается в частичном воспроизведении структуры и функциональности неокортекса. Таким образом, реализация биологически - подобных методов открыла новые возможности в данной области [91, 93, 121]. Активное развитие нейробиологии и нейрокибернетики открывает новые факты о работе мозга и зрительной системы, предоставляя возможность создания усовершенствованных биологически подобных систем, обладающих некоторыми функциями человеческого зрения.
К основным недостаткам нейронных сетей относится непрозрачность формирования результатов анализа, неоднозначность в выборе структуры сети. При использовании алгоритма обучения с обратным распространением ошибки не существует гарантии, что нейронная сеть может быть обучена за конечное время [26]. Сверточные нейронные сети обеспечивают быстрое и надежное распознавание изображений, однако, при смене угла поворота объекта или освещения возникают трудности [90]. Таким образом вопрос о создании новых методов распознавания, обеспечивающих прозрачность работы и инвариантность к различным видам искажений, остается открытым.
В начале 2000-х гг. появилась книга «Об интеллекте», описывающая теорию «память - предсказание» и отображающая понимание работы неокортекса с учетом современных знаний о работе мозга [75, 102]. На основе этой теории была сформирована модель иерархической временной
памяти (ИВП) [76], включающая в себя следующие принципы •< функционирования мозга.
1. Однообразность операций на различных уровнях анализа информации.
2. Иерархичность структуры сети ИВП.
3. Иерархичность восприятия окружающей среды. Каждый воспринимаемый объект представляется как совокупность составляющих его элементов, расположенных в определенной пространственной зависимости.
4. Использование времени в качестве «учителя». Зрительная система воспринимает сигналы с течением времени. Изображения, поступающие на сетчатку последовательно друг за другом, в близкие моменты времени, воспринимаются как один и тот же объект.
5. Одним из аспектов модели ИВП является «запоминание», то есть сохранение уникальных характеристик входных данных.
6. Универсальность модели. Возможно распознавание различных видов данных, которые подвержены изменениям с течением времени.
1
7. Использование вероятностных причинно-следственных алгоритмов. Математически модель ИВП описывается в терминах сети Байеса.
8. Использование обратной связи для прогнозирования и удаления шумов.
Эти принципы ранее встречались и в других моделях, таких как нейронные сети, цепи Маркова, НМАХ и др. [95, 117-120], однако особенность модели ИВП заключается в их совместном применении. Таким образом, модель ИВП не только основана на структурных особенностях неокортекса, но и согласуется с некоторыми принципами его работы.
Первым принципом является иерархичность. Окружающий мир иерархичен по своей структуре: каждый объект, как правило, определяется совокупностью составляющих его элементов. Иерархическое восприятие - это возможность видеть целостный объект, воспринимая отдельные составляющие его части. Для того чтобы в неокортексе создался образ дома, необходимо увидеть отдельные составляющие дома: стены, крышу, окна и т.д., находящиеся
в определенном пространственном порядке друг относительно друга. Подобный принцип иерархического представления окружающего мира присутствует в сверточных нейронных сетях, неокогнитроне, а также в модели НМАХ. Однако эти модели не учитывают временной составляющей процесса восприятия человеческим мозгом, описанного в теории «память-предсказание».
Зрительное восприятие, как и все другие виды восприятия, является динамическим процессом. Даже при рассматривании статической картины глаза постоянно совершают быстрые фиксированные движения — саккады, в результате которых каждый раз на сетчатку попадает новая часть изображения [2]. Таким образом, человек воспринимает объект целостным благодаря тому, что воссоздает образ объекта из попадающих на сетчатку глаза отдельных его элементов, поступающих последовательно во времени. Временная ассоциативность - способность относить к одной и той же порождающей причине образы, попадающие на сетчатку следом друг за другом. Временная ассоциативность также не является новым открытием, ее принципы присутствуют, например, в иерархических скрытых моделях Маркова (ННММ). Однако в ННММ анализируется только временная составляющая входного сигнала, при этом не учитывается иерархическое строение объектов.
Модель иерархической временной памяти была реализована и апробирована на задачах распознавания изображений. Сейчас она находится в начальной стадии развития, и работает на простых бинарных изображениях. Несмотря на это за счет своей биологической подобности модель обладает большим потенциалом, полностью не раскрытым в ее исследованиях и приложениях.
Целью диссертационной работы является модификация существующих и разработка новых алгоритмов анализа данных для модели иерархической временной памяти, способных повысить ее эффективность при решении задач распознавания объектов на изображениях.
Исходя из цели диссертационной работы, можно выделить следующие основные задачи:
1. Исследование структуры и анализ существующих алгоритмов, входящих в состав модели ИБП.
2. Модификация существующих и разработка новых алгоритмов для модели ИБП, позволяющих повысить эффективность ее работы.
3. Реализация библиотек и программ модифицированной модели ИБП для распознавания объектов на статических изображениях и видеопоследовательностях.
4. Апробация реализованной модели на задачах распознавания символов и жестов.
Апробация работы. Основные результаты работы обсуждались и доказывались на следующих симпозиумах, конференциях и семинарах: 12-я Международная конференция «Цифровая обработка сигналов и ее применение» (Москва, 2010 г.), Международная научно-практическая конференция «Интеллектуальные информационно-телекоммуникационные системы для подвижных и труднодоступных объектов» (Томск, 2010 г.), XLVIII, XLIX Международная научная конференция «Студент и научно-технический прогресс» (Новосибирск, 2010 и 2011 гг.), VIII, IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2010 и 2011гг.), VIII Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2011 г.), научно-практический семинар «Современные технологии образования и научных исследований в ВУЗах Франции и России» (Париж, 2010 г.), XVII Международный симпозиум «Оптика атмосферы и океана. Физика атмосферы» (Томск, 2011г.), XIX Всероссийский семинар «Нейроинформатика, ее приложения и анализ данных» (Красноярск, 2011г.), Седьмой международный форум по стратегическим технологиям IFOST (Томск, 2012 г.).
Основное содержание диссертации отражено в 14 работах, из них три статьи в периодических изданиях из перечня ВАК, одна статья в рецензируемом журнале, девять докладов на всероссийских и международных конференциях и одно свидетельство об официальной регистрации программы распознавания символов на основе исследуемой модели ИВП [11].
Кратко изложим основное содержание работы.
В первой главе представлен аналитический обзор основных алгоритмов распознавания объектов на изображениях, приведены их основные достоинства и недостатки. Приводятся преимущества развития биологически-подобных алгоритмов для исследуемой задачи. Описываются основные принципы работы модели ИВП, отражающие структуру и функциональность человеческого мозга. Приведено математическое описание исходной модели ИВП.
Во второй главе приводится подробное описание алгоритмов, используемых в модели ИВП, и алгоритмов, предложенных и модифицированных автором диссертации. Предложен и описан генетический алгоритм для подбора параметров сети. Описан способ дополнительной кластеризации пространственных центров. Предложен оригинальный способ создания последовательностей для обучения сети. Произведено сравнение работы сетей с различной структурой. Разработан новый алгоритм формирования временных групп. Предложен способ предобработки полутоновых и цветных изображений на основе фильтров Габора.
Третья глава посвящена разработке программного обеспечения (ПО), реализующему модель ИВП, согласно ее описанию, приведенному в главе 1 с использованием модификаций и результатов главы 2. Проведен обзор существующих инструментальных библиотек по распознаванию и обработке изображений, выявлены общие требования к разрабатываемому ПО, в результате чего сделан выбор средств для дальнейшей разработки.
В главе приведены логические схемы основных алгоритмов и ЦМЬ -диаграммы классов модели ИВП, описаны основные переменные и методы реализуемых классов. Приведено описание архитектур разрабатываемых в
работе библиотек и программ распознавания объектов на изображениях и видео.
В четвертой главе приведены результаты апробации сети иерархической временной памяти на задачах распознавания печатных и рукописных символов и жестов. Представлены данные для обучения и тестирования, а также таблицы с результатами распознавания. Произведено тестирование разработанного ПО и сопоставление модели ИВП с другими алгоритмами распознавания.
Научную новизну полученных в диссертации результатов определяют:
1. Впервые предложенный эволюционный способ автоматической настройки параметров иерархической временной сети, позволивший повысить точность распознавания объектов на изображениях и видео.
2. Оригинальный способ дополнительной кластеризации пространственных центров в процессе их формирования в сети иерархической временной памяти, ускоряющий процесс распознавания в 1,6 раза.
3. Новый алгоритм временной группировки, отличающийся от исходных тем, что основан на объединении пространственных центров с учетом их внутригрупповых связей, что позволяет эффективнее формировать временные группы и, благодаря этому, увеличить точность распознавания объектов иерархической временной сетью на 3 %.
4. Впервые предложенный способ модификации модели иерархической временной памяти, заключающийся в создании матрицы буферизации входных данных (5ТМ), частично замещающий процесс создания обучающих последовательностей и позволяющий ускорить процесс обучения сети.
5. Оригинальный способ предобработки изображений, основанный на выделении границ объектов фильтром Габора, расширяющий возможности сети иерархической временной памяти для работы с полутоновыми и цветными изображениями.
Научную ценность работы представляет вклад в развитие модели иерархической временной памяти, заключающийся в предложенном эволюционном способе настройки параметров иерархической временной сети;
в способе дополнительной кластеризации пространственных центров, реализованном с целью увеличения скорости работы сети; в новом алгоритме временной группировки, основанном на объединении пространственных центров с учетом их внутригрупповых связей, увеличивающем точность распознавания сети; в способе предварительной обработки полутоновых и цветных изображений фильтром Габора.
Практическая значимость. Разработанные в диссертации методические, алгоритмические и информационные средства предназначены для использования в системах безопасности, видеонаблюдения, видеоконтроля и обработки изображений.
Реализованная в ходе диссертационной работы сеть иерархической временной памяти предназначена для решения задач распознавания объектов на изображениях и видеопоследовательностях. Предложенные в работе модификации алгоритмов исходной модели ИВП позволяют увеличить точность и скорость распознавания объектов на изображениях и видео.
Апробация реализованной сети ИВП осуществлялась на задачах распознавания стилизованных цифр, символов и жестов на статических изображениях и в видеопоследовательностях.
Методы исследования. Для решения поставленных задач используется аппарат скрытых моделей Маркова, сетей Байеса, теории вероятностей и математической статистики, методы цифровой обработки изображений, вычислительной математики, технологии программирования, а также компьютерные эксперименты для оценки эффективности разработанных алгоритмов.
Личный вклад. В диссертации использованы только те результаты, в которых автору принадлежит определяющая роль. Постановка задач диссертационного исследования выполнена автором совместно с научным руководителем, д.т.н., профессором В.Г. Спицыным. Основные теоретические и практические результаты, представленные в диссертации, получены лично автором.
Основные положения, выносимые на защиту:
1. Предложенный способ эволюционной настройки параметров иерархической временной сети позволяет автоматически определять значения параметров сети для успешного распознавания объектов на изображениях и видео.
2. Способ дополнительной кластеризации пространственных центров в процессе их формирования в сети иерархической временной памяти позволяет ускорить процесс распознавания в 1,6 раза.
3. Алгоритм формирования временных групп, основанный на объединении пространственных центров с учетом их внутригрупповых связей, позволяет эффективнее создавать временные группы и увеличить точность распознавания объектов иерархической временной сетью на 3 %.
4. Способ модификации модели иерархической временной памяти, заключающийся в создании дополнительной матрицы буферизации входных данных (STM), позволяет упростить процесс создания обучающих последовательностей и ускорить процесс обучения сети.
5. Способ предобработки изображений, основанный на выделении границ объектов фильтром Габора, позволяет расширить возможности сети иерархической временной памяти, и перейти от обработки битовых изображений к обработке полутоновых и цветных изображений.
6. Разработанное программное обеспечение на основе иерархической временной сети позволяет успешно распознавать объекты на изображениях и видео.
Автор выражает глубокую благодарность научному руководителю профессору, доктору технических наук В.Г. Спицыну за помощь в написании работы, ценные советы, замечания и доброжелательную критику. Автор также благодарит за ценные замечания и всестороннюю помощь кандидатов технических наук, доцентов Ю.Р. Цоя и A.A. Белоусова. Автор благодарит заведующего кафедрой Вычислительной техники, профессора Н.Г. Маркова за ценные замечания и обсуждение работы, доцентов Томского политехнического
университета кандидата физико-математических наук Ю.Б. Буркатовскую, ч кандидатов технических наук A.B. Кудинова, Ю.Я. Кацмана, О.С. Токареву,
H.A. Шестакова, A.B. Лепустина, аспирантов А.К. Кермани, Т.Т. Нгуена.
Достоверность полученных результатов подтверждена логическими ч построениями, основанными на математическом аппарате сетей Байеса и
Марковских процессов, корректностью методик исследования и проведенных расчетов, многочисленными экспериментами, проводимыми на различных тестовых задачах, и согласованностью результатов диссертации с результатами, полученными другими авторами.
Внедрение работы. Результаты работы внедрены в Томском политехническом университете на кафедре Вычислительной техники при подготовке специалистов по магистерской программе «Компьютерный анализ и интерпретация данных» по курсу «Методы интеллектуальной обработки и анализа изображений».
ч
Часть разработанных программных средств передана в Федеральную службу по интеллектуальной собственности, патентам и товарным знакам (Роспатент), номер государственной регистрации 2012612230 [11].
Методы, алгоритмы и программы, разработанные в диссертационной работе, использовались при выполнении работ по гранту РФФИ № 09-08-00309 «Создание программного комплекса автоматизированной обработки изображений и распознавания образов на основе применения искусственных нейронных сетей, регуляторных сетей и эволюционных алгоритмов» (20072009 гг.); в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» (номер государственного соглашения 14.В37.21.0457 «Разработка высокопроизводительного модульного приборного комплекса для автоматизированных систем экспериментальных исследований и управления электрофизическими установками ядерной энергетики», 2009-2013 гг.); в проекте «Продвижение и коммерциализация инновационной технологии по обработке изображений на базе эволюционных и нейроэволюционных вычислений» («Microsoft Бизнес-Старт» Фонда
содействия развитию малых форм предприятий в научно-технической сфере 2009-2011 гг.); в проекте «Создание комплексных технологий распознавания объектов на изображениях на основе применения моделей зрительного восприятия и методов вычислительного интеллекта», поддержанном грантом РФФИ № 12-08-00296 (2012-2014 гг.).
Разработанные в диссертации методические, алгоритмические и информационные средства предназначаются для использования в системах безопасности, видеонаблюдения, видеоконтроля и обработки изображений.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 137 наименований. Общий объем работы составляет 162 страницы машинописного текста, иллюстрированного 59 рисунками и 51 таблицей.
1 АНАЛИЗ СУЩЕСТВУЮЩИХ БИОЛОГИЧЕСКИ ПОДОБНЫХ МОДЕЛЕЙ ЗРИТЕЛЬНОГО ВОСПРИЯТИЯ
В данной главе представлен аналитический обзор основных алгоритмов распознавания объектов на изображениях, приведены их основные достоинства и недостатки. Приведены основные преимущества биологически правдоподобных моделей зрительного восприятия. Описываются основные принципы работы модели ИВП, отображающие структуру и работу неокортекса. Приведено математическое описание исходной модели ИВП.
В ходе эволюции средств и методов решения задачи распознавания объектов на изображениях происходит становление и развитие биологически подобных моделей. Тенденция такова, что прорыв в области происходит, спустя некоторое время, после реализации новых знаний о структуре и функционировании мозга в новом подходе или методе. Подтверждением этому служат нейронные сети, генетические алгоритмы, модель автоассоциативной памяти и др. Как правило, новый подход быстро развивается и достигает своего расцвета, после чего, для дальнейшего развития области, требуются новые знания о работе мозга.
1.1 Особенности биологической зрительной системы
Площадь коры головного мозга примерно равна 2200 см2. Кора образована нервными клетками - нейронами. На площади 1 мм содержится около 100000 нейронов. Общее число нервных клеток в коре головного мозга составляет порядка 100-300 млрд. [23].
Примерно 90 % коры занимает неокортекс — «новая кора», которая впервые появилась у млекопитающих. Неокортекс отвечает за функции восприятия, речи, мышления, прогнозирования, наличие или отсутствие способностей к чему-либо [23]. Таким образом, решая задачу воспроизведения функций «естественного интеллекта», следует обращать внимание на структуру и принципы работы неокортекса [132, 133].
1.1.1 Структурные особенности неокортекса
В 1978 г. Верной Маунткастл опубликовал работу под названием «Организующий принцип функционирования мозга» [106]. Он заметил, что зоны коры, отвечающие за зрительное восприятие, осязание, управление двигательной активностью, речь и т.д. внешне схожи между собой. Было сделано предположение, что из внешнего структурного подобия этих зон следует их функциональное подобие: зоны всех органов чувств и моторные зоны действуют по одному и тому же алгоритму.
Это предположение, впоследствии, подтвердилось следующим экспериментом. Профессор Пол Бачирит разработал устройство, переводящее зрительную информацию в тактильные ощущения. Устройство создавало слабое покалывание на языке сообразно яркости пикселей на картинке, снимаемой видеокамерой. При помощи него слабовидящий человек учился «видеть» через ощущения языка. Апробация показала хорошие результаты: испытуемый смог обойти препятствия, спуститься вниз по лестнице и разглядеть контуры таблички, висящей на двери [23].
В своей работе [106] Маунткасл выдвинул гипотезу о колонковой организации неокортекса: за конкретный образ реального мира (лицо знакомого, известный афоризм, образ цветка) в неокортексе отвечает вертикальная колонка нейронов. Одна такая колонка содержит порядка 103—104 нейронов, дендриты которых проходят через всю высоту колонки.
Исследование возникающих импульсов в коре головного мозга при активации различных органов чувств показало, что существуют отдельные области, отвечающие за речь, осязание, зрительное и слуховое восприятие. Кроме того, процесс функционирования в пределах одной области подчинен четкой иерархической зависимости с присутствием обратных связей: низшие зоны коры головного мозга поставляют информацию в высшие зоны и наоборот [23].
Первичные сенсорные зоны, в которые информация поступает из окружающего мира, являются низшими функциональными зонами [124, 125].
Эти области анализируют простейшие примитивы. Зрительная информация проникает в кору головного мозга через наиболее изученную первичную зрительную зону VI. Эта зона позволяет распознавать примитивы объектов первого уровня (прямые под различными углами наклона) [25]. Каждый нейрон зоны VI привязан к своему рецептивному полю, которое является очень ограниченным по сравнению с общим полем зрения. Таким образом, нервные клетки самой нижней зоны VI ничего не знают о людях, книгах или других объектах, которыми «мыслит» человек, они оперируют только простейшими их составляющими [135].
Выходная информация из зоны VI поступает на вход зоне У2, оперирующей объектами второго уровня (углы и пересечения прямых). Зона V3 реагирует на движение и глубину, некоторые ее нейроны имеют цветовую чувствительность. Зона У4 содержит достаточно много нейронов, чувствительных к цвету, и нейронов, отвечающих за пространственное зрение. Зона МТ, скорее всего, связана с анализом движения [25].
Наконец, сенсорная информация поступает в ассоциативные зоны. Эти зоны объединяют информацию от разных рецепторов (рисунок 1.1).
Рисунок 1.1. Схема функциональной иерархии зон неокортекса
Благодаря ассоциативным зонам, образ объекта запоминается как совокупность ощущений: его запаха, вкуса, веса, и т.д.
1.1.2 Функциональные особенности неокортекса
Основным отличием работы неокортекса от существующих в настоящее время алгоритмов искусственного интеллекта (ИИ) является использование
памяти вместо вычисления решений и программирования поведения. Дж.
•< Хокинс выявил четыре особенности биологической памяти [23]:
1) в памяти неокортекса сохраняется последовательность элементов, а не отдельные элементы окружающего мира;
2) последовательности извлекаются из памяти ассоциативно;
3) последовательности сохраняются в инвариантной форме;
4) последовательности сохраняются в виде иерархии.
Всем вышеперечисленным особенностям можно найти подтверждение в реальной жизни.
Ребенок учится читать, сначала медленно считывая отдельные буквы, затем складывает буквы в слоги, запоминая написание и звучание коротких последовательностей букв, и, наконец, учится считывать слова целиком, запоминая определенные последовательности слогов. После того как он выучился читать слова, нет необходимости читать отдельные буквы: ребенок просто вспоминает последовательности этих букв, составляющих знакомое
ч
слово. Вот почему взрослые люди, обладающие навыком быстрого чтения, медленно, по слогам, читают незнакомые длинные слова.
Аналогично этому в неокортексе складывается образ лица из последовательностей вида: глаз, глаз, нос, рот, подбородок. Таким образом, воспринимая отдельные составляющие элементы объектов, наш мозг запоминает последовательности, в которых чаще всего поступают эти элементы.
«Неокортекс - это сложная биологическая автоассоциативная система памяти. В каждый момент времени каждая функциональная зона отслеживает, не появились ли на входе знакомые элементы или их фрагменты. Например, появление в поле зрения знакомого человека мгновенно прервет поток размышлений, таким образом, визуальный сигнал - появление знакомого-заставляет мозг включится в процесс вспоминания других сигналов, ассоциируемых с ним» [23].
Образы, создаваемые в неокортексе, запоминаются в ассоциативных последовательностях и воспроизводятся также ассоциативно. Например, выявлено, что лучше запоминать иностранные слова, проводя аналогию с уже знакомыми образами. При установлении ассоциации между знакомым образом и изучаемым словом, в неокортексе создается связь между существующей колонкой нейронов и вновь созданной. Вспомнив образ, мы легко найдем связь с вновь запомненным словом.
Основным отличием работы коры головного мозга от существующих алгоритмов ИИ является то, что неокортекс не вычисляет действие объекта, а «создает инвариантные представления, компенсирующие изменчивость окружающего мира» [23].Таким образом, в памяти коры сохраняются относительные, инвариантные представления действий и результатов этих действий.
Рассказать алфавит, как правило, у обычного человека не вызывает затруднений, но произнести его в обратном порядке непросто. В памяти алфавит представлен как инвариантная последовательность звуковых сигналов, которая с трудом поддается извлечению в обратном порядке.
1.1.3 Саккады
Зрительное восприятие является динамическим процессом. При продолжительном действии света на одни и те же фоторецепторы, зрительное ощущение при неподвижных глазах исчезает через 1-2 секунды [18]. Для того чтобы продолжать воспринимать изображение при рассматривании статической картины, наши глаза постоянно совершают быстрые, строго согласованные фиксированные движения - саккады [2], в результате которых каждый раз на сетчатку попадает новая часть изображения, и активность одних фоторецепторов смещается на другие. Продолжительность каждого скачка приблизительно равна 0.01 секунды, а амплитуда не превышает 20°. Саккады осуществляются не случайным образом, они направлены на отслеживание
наиболее информативных участков изображения: наиболее контрастных областей и контурных элементов [18].
Саккады напрямую связаны с введением временной компоненты в процесс зрения, и должны учитываться в алгоритмах искусственного зрения.
1.1.4 Прогнозирование
В своей книге «Об интеллекте» Дж. Хоккинс высказал предположение, что первичной и основной функцией неокортекса является прогнозирование. Осуществляется оно за счет обратной связи от высших зон восприятия к низшим. Получая входной сигнал, неокортекс пытается предсказать, какая из сохраненных им последовательностей придет на вход следующей. Следовательно, для того чтобы создать разумные машины, необходимо понять, каким образом головной мозг формирует прогнозы [23].
Функция прогнозирования тесно связана с определением ИИ. В области технического зрения она может быть применена для интеллектуальной реставрации изображений и предсказания развития событий на изображениях [21].
1.2 Отображение биологических особенностей неокортекса в моделях распознавания объектов на изображениях
Модель иерархической временной памяти (ИВП) была разработана сотрудниками Редвудского института нейрологии в 2005 г. [69] согласно принципам работы неокортекса, описанным в [23]. Модель является синтезом следующих идей:
1) моделирование биологической памяти;
2) использование иерархии и учет временной составляющей сигнала в процессе обучения [51, 53, 127];
3) сохранение последовательностей входных сигналов;
4) использование вероятностных причинно-следственных алгоритмов;
5) использование обратной связи для прогнозирования и удаления шумов.
Некоторые из этих идей упоминались в других подходах, особенностью ИБП является объединение вышеизложенных идей в одной модели [74].
1.2.1 Отражение теории памяти в исследуемой модели ИВП
Модель ИВП представлена в виде иерархической сети, состоящей из двух и более уровней. Нижние уровни, наподобие низших зон неокортекса, работают с графическими примитивами (прямыми линиями, углами) - составляющими частями объекта, в то время как верхний уровень содержит образы исследуемых объектов, подобно высшим зонам неокортекса [25]. При прямом проходе сигнал с изображения первоначально обрабатывается в нижних уровнях сети, после чего результат обработки последовательно передается вверх по иерархии. Решение о принадлежности объекта той или иной категории принимается на самом верхнем уровне сети.
Сеть, построенная по модели ИВП, обучается на последовательностях изображений. Это необходимо, так как в ходе обучения отслеживается изменение приходящих сигналов во времени, то есть изменение исследуемого объекта с течением времени. Таким образом, сигналы, приходящие на вход сети следом друг за другом, относятся к одной порождающей причине. Так происходит учет временной составляющей сигнала в процессе обучения сети.
Для принятия решений в модели используются вероятностные причинно-следственные алгоритмы, что также приближает ее к биологической правдоподобности [72].
Использование в модели обратной связи не только улучшает качество работы модели, но и позволяет использовать ее для устранения зашумленности на изображении, а также для решения задачи предсказания.
Теория ассоциативной памяти, описанная в работе [23] была применена в модели ИВП следующим образом. Основная идея отображена на рисунок 1.2 (а-в) [76].
ДА
ООППДЛДО
б) I
О
В)
-Л-^ую
Рисунок 1.2. а) Последовательность входных сигналов; стрелкой показано направление изменения времени; б) две выявленные последовательности; в) отображение последовательностей в неокортексе.
Представим себе упрощенную модель мира, состоящую из трех видов символов: квадрата, треугольника и круга. На вход в неокортекс символы подаются один за другим последовательно во времени (рисунок 1.2(а)). В общем случае задача неокортекса состоит в адаптации к окружающей среде за счет запоминания возможных комбинаций элементов и последующего прогнозирования входных сигналов. Для этого при обучении ищутся повторяющиеся последовательности символов. В результате анализа входных сигналов выявилось 2 типа закономерностей. Первая: квадрат —>• треугольник, вторая: треугольник —» треугольник -> треугольник —» круг (рисунок 1.2(6)). После выявления соответствующих последовательностей происходит их сохранение в неокортексе (рисунок 1.2(в)). В дальнейшем, на основе сохраненных последовательностей появляется возможность заранее прогнозировать символ, приходящий на вход следующим.
Таким образом, неокортекс может быть рассмотрен как система памяти, предназначенная для взаимодействия с внешней средой путем построения модели среды и предсказания реакции среды на свои действия по отношению к ней.
1.2.2 Сравнение модели ИВП с существующими биологически подобными системами
Нейрокибернетики Маккалок и Питтс впервые предложили использовать нейронные сети для моделирования процессов, протекающих в мозге, в 50-х гг. 20 века [115]. Почему по истечению 50 лет в условиях широкой популярности нейронных сетей искусственный интеллект (ИИ) до сих пор не был создан?
Мозг состоит из обменивающихся между собой сигналами нейронов, то есть представляет собой нейронную сеть. Информация, занесенная в память нейронной сети, сосредоточена в связях так же, как и в головном мозге человека. Однако, и программы, базирующиеся на принципах искусственного интеллекта, и нейронные сети [58,78] обладают рядом существенных недочетов [16]. Наиболее важным из них является «отягощенность акцентом на поведении» [23]. «Об успешности программы, как правило, судят по тому, выдает ли она правильный или желаемый выходной сигнал. Но интеллект - это не просто разумный способ действий или разумное поведение. Интеллект - это осознанный процесс, происходящий в нашей голове» [23]. Таким образом, поведение является проявлением интеллекта, но не основным его аспектом.
Следующим за нейронными сетями открытием в области нейроинформатики стала искусственная автоассоциативная память, состоящая из простых нейронов, сообщающихся друг с другом и генерирующих возбуждение при достижении определенного порога. Функциональной особенностью такой памяти является возможность завершить или исправить входной образ, к ее недостаткам относится отсутствие возможности ассоциировать полученный образ с другим образом [26]. Особенностью модели автоассоциативной памяти является то, что нейроны в
ней соединены большим числом обратных связей. При добавлении задержки можно добиться сохранения больших последовательностей входных элементов, что приближает ее к биологической памяти.
Архитектура модели ИБП относится к многоуровневым иерархическим сетям [39—41, 45, 82, 105, 111], и схожа со строением сверточных нейронных сетей [22, 52, 78, 79, 94-96], неокогнитроном [59—61] и моделью НМАХ [26, 136]. Эти модели оперируют иерархическими представлениями. Подобно им в ИВП происходит анализ простых составляющих изображения (простые клетки) и анализ признаков, инвариантных к незначительным преобразованиям. Однако особенностью ИВП является то, что инвариантность достигается за счет учета временной составляющей сигнала, то есть в роли учителя выступает время. Следует отметить, что в других моделях инвариантность достигается за счет заранее запрограммированных особенностей и использования функций усреднения или поиска максимума. Таким образом, эти модели не могут работать с элементами изображения, которые заранее не были предопределены разработчиком [74, 134], а согласно теории функционирования неокортекса, никаких предопределенных данных в его памяти не содержится [23].
Еще одна модель, способная конкурировать с ИВП - иерархическая скрытая модель Маркова (ННММ) [55]. Подобно ИВП, ННММ оперирует последовательностями на каждом уровне иерархии, следовательно, может находить временную связь между изображениями. Однако сама по себе скрытая модель Маркова принимает решение, анализируя только временную составляющую сигнала, то есть последовательность возникающих событий, не рассматривая пространственную иерархию отдельных составляющих элементов изображения [89]. Использование в модели ИВП цепей Маркова приближает ее более к системе умозаключений, чем к динамической системе, хотя она имеет много общих идей с традиционными нейронными сетями [76].
Сети Байеса относятся к вероятностным моделям [20, 71, 97], успешно применяемым при анализе статистических данных. В общем случае они используются для оценки вероятностей распределений, зависящих от большого
числа переменных. Однако сети Байеса скорее являются математическим аппаратом, чем полноценными моделями интеллекта [113, 114, 137]. Сетями Байеса представлено математическое описание модели иерархической временной памяти [103, 107, 108].
Машины опорных векторов (SVM) [48, 50, 112] являются эффективным методом классификации, однако, они не располагают информацией об иерархической и временной организации реальных объектов, следовательно, не могут быть использованы для эффективного обучения.
Наряду с моделью ИВП появилась новая модель DeSTIN {Deep Spatio Temporal Network), также относящаяся к иерархическим сетям. В первом приближении модель DeSTIN является производной от модели ИВП, и осуществляет пространственный и временной анализ входных данных. В модели DeSTIN используются сети Байеса, некоторые алгоритмы формализованы корректнее, чем в модели ИВП, поэтому некоторые формулы модели DeSTIN будут применены в данной работе. Одним из отличий, указанным авторами модели является то, что в модели DeSTIN узлы не разделены на уровни, они могут обучаться и распознавать в параллельном режиме [38, 85].
В 2010 г. на сайте компании Numenta появился технический отчет о новой версии модели ИВП [27, 109, 110]. Ее основным отличием является то, что в модели первого поколения образ определенного визуального объекта хранился в одном нейроне. В модели второго поколения каждый объект представляется в виде колонки нейронов. Все нейроны одной колонки хранят в себе образ одного и того же объекта, однако, за счет большего числа нейронов появляется возможность «запомнить» большее количество последовательностей, в которые входит данный объект. Таким образом, в модели второго поколения авторы увеличили объем памяти сети и приблизили ее к биологической модели за счет моделирования колонки нейронов. Однако в настоящее время авторами были представлены только основные идеи новой модели, без математической
формализации, поэтому было решено реализовать и модифицировать модель первого поколения.
1.3 Модель иерархической временной памяти
Исследуемая модель является достаточно универсальной, и может быть применена для решения задач распознавания различных данных, характеристики которых иерархичны и подвержены изменениям с течением времени. При этом кроме задачи распознавания объектов на изображениях, возможно применение модели для распознавания речи, а также для мониторинга и оценки данных, прогнозирования погоды, изменения экономических показателей и т.п. [21, 42, 43, 64, 73, 122, 123].
1.3.1 Структура модели иерархической временной памяти
Как было описано выше, в основе исследуемой модели лежат два принципа работы неокортекса: временного учета при анализе данных и иерархического представления объектов внешней среды.
Первый принцип можно увидеть, наблюдая за маленьким ребенком, изучающим новую игрушку. Рассматривая предмет, ребенок медленно переворачивает игрушку в руках. При каждом повороте игрушки на сетчатку глаза ребенка попадает изображение игрушки в различных ракурсах. Таким образом, по мере поворота игрушки формируется последовательность из отдельных кадров изображения, поступающих на сетчатку глаза один за другим [23]. Если представить эти кадры в виде растровых изображений, то даже небольшое смещение объекта относительно фона даст совершенно новую матрицу изображения. Тем не менее, ребенок осознает, что он держит в руках и смотрит на одну и ту же игрушку, запоминая все ее ракурсы по мере поворота. Такое восприятие объясняется учетом временной составляющей сигнала в процессе визуального наблюдения [56].
Вторым принципом, характерным для процесса зрительного восприятия, является иерархичность. Как правило, воспринимаемое изображение можно
разбить на составляющие части. Наличие определенных составляющих частей объекта, расположенных в заданном порядке, создают в мозге образ целостного объекта, как, например, образ дерева, или изображения заката. Примитивными составляющими элементами изображений являются отрезки и их пересечения под разными углами. И. А. Шевелев в видео лекциях «Распознавание зрительных образов» показал, что именно наличие отрезков и углов определяются на первом этапе обработки зрительной информации в первичной зоне коры головного мозга VI [25, 80].
Модель представляется в виде древовидной иерархической структуры областей памяти - так называемых узлов сети. В каждой области памяти сохраняются последовательности паттернов. Паттерны формируются из уникальных входных векторов данного узла, приходящих на этапе обучения. Например, для узла первого уровня входной вектор - это набор пикселей с определенной, закрепленной за ним, области изображения (рисунок 1.3).
Учет временной составляющей процесса осуществляется, исходя из предположения, что паттерны, часто следующие друг за другом на входе сети, имеют одну и ту же первопричину и, следовательно, могут относиться к одному объекту [54]. В этом случае время выступает в роли учителя, позволяя группировать паттерны не по внешнему сходству, а по близости поступления на вход сети. Подобная группировка в сочетании с иерархией позволяет достаточно быстро меняющимся паттернам на нижних уровнях сети ставить в соответствие инвариантные категории объектов на верхних уровнях иерархии.
Обучаясь на изменяющихся с течением времени входных векторах, модель ИВП строит иерархически - временную модель внешнего мира. В основе математической модели ИВП лежит сеть Байеса [28].
1.3.1.1 Структура сети
Сеть модели ИВП представляет собой иерархическую древовидную структуру, состоящую из уровней. Каждый уровень состоит из одного и более узлов, расположенных в двумерной решетке. В сети, изображенной на
рисунке 1.3. уровень 1 состоит из 64 узлов, расположенных в решетке 8x8, уровень 2 - из 16 узлов, расположенных в решетке 4x4, а уровень 3 - из одного узла [4].
Процесс обучения и анализа изображений происходит в узлах. Узлы одного уровня не связаны между собой. Связь между отдельными узлами осуществляется за счет передачи выходной информации из соседних узлов предыдущего уровня к соответствующему узлу последующего уровня [65]. Например, выходные векторы из четырех узлов «Уровня 1» подаются на вход узлу «Уровня 2» (рисунок 1.3).
Таким образом, каждый узел имеет отдельное закрепленное за ним рецептивное поле нижестоящего уровня.
Узел первого уровня получает на вход вектор значений пикселей с определенной, закрепленной за ним, области входного изображения. Узел следующего уровня получает на вход выходную информацию с нескольких, закрепленных за ним, узлов предыдущего уровня, и т.д. Таким образом, рецептивное поле узла второго уровня включает в себя рецептивные поля всех
¿/^Уровень 3
Входное изображение Рисунок 1.3. Структура сети
его дочерних узлов. Самый верхний уровень состоит из одного узла, его рецептивное поле покрывает все изображение целиком.
В терминах иерархии узлы нижних уровней оперируют отдельными составляющими объекта (графическими примитивами), а узел верхнего уровня способен распознать категорию объекта, подобно тому, как верхняя зона коры головного мозга оперирует образами [25].
Входное изображение условно разбивается на отдельные области. Из каждой области формируется вектор значений пикселей, который поступает в определенный, закрепленный за ней узел первого уровня. Поступивший вектор анализируется внутри узла, результат анализа передается его узлам - родителям на следующем уровне [32].
1.3.1.2 Структура узла
Анализ изображения происходит в узлах сети. На вход узлу поступает вектор характеристик закрепленной за ним области изображения. Это может быть значение пикселей изображения или значение границ, цвета, текстуры или их комбинация. Попадая в узел, входной вектор подвергается двум этапам анализа: пространственного и временного. Пространственный анализ позволяет найти шаблон, заранее сохраненный в узле, чьи характеристики наиболее соответствуют характеристикам входного вектора (рисунок 1.4).
_зКо|ы,о)_
с =(0,0,0,0,0,0,1,0,0) Щ с =(0,0,0,0,0,0,1,1,0) Щ
с=(1Д0,1,0,0,1,1,1) ^ с =(0,1,0,0,1,0,0,1,1) Ц]
* ЕВ
/-=(1,0,0,1,0,0,1,1,1) Ц
Рисунок 1.4. Этап пространственного анализа в сети ИВП
На вход узлу поступает вектор в процессе анализа входной вектор сравнивается с содержащимися в узле пространственными центрами С\-Сц.
Выходным вектором данного этапа является бинарный вектор у = (0,0,1,0); положение «1» определяется номером пространственного центра, более всего сходного с входным вектором. В данном случае это центр с3 (рисунок 1.4).
Следующим этапом является временной анализ, позволяющий определить тип примитива, которому принадлежит входной вектор. Такой анализ назван временным, так как основан на анализе временной составляющей сигнала (рисунок 1.5), он будет представлен ниже. Заметим, что смысл временной группы - установить связь между паттернами, являющимися одним и тем же примитивом, но представленными по-разному в пространстве, например паттерны, представляющие левый нижних угол (группа ¿»^ на рисунке 1.5.
Входным вектором на этом этапе временного анализа является вектор у = (0,0,1,0). Это означает, что на предыдущем этапе пространственного анализа был выбран центр с3. Центр с3 находится во временной группе gь следовательно, выходным вектором этого этапа и данного узла является вектор = (1,0), где «1» ставится на месте выбранной группы-победителя.
Полную схему работы узла на этапе распознавания можно увидеть на рисунке 1.6. На вход узлу подается изображение угла. На этапе пространственного анализа выбирается пространственный центр с4 как наиболее похожий на входной вектор. После этого на этапе временного анализа выбирается группа так как именно ей принадлежит паттерн с4. Выходной
¿=(1,0)
Ь I.
МО,0,1,0)
Рисунок 1.5. Этап временного анализа сети ИВП
информацией из узла является вектор ^=(0,1) (на рисунке 1.6 «0» представляется белым квадратом, «1» - черным).
Рисунок 1.6. Структура узла. Пример узла первого уровня: с\-с5 — пространственные центры; g\, g2- временные группы
Заметим, что здесь приведена только схема анализа, осуществляемая внутри узла, ее формализация будет описана ниже и в главе 2.
1.3.2 Обучение сети
Обучение сети заключается в последовательном обучении всех ее уровней от самого нижнего к верхнему. Уровень считается обученным, когда обучены все содержащиеся в нем узлы [68]. Процесс обучения сети происходит итеративно. Во время первой итерации на всей обучающей выборке обучается уровень 1. После того, как в его узлах были сохранены все уникальные пространственные центры, и из них были составлены группы, уровень 1 переключается в режим тестирования для того, чтобы произвести данные для узлов следующего уровня.
Когда обучен уровень 2, то уже 1-й и 2-й уровни переключаются в режим тестирования, производя данные для обучения третьего уровня, и т.д. Как было описано выше, на этапе распознавания в узле анализ осуществляется в два
этапа: пространственный и временной. Задачей этапа обучения является сохранение и организация данных внутри узла для осуществления дальнейшего анализа.
1.3.2.1 Создание последовательностей для обучения
Чтобы сеть могла работать с временной составляющей сигнала, необходимо обучать ее на последовательностях кадров изучаемых объектов. Последовательность образуется из отдельных кадров изображения за счет смещения объекта относительно фона (рисунок 1.5).
□ внввнввввавааЕ
<-'
□ □ППППППППППППОЕ
Рисунок 1.5. Последовательность входных изображений для обучения сети, сформированная перемещением объекта слева направо и справа налево.
1.3.2.2 Формирование пространственных центров
Пространственное объединение необходимо для фильтрации и компрессии входных данных и их первичного обобщения.
Как и тестирование сети, обучение проходит в два этапа. Первым этапом является формирование пространственных центров в узлах. Задачей этого этапа является сохранение уникальных входных векторов, так называемых пространственных центров. Так как, в зависимости от обучающей выборки, количество различных входных векторов может стремиться к бесконечности, необходимо сохранить наиболее распространенные или усредненные центры.
Входными данными для узла нижнего уровня являются значения пикселей закрепленной за ним области изображения. Они представляются в виде бинарного вектора Х~, содержащего информацию о наличии границы в данной точке или ее отсутствии. Входными данными для узлов второго и более верхних уровней тоже являются бинарные векторы. Процесс их формирования будет описан ниже. Для оценки степени различия между текущим входным
вектором и уже сохраненными пространственными центрами в узле используется формула евклидова расстояния [32, 69]:
¿І = I ^Г-Су)' >
7=1
где Ы^т - размерность вектора І", І/" -у'-я компонента входного вектора, с,у-/-я компонента текущего пространственного центра с,.
Для сопоставления вводится максимальное возможное отклонение от центра - тахОізґапсе. Если сі < ma.xDista.nce, то считается, что такой центр уже присутствует в памяти узла. В противном случае в узле сохраняется новый пространственный центр. Качество обучения узла напрямую зависит от выбора параметра тахИізіапсе. Чем меньше его значение, тем больше различных центров будет найдено. Если тахОЫапсе = 0, то каждый уникальный входной вектор будет считаться отдельным пространственным центром. Если тахОІБІапсе будет слишком велико, то разные входные векторы будут рассматриваться как один, что впоследствии снизит результат распознавания. Таким образом происходит кластеризация входных векторов, в результате чего в узле сохраняются уникальные пространственные центры.
1.3.2.3 Формирование временных групп
Как было описано выше, на первом этапе обучения в узле сохраняется множество пространственных центров С={с„ г—1..ІУС}, состоящее из уникальных входных векторов, описывающих пространственное расположение составных частей объекта изображения.
После того как вся обучающая выборка была рассмотрена, сеть переходит в режим тестирования сохраненных центров. На вход снова подается видеопоследовательность изображений. На этот раз каждому входному вектору во время ґ в узле ставится в соответствие наиболее коррелирующий с ним пространственный центр с
Учитывая значение активного центра во время ? - 1, можно отследить, сколько раз один пространственный центр следовал за другим. Для хранения
этой информации формируется матрица смежности ТАМ. Она представляет собой квадратную матрицу, строки которой соответствуют выбранным пространственным центрам во время ґ, а столбцы - выбранным пространственным центрам во время ґ-1. Значение элемента матрицы ТАМ на пересечении ряда активного центра с( во время г и столбца активного центра во время увеличивается на 1 (рисунок 1.6).
г
Ф) <
Рисунок 1.6. Матрица смежности пространственных центров
По матрице ТАМ строится цепь Маркова, где номера пространственных центров являются вершинами графа, а количество их следований друг за другом - весами ребер. После того, как обучающий сигнал закончился, из вершин цепи Маркова формируются временные группы. В одну временную группу отбираются вершины, соединенные ребрами с наибольшими весами. На рисунке 1.7 приведен пример цепи Маркова, состоящей из 5 пространственных центров. В результате выделились 2 временные группы: gl и Центры, выделенные белым цветом (с2, с3), объединены В группу gь серым цветом (сь С4. С5) - в группу §2-
Рисунок 1.7. Этап формирования временных групп: цепь Маркова.
с(М)
С\ с2 с3 с4 с5
С\ 0 1 1 0 5
сг 1 0 8 1 0
Сз 1 8 0 0 0
с4 0 1 0 0 5
С5 5 0 0 5 0
Ключевым элементом в работе сети, объединяющим этапы пространственного и временного анализа, является матрица РСС7(С| С), столбцы которой соответствуют пространственным центрам, а строки - временным группам. Если какой-либо из центров не содержится в определенной временной группе, то на пересечении соответствующего столбца и строки матрицы РСОД&) стоит «О», иначе этот элемент матрицы содержит относительную нормированную вероятность, рассчитываемую по формуле:
I Бееп{ск | gi) к=1
где $ееп{с1 | - число появлений центра с, во входном сигнале, при условии, что он входит в группу gJ [66]. Формирование матрицы РСС(С\С) является заключительным этапом обучения узла. В дальнейшем матрица РСС{С\С) понадобится, когда вся сеть будет переключена в режим распознавания.
После того, как все узлы текущего уровня были обучены, уровень переходит в режим распознавания. На этот раз в каждом узле первого уровня входному вектору ставится в соответствие наиболее коррелирующий с ним пространственный центр с„ а затем выбирается временная группа, которой принадлежит центр - победитель Выходной информацией из узла будет бинарный вектор Х+, его размерность равна количеству временных групп в узле. На месте выбранной временной группы - победителя ставится «1», а на
месте остальных групп - «О». После этого выходные векторы из нескольких соседних узлов конкатенируются и отправляются на вход узлу - родителю следующего уровня (рисунок 1.8)
Обучение узла верхнего уровня сети частично производится с учителем. Сохранение пространственных центров осуществляется аналогично узлам промежуточных уровней [49, 100], а при объединении их в группы, каждому входному вектору ставится в соответствие заранее определенная категория изображения. В этом случае каждая группа верхнего узла однозначно
соответствует определенному классу объектов. Таким образом, количество групп в узле верхнего уровня равно количеству распознаваемых категорий [65].
8,82 —ши—
Уровень 2
gг С2
С1 С2 С3
] _
с>иши соипи
сзПИИП
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Исследование и моделирование бионических принципов идентификации и контекстного описания изображений2002 год, кандидат технических наук Шапошников, Дмитрий Григорьевич
Математическое моделирование распознавания образа предмета с помощью нейронных сетей2011 год, кандидат физико-математических наук Ферцев, Александр Александрович
Когерентные оптико-электронные системы обработки информации с дискретными каналами данных2010 год, доктор физико-математических наук Стариков, Ростислав Сергеевич
Разработка и анализ алгоритмов детектирования и классификации объектов на основе методов машинного обучения2012 год, кандидат технических наук Голубев, Максим Николаевич
Оптимизация проектирования аппаратных средств нейросети на основе имитационного моделирования нейроструктур1998 год, кандидат технических наук Севостьянов, Дмитрий Анатольевич
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Болотова, Юлия Александровна
4.5 Основные результаты и выводы по главе 4
1. В данной главе приведено описание результатов апробации модели ИВП на задачах распознавания стилизованных изображений, рукописных цифр, символов на цветном фоне и жестов. Результаты экспериментов показали, что реализованная модель является эффективной для решения задач распознавания объектов на изображениях. Предложенный в главе 2 алгоритм временной группировки МТС показал наилучшие результаты распознавания по сравнению с исходными алгоритмами модели Greedy и АНС, превышая их точность в среднем на 3 %.
2. Было проведено сравнение результатов распознавания сети ИВП с результатами распознавания нейронных сетей, сверточных нейронных сетей, SVM, RVM и другими классификаторами, являющимися лидерами в решении подобных задач. В ходе исследований выяснилось, что точность распознавания сети ИВП сопоставима с лучшими, на сегодняшний день, алгоритмами распознавания, и на некоторых выборках превышает их.
3. В ходе исследований выявилось увеличение точности распознавания при моделировании саккадных движений, однако, следует заметить, что время тестирования сети увеличивается пропорционально количеству моделируемых саккад.
4. Основным недостатком модели ИВП является скорость распознавания, которая в значительной степени зависит от количества сохраненных пространственных центров в узле, так как на этапе тестирования происходит последовательное сравнение входного паттерна с каждым сохраненным пространственным центром. Таким образом, результаты, могут быть улучшены за счет переноса этой операции на графический процессор.
В целом модель показала себя устойчивой к различным обучающим данным.
ЗАКЛЮЧЕНИЕ
Диссертационная работа посвящена исследованию модели ИБП, модификации ее основных алгоритмов, реализации модели и ее апробации на задачах распознавания объектов на изображениях.
В результате выполнения диссертационной работы были получены следующие основные научные и практические результаты и сделаны следующие выводы.
1. Исследована модель ИБП. Показано ее биологическое подобие. Описаны основные принципы работы и составляющие ее алгоритмы.
2. Предложен и разработан способ определения оптимальных параметров сети ИВП, основанный на применении генетического алгоритма. Улучшение положительного эффекта применения ГА наблюдается с ростом номера поколения.
3. Предложено и реализовано использование матрицы 5ТМ, сохраняющей входные паттерны и обеспечивающей удобное формирование входных последовательностей, а также осуществление буферизации.
4. Предложена и осуществлена дополнительная кластеризация пространственных центров на базе алгоритма к-теат, что увеличило скорость распознавания в 1,6 раза.
5. Предложен способ модификации матрицы ТАМ, позволивший учесть перекрестные связи между пространственными центрами при создании временных групп, что привело к повышению точности распознавания.
6. Проведено исследование исходных алгоритмов временной группировки модели ИВП, был предложен собственный алгоритм, объединяющий центры с учетом внутригрупповых связей. В результате обучения сети новым алгоритмом, удалось увеличить точность распознавания в на 3 %.
7. Предложена предобработка изображений на основе применения фильтра Габора с учетом и без учета ориентаций, расширяющая возможности сети ИВП для работы с полутоновыми и цветными изображениями.
8. Предложена и реализована идея моделирования саккадных движений на этапе тестировании сети, позволившая увеличить процент распознавания.
9. Спроектированы и реализованы библиотека сети ИВП и библиотека предобработки изображений с использованием фильтра Габора. Разработаны программные средства для настройки параметров модели на основе ГА. Разработано 2 приложения для решения задач распознавания на статических изображениях и видеопоследовательностях.
10. С помощью библиотек System.Threading и System.Parallel в среде разработки Visual Studio было осуществлено распараллеливание отдельных частей программы, что увеличило скорость работы системы в 2,2 раза.
11. Проведено сопоставление результатов распознавания объектов сетью ИВП с результатами распознавания нейронными сетями, сверточными нейронными сетями, SVM, RVM и другими классификаторами, являющимися лидерами в решении подобных задач. Полученные результаты доказывают, что точность распознавания объектов, достигнутая сетью ИВП, сопоставима с лучшими алгоритмами распознавания.
ОБОЗНАЧЕНИЯ
Ск Множество пространственных центров узла к. ск г-й пространственный центр узла к.
Ск Множество временных групп узла к к . 1 I-ая группа узла к.
Х~ Входной вектор прямой связи.
Ж Множество распознаваемых категорий в узле верхнего уровня. м?, 1-я категория. Р(Г |Ст) Вектор вероятностей соответствия входного вектора (направление снизу вверх) набору временных групп. Р(Х~Вероятность соответствия входного вектора (направление снизу вверх) группе узла к Р{Х~\С) Вектор вероятностей соответствия входного вектора набору пространственных центров узла к. Р(Х~\ск) Вероятность соответствия входного вектора (направление снизу вверх) пространственному центру с, узла к РСС{С\С) Матрица вероятностей принадлежности пространственных центров временным группам узла. Ряды матрицы соответствуют временным группам, а столбцы - пространственным центрам узла. На пересечении г-й строки и у'-го столбца находится вероятность того, что центр с7 может встретиться в группе gl.
Х+к Вектор соответствия входного вектора временным группам узла. Является выходной информацией из узла к. ук Вектор соответствия входного вектора пространственным центрам. Является результатом пространственного анализа в узле к. ТАМ(с„с^ Матрица учета временных связей между пространственными центрами.
БТМ Матрица входных пространственных центров.
Список литературы диссертационного исследования кандидат технических наук Болотова, Юлия Александровна, 2013 год
СПИСОК ИСПОЛЬЗОВАННЫХ источников
И ЛИТЕРАТУРЫ
1. Аксенов, C.B. Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей: диссертация на соискание ученой степени кандидата наук 05.13.11 / C.B. Аксенов. - Томск, 2008. - 154 с.
2. Александров, Ю.И. Основы психофизиологии: Учебник /Ю.И.Александров / Отв. ред. Ю.И. Александров - М.: Изд-во ИНФРА-М, 1997.-349 с.
3. Болотова, Ю.А. Сравнение способов обучения модели HTM для задачи распознавания цифр / Ю.А. Болотова, В.Г. Спицын // Сборник трудов IX Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии». -Томск: Изд-во СПБ Графике, 2011. - Т. 1. - С. 252-253 .
4. Болотова, Ю.А. Применение модели иерархической временной памяти в распознавании изображений / Ю.А. Болотова, В.Г. Спицын, А.Э. Фомин // Известия Томского политехнического университета. - 2011. -Т. 318, - №. 5. -С. 60-63.
5. Болотова, Ю.А. Распознавание символов на цветном фоне на основе иерархической временной модели с предобработкой фильтрами Габора / Ю.А. Болотова, А.К. Кермани, В.Г. Спицын // Электромагнитные волны и электронные системы. - 2012. -Т. 16, -№. 1. -С. 14-19.
6. Болотова, Ю.А. Применение деревьев решений при сегментации изображений / Ю.А. Болотова, В.Г. Спицын // Материалы XLVIII Международной научной студенческой конференции «Студент и научно -технический прогресс». - Новосибирск: Изд-во НГУ, 2010. - С. 8.
7. Болотова, Ю.А. Применение текстурного подхода при сегментации изображений / Ю.А. Болотова, В.Г. Спицын, А.Э. Фомин // Сборник трудов VIII Всероссийской научно-практической конференции студентов, аспирантов и
молодых ученых «Молодежь и современные информационные технологии». -Томск: Изд-во СПБ Графике, 2010. - Т. 1. - С. 73-74 .
8. Болотова, Ю.А. Сравнение двухуровневой и трехуровневой сети модели HTM на примере распознавания цифр / Ю.А. Болотова, В.Г. Спицын // Сборник трудов VIII Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования». - Томск: Изд-во ТПУ, 2011. - С. 60-62 .
9. Болотова, Ю.А. Анализ и оптимизация модели HTM для распознавания цифр [Электронный ресурс] / Ю.А. Болотова, В.Г. Спицын // Сборник трудов XVII Международного симпозиума «Оптика атмосферы и океана. Физика атмосферы». - Томск: Изд-во ИОА СО РАН, 2011. - С. F46-F50. - 1 электрон, опт. диск (CD-ROM).
10. Болотова, Ю.А. Алгоритм временной группировки для модели иерархической временной памяти (HTM) / Ю.А. Болотова, В.Г. Спицын // Материалы XIX Всероссийского семинара «Нейроинформатика, ее приложения и анализ данных». - Красноярск: Изд-во Сиб. федер. ун-та, 2011. - С. 25—30 .
11. Болотова, Ю.А. Система распознавания символов на основе модели иерархической временной памяти: свидетельство о государственной регистрации программы для ЭВМ / Ю.А. Болотова, В.Г. Спицын. - М.: Роспатент, 2012. - № гос. per. 2012612230 от 23.02.2012.
12. Болотова, Ю.А. Применение модели «память — предсказание» для задачи распознавания образов / Ю.А. Болотова, В.Г. Спицын, А.Э. Фомин // Проблемы информатики. - 2011. - Спецвыпуск. - С. 129-135.
13. Воронцов, К.В. Лекции по алгоритмам кластеризации и многомерного шкалирования (2010) [Электронный ресурс] / К.В. Воронцов. - Режим доступа: http://vAvw.ccas.ru/voron/download/Clustering.pdf. Дата обращения: 25.09.2012.
14. Гонсалес, Р. Цифровая обработка изображений. / Р. Гонсалес, Р. Вудс. - М: Изд-во Техносфера, 2005. - 1072 с.
15.Кермани, А.К. Нахождение параметров и удаление постоянной составляющей фильтра Габора для обработки изображений / А.К. Кермани,
В.Г. Спицын, Ф. Хамкер // Известия Томского политехнического университета. -2011.-Т. 318,-№ 5.-С. 57-59.
16. Круг, П.Г. Нейронные сети и нейокомпьютеры: учебное пособие. / П.Г. Круг/ Московский энергетический институт - М.: Изд-во МЭИ, 2002.
17. Нгуен, Т.Т. Распознавание жестов на видеопоследовательностях в режиме реального времени на основе иерархической временной сети / Т.Т. Нгуен, Ю.А. Болотова, В.Г. Спицын // Научный вестник НГТУ. - 2012. - Т. 2, -№ 47. - С. 33-42.
18. Покровский, В.М. ред. Физиология человека, в 2-х томах, 4-е изд. / В.М. Покровский, Г.Ф. Коротько - М.: Медицина, 1997. - Т. 2. - 373 с.
19. Спицын, В.Г. Представление знаний в информационных системах: Учебное пособие. / В.Г. Спицын, Ю.Р. Цой. - Томск: Изд-во ТПУ, 2008. - 152 с.
20. Спицын, В.Г. Нейроэволюционное улучшение и сегментация аэрофотоснимков / В.Г. Спицын, Ю.Р. Цой, Ю.А. Болотова // Труды 12-й Международной конференции «Цифровая обработка сигналов и ее применение». - М.: Инсвязьиздат, 2010. - Т. XII - 2. - С. 342-345.
21. Фомин, А.Э. Модификация модели HTM для задачи прогнозирования поведения объектов на изображениях / А.Э. Фомин, Ю.А. Болотова, В.Г. Спицын // Материалы XLIX международной научной студенческой конференции «Студент и научно-технический прогресс». - Новосибирск: Изд-во НГУ, 2011.-С. 216.
22. Хайкин, С. Нейронные сети: полный курс, 2-е издание. Пер с англ. / С. Хайкин. - М.: Вильяме, 2006. - 1104 с.
23. Хокинс, Дж. Об интеллекте. / Дж. Хокинс, С. Блейксли - М: Вильяме, 2004.-240 с.
24. Цой, Ю.Р. Нейроэволюционный алгоритм и программные средства для обработки изображений: диссертация на соискание ученой степени кандидата наук 05.13.01 / Ю.Р. Цой. - Томск, 2007. - 213 с.
25. Шевелев, И.А. Распознавание зрительных образов [Электронный
/
ресурс] / Современный курс лекций по классической физиологии, видеозапись
лекции (03.12.2007) / И. А. Шевелев- Режим доступа: http://www.youtube.com/watch7v =mvUQxf6vVGg. Дата обращения: 02.12.2010.
26. Hierarchical temporal memory. Comparison with existing models [Электронный ресурс]. - Режим доступа: http://blog.mohammadzadeh.info /media/blogs/snf/Resources/НТМ/ HTM_Comparison.pdf?mtime= 1296775268. Дата обращения: 20.06.2012.
27. Hierarchical temporal memory including HTM cortical learning algorithms [Электронный ресурс] .- Режим доступа: http://blog.mohammadzadeh.info/media/blogs/snf/Resources/HTM/HTM_CorticalLe arningAlgorithms.pdf?mtime=1296775883. Дата обращения: 25.09.2012.
28. Problems that fit HTM [Электронный ресурс]. - Режим доступа: http://blog.mohammadzadeh.info/media/blogs/snf/Resources/HTM/ProblemsThatFit HTMs.pdf?mtime= 1296775386. Дата обращения: 25.09.2012.
29.AForge.NET Framework [Электронный ресурс]. - Режим доступа: http://code.google.eom/p/aforge/. Дата обращения: 27.09.2012.
30. OpenCV Library [Электронный ресурс]. — Режим доступа: http://opencv.org/downloads.html. Дата обращения: 27.09.2012.
31.Accord.NET Framework [Электронный ресурс].- Режим доступа: http://code.google.eom/p/accord/downloads/list. Дата обращения: 27.09.2012.
32. Pat. US 8037010 USA. Spatio-temporal learning algorithms in hierarchical temporal networks / Jaros R.G., Edwards J.L., George D., Hawkins J.C., 11.10.2011.
33. Pat. US 8219507 USA. Hierarchical temporal memory system with enhanced inference capability / Jaros R.G., George D. -Numenta, Inc., 10.07.2012.
34. Pat. US 7937342 USA. Method and apparatus for detecting spatial patterns / George D., Hawkins J.C., Jaros R.G. - Numenta, Inc., 03.05.2011.
35. Pat. US 8195582 USA. Supervision based grouping of patterns in hierarchical temporal memory (HTM) / Niemasik J., George D - Numenta, Inc, 05.07.2012.
36. Albahari, J. Threading in C# [Электронный ресурс] / J. Albahari- Режим доступа: http://www.albahari.com. Дата обращения: 03.05.2011.
37. Arabie, P. Clustering and classification. / P. Arabie, L.J. Hubert, De G. Soete. - Singapore: World Scientific Publishing Co, 1999.
38. Arel, I. DeSTIN: A Scalable Deep Learning Architecture with Application to High-Dimensional Robust Pattern Recognition /1. Arel, D. Rose, R. Coop // AAAI 2009 Fall Symposium on Biologically Inspired Cognitive Architectures. - 2009. - P. 11-15.
39. Bengio, Y. Learning Deep Architectures for AI / Y. Bengio // Foundations and Trends in Machine Learning. - 2009. - V. 2, - №. 1. - P. 1-127.
40. Bengio, Y. Greedy layer-wise training of deep networks / Y. Bengio, Lamblin P., Popovici D., Larochelle H. // NIPS'06. - 2006. - №. 1. - P. 153-160.
41.Bezdek, J.C. Pattern Recognition with Fuzzy Objective Function Algorithms. / J.C. Bezdek. - MA, USA: Kluwer Academic Publishers Norwell, 1981.
42. Bobier, B. Handwritten Digit Recognition using Hierarchical Temporal Memory [Электронный ресурс] / В. Bobier. - Режим доступа: http://docs .mohammadzadeh.info/Proj ects/PR/HandwrittenDigitRecognition/Referen ces/9-2007-Handwritten%20Digit%20Recognition%20using%20Hierarchical%20 Temporal%20Memory.pdf^aTa обращения: 28.09.2012.
43. Bobier, B.A. Content-based image retrieval using hierarchical temporal memory / B.A. Bobier, M. Wirth // MM '08 Proceedings of the 16th ACM international conference on Multimedia. - NY. - P. 925-928.
44. Bolotova, Y.A. Analysis of hierarchically-temporal dependencies for handwritten symbols and gestures recognition / Y.A. Bolotova, V.G. Spitsyn // The 7th International Forum on Strategic Technology (IFOST2012): Proceedings: in 2 vol., Tomsk, September 18-21, 2012. - Tomsk: TPU Press, 2012 - Vol. 1 - P. 596601.
45. Bouvrie, J.V. On Invariance in Hierarchical Models / J.V. Bouvrie, L. Rosasco and T. Poggio //NIPS'09. - 2009. - P. 162-170.
46. Bradski, G. Computer vision with OpenCV library. / G. Bradski, A. Kaebler. - O'Reilly Media, 2008.
47. Bundzel, M. Object identification in dynamic images based on the memory-prediction theory of brain function / M. Bundzel, S. Hashimoto// Journal of Intelligent Learning Systems and Applications. - 2010. - V. 2, - №. 4. - P. 212-220.
48. Burges, C.J.C. A tutorial on support vector machines for pattern recognition / C.J.C. Burges // Data mining and knowledge discovery. - 1998. - V. 2, - №. 2.-P. 121-167.
49. Carpenter, G.A. Adaptive resonance theory / G.A. Carpenter, Grossberg S. // Encyclopedia of Machine Learning. - 2010. -№. 1. -P. 22-35.
50. Chapelle, O. SVMs for histogram-based image classification / O. Chapelle, P. Haffner, V. Vapnik // IEEE Trans. Neural Networks. - 1999. - V. 10, - №. 5. -P.1055-1064 .
51. Daugman, J. Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters / J. Daugman // Journal of the Optical Society of America A (JOSA A). - 1985. - V. 2, - №. 7. -P. 1160-1169.
52. Dayan, P. Theoretical neuroscience: computational and mathematical modeling of neural systems. / P. Dayan, L.F. Abbot. - Cambridge: MIT Press, 2001. -576 p.
53. Farahmand, N. Online temporal pattern learning / N. Farahmand, M.H. Dezfoulian, H. GhiasiRad, A. Mokhtari, A. Nouri // International Joint Conference on Neural Networks (IJCNN 2009). - 2009. - P. 797-802.
54. Findlay, J.M. Active Vision. / J.M. Findlay, D. Gilchrist. - USA: Oxford University Press, 2003. - 240 p.
55. Fine, S. The hierarchical hidden Markov Model: Analysis and application / S. Fine, Y. Singer, N. Tishby // Machine learning. - 1998. - V. 32, - №. 1. - P.41-62.
56. Foldiak, P. Learning invariance from transformation sequences / P. Foldiak // Neural Computation. - 1991. -V. 3. - P. 194-200.
57. Freeman, A. Pro .NET 4 Parallel Programming in C#. / A. Freeman -N.Y.: Apress, 2010.-382 p.
58. Freeman, J.A. Neural networks. Algorithms, applications, and programming techniques / A. Freeman, D.M. Skapura. - NY: Addison-Wesley, 1991.
59. Fukushima, K. Neocognitron: a hierarchical neural network capable of visual pattern recognition / K. Fukushima // Neural Networks. - 1988. - V. 1, - №. 2. -P. 119-130.
60. Fukushima, K. Neocognitron: a self-organizing neural network model for mechanism of pattern recognition unnaffected by shift in position / K. Fukushima // Biological cybernetics. - 1980. -V. 36. - P. 193-202.
61. Fukushima, K. Neocognitron: a neural network model for a mechanism of visual pattern recognition / K. Fukushima, S. Miyake and T. Ito. // IEEE transactions on systems, man, and cybernetics. - 1983. - V. 13. - P. 826-834.
62. Garalevicius, S. Memory-prediction framework for pattern recognition: performance and suitability of the bayesian model of visual cortex / S. Garalevicius // FLAIRS-20. - 2007.
63. Garalevicius, S. Analysis and implementation of the memory-prediction framework: research report [Электронный ресурс] / S. Garalevicius. - Режим доступа: http://www.phillylac.org/prediction/2005%2005%20Analysis%20and% 20Implementation%20of%20MPF.pdf. Дата обращения: 27.09.2012.
64. Gavrilov, A. Emotions and a prior knowledge representation in artificial general intelligence / A. Gavrilov // Proc. of Int. Conf. on Intelligent Information and Engineering Systems INFOS-2008, ITHEA. - Intelligent Technologies and Applications, 2008.-P. 106-110.
65. George, D. The HTM learning algorithms [Электронный ресурс] / D. George, B. Jaros. - Режим доступа: http://numenta.com/for-developers/ education/Numenta_HTM_Learning_Algos.pdf. Дата обращения: 01.07.2012.
66. George, D. How the brain might work: a hierarchical and temporal model for learning and recognition: PhD thesis / D. George. - Stanford, 2008. - 191 p.
67. George, D. Invariant pattern recognition using bayesian inference on hierarchical sequences: technical report / D. George, J. Hawkins. - Redwood Neuroscience Institute, 2005.
68. George, D. Towards a mathematical theory of cortical micro-circuits / D. George, J. Hawkins // PLoS Computation Biology. - 2009. - V. 5, - №. 10.
69. George, D. A hierarchical bayesian model of invariant pattern recognition in the visual cortex / D. George, J. Hawkins. // Proceedings. 2005 IEEE International Joint Conference on Neural Networks. - 2005. - V. 3. - P. 1812-1817.
70. Gil-Garcia, R. A general framework for agglomerative hierarchical clustering algorithms / R. Gil-Garcia, J.M. Badia-Contelles, A. Pons // 18th International Conference on Pattern Recognition (ICPR 2006). - Hong Kong, China. -2006.-P. 569-572.
71. Goertzel, B. Patterns, Hypergraphs and Embodied General Intelligence / B. Goertzel // Proceedings of international joint conference on Neural networks (IJCNN 2006). - Vancouver, ВС, Canada. - 2006. - P. 451-458.
72. Gongbo, C. Support for the Use of Hierarchical Temporal Memory Systems in Automated Design Evaluation: A First Experiment / C. Gongbo, G. Hongbin, W. Dongsu and S. Jin // ASME 2009 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference (IDETC/CIE2009). - San Diego, California. - 2009. - V. 8. - P. 853-862.
73. Hall, Y.J. Using Numenta's hierarchical temporal memory to recognize CAPTCHAs [Электронный ресурс] / Y.J. Hall, R.E. Poplin. - Режим доступа: http://www.pembrokeballet.com/10701-HTM_CAPTCHA.pdf. Дата обращения: 28.09.2012.
74. Hawkins, J. Hierarchical temporal memory: concepts, theory, and terminology: Numenta Inc. whitepaper [Электронный ресурс] / J. Hawkins, D. George. - Режим доступа: http://blog.mohammadzadeh.info/media/blogs /sn^Resources/HTM/Numenta_HTM_Concepts.pdf?mtime=1296775021. Дата обращения: 28.09.2012.
75. Hawkins, J. On Intelligence. / J. Hawkins, S. Blakeslee. - NY: Owl Books, 2005.-272 p.
76. Hawkins, J. Sequence memory for prediction, inference and behavior / J. Hawkins, D. George, J. Niemasik. // Philosophical Transactions of the Royal Society B.-2009.-V. 364,-№. 1521.-P. 1203-1209.
77. Hawkins, J. Hierarchical Temporal Memory including HTM Cortical Learning Algorithms: Numenta tech. report. / J. Hawkins, S. Ahmad and D. Dubinsky. -2010.
78. Hinton, G. Unsupervised Learning: Foundations of Neural Computation. / G. Hinton. - A Bradford Book; 1-st edition, 1999. - 350 p.
79. Hinton, G.E. A fast learning algorithm for deep belief nets / G.E. Hinton, S. Osindero, Y. Teh // Neural Computation. - 2006. - V. 18, - №. 7. - P. 1527-1554.
80. Hubel, D.H. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex / D.H. Hubel, T.N. Wiesel // J Physiol. - 1962. -V. 1, - №. 160.-P. 106-154.
81. Jain, A. Data clustering: a review / A. Jain, M.N. Murty, P.J. Flynn // ACM Computing Surveys (CSUR). - 1999. -V. 31,-№. 3. - P. 264-323.
82. Jarrett, K. What is the best multi-stage architecture for object recognition? / K. Jarrett, K. Kavukcuoglu, M.A. Ranzato, Y. LeCun. // IEEE 12th International Conference on Computer Vision. - 2009. - P. 2146—2153.
83. Jones, J.P. An evaluation of two dimensional Gabor filter model of simple receptive field in cat stirate cortex / J.P. Jones, L.A. Palmer // J. Neurophysiol. -1987.-V. 58.-P. 1233-1258.
84. Kapuscinski, T. Using hierarchical temporal memory for vision-based hand shape recognition under large variations in hand's rotation / T. Kapuscinski // ICAISC'IO Proceedings of the 10th international conference on Artifical intelligence and soft computing: Part II. - Heidelberg: Springer-Verlag Berlin, 2010. -P.272-279.
85. Karnowski, T. Deep Spatiotemporal Feature Learning with Application to Image Classification / T. Karnowski, I. Arel, D. Rose // The 9-th International conference on machine learning and applications (ICMLA'10). - Washington, DC, USA: IEEE Computer Society, 2010. - P. 883-888.
86. Kim, Т. Cambridge-gesture database [Электронный ресурс] / Т. Kim, R. Cipolla. - Режим доступа: http://www.iis.ее.ic.ac.uky~tkkim/ges_db.htm. Дата обращения: 27.09.2012.
87. Kim, Т. Gesture recognition under small sample size / T. Kim, R. Cipolla // ACCV'07 Proceedings of the 8-th Asian conference on computer vision. -Heidelberg: Springer-Verlag Berlin, 2007. - V. Part I. - P. 335-344.
88. Lai, Z. Visual Hand Pose Estimation Based on Hierarchical Temporal Memory in Virtual Reality Cockpit Simulator / Z. Lai, G. Hongbin and N. Ben // Information Technology Journal. - 2011. - V. 10, - №. 9. - P. 1809-1816.
89. Lawrence, R. A tutorial on hidden markov models and selected applications in speech recognition / R. Lawrence, R. Rabiner // Proceedings of the IEEE. - 1989. -V. 77, - №. 2. - P. 257-284.
90. Lawrence, S. Face recognition: a convolutional neural network approach / S. Lawrence, C.L. Giles, A.C. Tsoi, A.D. Back // IEEE Transactions on Neural Networks, Special Issue on Neural Networks and Pattern Recognition. - 1997. - V. 8, - №. 1. - P. 98-113.
91. LeCun, Y. Convolutional Networks and Applications in Vision / Y. LeCun, K. Kavukcuoglu and C. Farabet // International Symposium on Circuits and Systems (ISCAST0). - Paris: IEEE, 2010. - P. 253-256.
92. LeCun, Y. The MNIST database of handwritten digits / Y. LeCun, C. Cortes. - Режим доступа: http://yann.lecun.com/exdb/mnist/. Дата обращения: 27.09.2012.
93. LeCun, Y. Gradient-Based Learning Applied to Document Recognition / Y. LeCun, L. Bottou, Y. Bengio and P. Haffner // Proceedings of the IEEE. - 1998. -V. 11.-P. 2278-2324.
94. LeCun, Y. Learning Methods for Generic Object Recognition with Invariance to Pose and Lighting / Y. LeCun, F. Huang and L. Bottou // Proceedings of С VPR'04. - IEEE Press, 2004. - P. 97-104.
95. LeCun, Y. A tutorial on energy-based learning / Y. LeCun, S. Chopra, R. Hadsell, M. Ranzato and F. Huang // Predicting Structured Data. - 2006. -№. 1. -P. 1-59.
96. LeCun, Y. Learning methods for generic object recognition with invariance to pose and lighting / Y. LeCun, F ,J. Huang, L. Bottou // CVPR'04 Proceedings of the 2004 IEEE computer society conference on Computer vision and pattern recognition.
- Washington, DC, USA: IEEE Computer Society, 2004. - P. 97-104.
97. Lee, H. Sparse deep belief net model for visual area V2 / H. Lee, C. Ekanadham, A.Y. Ng // Advances in Neural Information Processing Systems. -2008.-V. 20.-P. 1-8.
98. Leibe, B. Analyzing appearance and contour based methods for object categorization / B. Leibe, B. Schiele // IEEE Computer Society Conference on Computer Vision and Pattern Recognition. - IEEE, 2003. - V. 2. - P. 409-415.
99. Lowe, D.G. Object Recognition from Local Scale-Invariant Features / D.G. Lowe // ICCV '99 Proceedings of the International Conference on Computer Vision.
- Washington, DC, USA: IEEE Computer Society, 1999. - V. 2. - P. 1150.
100. Majure, L. Unsupervised phoneme acquisition using hierarchical temporal memory models: master thesis. / L. Majure. - Urbana, Illinois, 2009. - 33 p.
101.Maltoni, D. Pattern recognition by hierarchical temporal memory: technical report / Maltoni. - Bologna: University of Bologna publisher, 2011.
102. Mather, G. The visual cortex [Электронный ресурс] / G. Mather. -Режим доступа: http://www.lifesci.sussex.ac.uk/home/George_Mather/ Linked%20Pages/Physiol/Cortex.html. Дата обращения: 24.09.2012.
103. McLachlan, G.J. The EM Algorithm and Extensions / G.J. McLachlan, Krishnan Т.- 2-th Ed. - Wiley-Interscience, 2008. - 400 p.
104. Meyer, B. Object-Oriented Software Construction. / B. Meyer. - New Jersey: Prentice Hall, 1997.
105. Miller, J.W. Biomimetic sensory abstraction using hierarchical quilted self-organizing maps / J.W. Miller, P.H. Lommel // Proc. SPIE 6384, Intelligent
Robots and Computer Vision XXIV: Algorithms, Techniques, and Active Vision. -SPIE, 2006.-V. 1.
106. Mountcastle, V. An organizing principle of cerebral function: The unit model and the distributed system / V. Mountcastle // The Mindful Brain. - 1978. -P. 7-50.
107. Murphy, K.P. Dynamic Bayesian Networks: Representation, Inference and Learning: PhD thesis / K.P. Murphy. - Berkeley, 2002. - 281 p.
108.Nouri, A. Hierarchical Bayesian Reservoir Memory / A. Nouri, H. Nikmehr // 14th International CSI conference (CSICC2009). - Tehran, Iran: IEEE, 2009.-P. 582-587.
109.Numenta Inc. Numenta Node Algorithms Guide - NuPIC 1.7 [Электронный ресурс] / Inc. Numenta- Режим доступа: http://blog.mohammadzadeh.info/media/blogs/snf/Resources/HTM/NodeAlgorithms Guide.pdf?mtime=1296775184. Дата обращения: 28.09.2012.
110. Numenta Inc. Getting Started With NuPIC [Электронный ресурс] / Inc. Numenta. - Режим доступа: http://blog.mohammadzadeh.info/ media/blogs/snf/Resources/HTM/nupic_gettingstarted.pdf?mtime= 1296775474. Дата обращения: 28.09.2012.
111. Oliver, N. Layered representations for learning and inferring office activity from multiple sensory channels / N. Oliver, A. Garg, E. Horvitz // Computer vision and image understanding - Special issue on event detection in video. - 2004. -V. 96, - №. 2.-P. 163-180 .
112. Osuna, E. Training support vector machines: an application to face detection / E. Osuna, R. Freund, F. Girosi // Proc. of CVPR. - Puerto Rico: IEEE, 1997.-P. 130-136.
113. Pearl, J. Probabilistic reasoning in intelligent systems: Networks of plausible inference / J. Pearl. - San Francisco, California: Morgan-Kaufmann, 1988.
114. Pearl, J. Bayesian networks; a model of self-activated memory for evidential reasoning / J. Pearl // Proceedings of the 7th Conference of the Cognitive Science Society. - Irvine, University of California: 1985. - P. 329-334.
115. Pinto, N. Why is real-world visual object recognition hard? / N. Pinto, D.D. Cox, J J. DiCarlo // PloS Computation biology. - 2008. - P. 0151-0156.
116. Ponce J. Shape models and object recognition / J. Ponce, M. Cepeda, S. Рае, S. Sullivan // Shape, contour and grouping in computer vision. - 1999. -P. 31-94.
117. Ranzato, M. Efficient learning of sparse overcomplete representations with an energy-based model / M. Ranzato, C.S. Poultney, S. Chopra and Y. LeCun // Advances in Neural Information Processing Systems 19 (NIPS 2006). - MIT Press, 2006.-P. 1137-1144.
118. Ranzato, M. Unsupervised learning of feature hierarchies: doctoral dissertation. / M. Ranzato, Y. LeCun.-NY, USA: New York university, 2009.
119. Ranzato, M. Unsupervised learning of invariant feature hierarchies with applications to object recognition / M. Ranzato, Y. Boureau, S. Chopra, Y. LeCun // Proc. of the 11-th International Workshop on Artificial Intelligence and Statistics (AISTATS 2007). - Puerto Rico: 2007.
120. Riesenhuber, M. Hierarchical models of object recognition in cortex / M. Riesenhuber, T. Poggio // Nature Neuroscience. - 1999. - V. 2, - №. 11. - P.1019-1025.
121. Ripley, B.D. Pattern Recognition and Neural Networks. / Ripley-Cambridge, UK: Cambridge university press, 1996.
122. Robinson, D. Spoken language identification with hierarchical temporal memories [Электронный ресурс] / D. Robinson, K. Leung, X. Falco. - Режим доступа: http://blog.mohammadzadeh.info/media/blogs/snf/Resources/HTM/ Spoken%20Language%20Identification%20With%20HTM.pdf?mtime=1296777932. Дата обращения: 28.09.2012.
123. Schey, N.C. Song identification using Numenta platform for intelligent computing: a bachelors of science honors thesis / Schey - Ohio, 2008. - 59 p.
124. Serre, T. Object recognition with features inspired by visual cortex / T. Serre, L. Wolf, T. Poggio // IEEE Computer society conference on computer vision and pattern recognition. - 2005. - V. 2. - P. 994-1000.
125. Serre, T. Robust object recognition with cortex-like mechanisms / T. Serre, L. Wolf, S. Bileschi, M. Riesenhuber, T. Poggio // IEEE Transactions on pattern analysis and machine intelligence. - 2007. - V. 29, - №. 3. - P. 411-426.
126. Simard, P. Efficient pattern recognition using a new transformation distance / P. Simard, Y. LeCun, J.S. Denker // Proc. of Advances in neural information processing systems 5 (NIPS) conference. - San Francisco, CA, USA: Morgan Kaufmann publishers inc., 1993. - P. 50-58.
127. Starzyk, J.A. Spatio-temporal memories for machine learning: a long-term memory organization / J.A. Starzyk, H. He // IEEE Transactions on neural networks. - 2009. -V. 20, - №. 5. - P. 768-780.
128. Stole, S. On the optimum architecture of the biologically inspired hierarchical temporal memory model applied to the hand-written digit recognition: invited paper / S. Stole, I. Bajla // Measurement science review. - 2010. - V. 10. -P. 28-49.
129. Thornton, J. Robust Character Recognition Using a Hierarchical Bayesian Network / J. Thornton, T. Gustafsson, M. Blumenstein and H. Trevor / Abdul Sattar and Byeong-Ho Kang // AI 2006: Advances in Artificial Intelligence. - SpringerVerlag, 2006.
130. Wang, L. Object Recognition Using a Bayesian Network Imitating Human Neocortex / L. Wang, X. Wen; X. Jiao ;J. Zhang // 2-nd International congress on image and signal processing. — 2009. - P. 1-5.
131. Wang, P. Artificial general intelligence and classical neural network / P. Wang // IEEE International conference on granular computing. - 2006. - P. 130-135.
132. Wang, P. Rigid Flexibility: The Logic of Intelligence. P. Wang -Springer; 1-st edition, 2006. - 430 p.
133. Wang, Y. Cognitive informatics models of the brain / Y. Wang // IEEE Transactions on systems, man, and cybernetics, Part C: Applications and reviews. -2006. - V. 36, - №. 2. - P. 203-207.
134. Wermter, S. Hybrid Neural Systems / S. Wermter, R. Sun. - Springer, 2000.-420 p.
135. Wiltschut, J. Efficient coding correlates with spatial frequency tuning in a model of VI receptive field organization / J. Wiltschut, F.H. Hamker // Visual neuroscience. - 2009. - V. 1, - № 26. - P. 21-34.
136. Wiskott, L. Slow feature analysis: unsupervised learning of invariances / L. Wiskott, T.J. Sejnowski // Neural computation. - 2002. - V. 14, - №. 4. - P. 715— 770.
137. Xie, J. Sparse deep belief net for handwritten digits classification / J. Xie, H. Lu, D. Nan, C. Nengbin // Artificial intelligence and computational intelligence: lecture notes in computer science. -2010. -V. 6319, -№. 1. - P. 71-78.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.