Обучение спайковых нейронных сетей на основе минимизации их энтропийных характеристик в задачах анализа, запоминания и адаптивной обработки пространственно-временной информации тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Синявский, Олег Юрьевич
- Специальность ВАК РФ05.13.17
- Количество страниц 149
Оглавление диссертации кандидат технических наук Синявский, Олег Юрьевич
Введение.
Глава 1. Обобщенная модель спайкового нейрона.
1.1. Описание спайковых последовательностей.
1.2. Метрика на пространстве паттернов.
1.3. Обобщенная модель спайкового нейрона.
1.4. Постановка задач обучения нейрона с помощью теории информации.
1.4.1. Обучение обобщенного спайкового нейрона с учителем.
1.4.2. Самообучение обобщенного спайкового нейрона.
1.4.3. Обучение с подкреплением обобщенного спайкового нейрона.
1.5. Модель спайкового нейрона "Spike Multi Responses Model".
Глава 2. Обучение спайкового нейрона с учителем.
2.1. Метод обучения с учителем с помощью снижения частной энтропии нейрона в дискретном времени.
2.2. Реализация методов обучения спайкового нейрона с учителем.
2.3. Задача соблюдения задержки между входным и выходным спайком.
2.4. Задача распознавания входных паттернов.
2.5. Временная автоассоциативная память.
2.5.1. Графические обозначения для описания структуры спайковых нейронных сетей.
2.5.2. Обучение временной автоассоциативной памяти.
2.6. Метод обучения с учителем с помощью снижения частной энтропии нейрона в непрерывном времени.
2.7. Зависимость изменения веса от разницы времен между спайками.
2.8. Сходимость алгоритма обучения с учителем.
2.9. Выбор параметров альфа-функций.
2.10. Оценка вычислительного ресурса при моделировании спайковых нейронов.
Глава 3. Самообучение спайкового нейрона.
3.1. Задача самообучения нейрона на основе снижения полной энтропии выхода нейрона.
3.2. Пример самообучения спайкового нейрона.
3.3. Комплексный метод обучения нейрона.
Глава 4. Обучение спайкового нейрона с подкреплением.
4.1. Спайковая нейронная сеть как система управления.
4.2. Модель нейрона управляющей спайковой сети.
4.3. Модулированное снижение информационной энтропии.
4.4. Описание тестового виртуального агента, управляемого спайковой нейронной сетью 112 4.4.1. Описание процесса обучения виртуального агента.
4.4.2. Различные конфигурации управляющих сетей.
4.4.3. Управление агентом в виртуальной среде большой размерности.
4.5. Описание тестовой модели робота-футболиста, управляемого спайковой нейронной сетью.
4.6. Адаптивное управление разнородными объектами при возникновении изменений во внешней среде.
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Спайковые модели динамики и обучения локальных сетей нейронов мозга2021 год, доктор наук Лобов Сергей Анатольевич
Фазовая динамика импульсных сигналов активности в моделях обработки информации в нейрональных и глиальных сетях мозга2010 год, кандидат физико-математических наук Пимашкин, Алексей Сергеевич
Модель статистического ансамбля нейронов типа Ходжкина - Хаксли и ее применение для моделирования активности первичной зрительной коры2015 год, кандидат наук Чижов, Антон Вадимович
Исследование динамики синаптического взаимодействия импульсных нейронов с запаздыванием2011 год, кандидат физико-математических наук Дунаева, Ольга Александровна
Организация нейронных ансамблей: гломерулярные модули обонятельной луковицы2005 год, доктор биологических наук Карнуп, Сергей Викторович
Введение диссертации (часть автореферата) на тему «Обучение спайковых нейронных сетей на основе минимизации их энтропийных характеристик в задачах анализа, запоминания и адаптивной обработки пространственно-временной информации»
Реальный биологический нейрон - сложнейшая биохимическая система [1], оперирующая с непрерывно поступающим многомерным потоком импульсов напряжения -спайков. Последовательности спайков поступают на синапсы нейрона, при этом сам нейрон также генерирует на выходе последовательность спайков, которые распространяются по его выходному отростку - аксону. Если целью моделирования нейрона является изучение его реальной нейрофизиологии, то в модели приходится учитывать множество деталей работы нейрона (в том числе, динамику мембраны нейрона, как возбудимой динамической системы, пространственное устройство отростков нейрона и др.). Однако в рамках кибернетики и компьютерных наук, ориентированных на практические приложения, остро стоит вопрос о том, какие черты биологических нейронов позволяют решать нейронным сетям практически важные задачи (такие как задачи распознавания образов и задачи адаптивного управления), а какими свойствами реального биологического нейрона при моделировании можно пренебречь с целью построения быстрых и эффективных искусственных нейронных сетей. Также в настоящее время ведется множество дискуссий о так называемом вопросе «нейронного кода» [2]: какая характеристика потока спайков действительно несет полезную информацию, а что является лишь вспомогательным механизмом, служащим, например, для увеличения помехоустойчивости каналов связи между нейронами.
Исторически первыми кибернетическими моделями нейронов были упрощенные спайковые нейроны Мак-Каллока - Питса [3], называемые бинарными нейронами. Моделирование сети бинарных нейронов ведется в дискретном времени. На каждом шаге моделирования нейрон выдает бинарный сигнал: «1» - выходной спайк, «О» - нет спайка. Сумма бинарных сигналов от входных нейронов суммируется с некоторыми весами, и если взвешенная сумма преодолеет порог, то нейрон выдает выходной спайк. Одним из первых практическую реализацию алгоритма обучения сети бинарных нейронов предложил Ф. Розенблатт ("персептрон") [4].
Дальнейшее развитие алгоритмов обучения нейронов и идеи устройства нейрона как нелинейного интегратора входных сигналов привело к созданию частотных моделей нейронов. Существуют экспериментальные подтверждения точки зрения, что в некоторых задачах, выполняемых реальными нейронами, значение имеет только частота спайков нейрона [5,6,2] (например, при первичной ассоциативной обработке сенсорных сигналов). Популярные частотные модели нейронов, базирующиеся на этой гипотезе, представляют нейрон как элемент, суммирующий частоты входных сигналов. Значение частоты нейрона представляется в виде числа, лежащего на каком-либо ограниченном интервале. Далее нейрон обрабатывает сумму сигналов (обычно с помощью нелинейной активационной функции) и выдает значение 4 своей выходной частоты, которое подается на входы других нейронов сети. Основным постулатом при обучении бинарных и частотных нейросетей считается идея Д. Хэбба [7]: если два события А и В происходят одновременно, то связь между ними следует усилить, что приведет к созданию смысловой ассоциаций между событиями. Использование данного постулата позволило Дж. Хопфилду создать нейронные сети автоассоциативной памяти [8]. Однако наибольший рывок в теории обучения частотных нейросетей произошел после появления строгих математически обоснованных методов обучения частотных нейронов [9] (например, метода обратного распространения ошибки [10], основанного на минимизации целевой функции сети). Это позволило эффективно применять данные модели в разнообразных практических приложениях [11-13].
Моделирование бинарных и частотных нейронов обычно ведется в дискретном времени, при этом выход модели нейрона не зависит от истории сенсорных входов, а зависит только от текущих параметров модели (например, весов синапсов). Один такт обучения с помощью классической процедуры обратного распространения ошибки также выполняется только на основе сигналов на текущем такте времени. Эта важная особенность предполагает, что для успешного обучения и функционирования данные типы нейронов должны обладать необходимой информацией в каждый момент времени, и в оригинале они предназначены для обработки только пространственной информации. Однако в практических приложениях часто необходимо работать с информацией, имеющей явно выраженную временную составляющую, например, в задачах прогнозирования, распознавания движущихся объектов, адаптивного управления. Данные требования привели к созданию моделей частотных нейронных сетей, использующих различные способы перевода временной информации в пространственную, и в то же время способных обучаться с помощью проверенных методов градиентной минимизации весовых функций. Примером таких сетей является сеть с задержками [14], а также рекурсивные частотные сети, использующие процедуру обратного распространения ошибки во времени [15]. Кроме того, существуют успешные модифицированные модели частотных нейронов, использующие информацию о своем недавнем состоянии и описываемые в виде дифференциальных уравнений. Они также позволяют использовать временную структуру сигнала [16].
Параллельно с развитием частотного подхода в нейрофизиологии накапливались свидетельства, что, по крайней мере, некоторые нейронные структуры живых организмов для кодирования сигнала используют точное время прихода спайков [17,18]. В работах [19,20] показано, что скорость распознавания визуальных образов при обработке в многослойной зрительной системе животных не может быть обоснована в рамках частотных моделей -нейроны просто не успеют накопить нужное количество спайков от предыдущих слоев для 5 получения значения входной частоты спайков и надежной обработки визуального стимула. В работе [21] показано, что даже один спайк нейрона может повлиять на дальнейшую работу сети. В работе [22] показано, что в некоторых структурах мозга происходит перекодирование информации из частотного во временной код. Огромный вклад в обоснование важности точных времен прихода спайков дало открытие в конце 90-х годов явления Spike Timing Dependent Plasticity [23] (STDP) - изменения весов синапса в зависимости от точного времени прихода входного спайка и времени генерации выходного спайка. Явление STDP является обобщением правила Хэбба: если событие А произошло раньше события В, то связь между А и В нужно усилить. Если же А произошло позже В, то связь между А и В нужно ослабить. При этом происходит создание причинно-следственных смысловых ассоциаций с учетом порядка возникновения событий во времени (в отличие от классического правила Хэбба, симметричного к временным взаимоотношениям между событиями). Обычно [1] вариабельностью амплитуды спайков и изменениями их временной продолжительности можно пренебречь и рассматривать поток спайков как последовательность идентичных событий, единственной характеристикой которых служит только время их появления в канале связи. Данные факты позволяют предположить, что обработка последовательностей спайков является одной из основных нейронных операций, выполняющихся в реальных нейронах живых организмов, а реальный нейрон способен выполнять полезные задачи по анализу многомерного входного потока импульсных сигналов. В работах [24, 2] было показано, что плотность кодирования информации (величина, которая характеризует соотношение количества информации в оригинальном сигнале и объема информации в паттерне в единицу времени) с помощью значений времен поступления спайков выше, чем при кодировании только с помощью частоты генерируемых нейроном импульсов.
Спайковый нейрон — это модель нейрона, оперирующая с непрерывно поступающим многомерным потоком спайков как с потоком точечных событий. Простейшей моделью спайкового нейрона является так называемая модель Integrate-and-Fire [25], описываемая дифференциальным уравнением первого порядка. Если напряжение в некоторый момент времени пересекает установленный порог u(tk) = Th , то говорится, что нейрон сгенерировал спайк в момент времени , а значение напряжения сбрасывается до некоторой величины, называемой рефрактерным значением напряжения: и <— игф . Дифференциальное уравнение для напряжения на мембране нейрона имеет вид: где и - напряжение на мембране нейрона, С - временная константа, - веса входных синапсов нейрона, /у - времена входных спайков на г -том входном канале, I?"1 -времена выходных спайков нейрона, Тк,игф- порог и рефракторное значение напряжения. Первое слагаемое в правой части уравнения стремится вернуть напряжение на мембране к нулевому значению. Второе слагаемое моделирует ударные воздействия на напряжение на мембране, инициируемые входными спайками. Каждый входной спайк в момент скачком изменяет напряжение на мембране на величину . Для того чтобы значение напряжения после выходного спайка стало равно и,.ф, нужно скачком изменить напряжение на величину игф — и . Значение игф обычно выбирается отрицательным, чтобы затруднить генерацию большого числа повторных спайков (явление «рефрактерности»).
Существует множество модификаций модели Ме§га1е-апс1-:Пге. Например, квадратичная модель ((^Ш) [26], описываемая уравнением: игся1)(и - ис) + +1\{и,.ф - и)д(1 - /£"'), ] к где иге5(, ис - некоторые константы, а остальные обозначения аналогичны применявшимся в уравнении (1).
В общем случае, каждый входной спайк приводит к отклику нейрона как динамической системы на импульсное входное воздействие. Эти отклики называются постсинаптическими потенциалами и меняют потенциал мембраны нейрона во времени. Обозначим набор переменных состояния нейрона, тогда факт генерации выходного спайка в общем случае определяется выполнением некоторого условия 8{у(^У) = 1гие . После генерации выходного спайка состояние нейрона у(1) меняется, что также может быть описано как отклик нейрона на импульсное воздействие (явление «рефрактерности»). Примером более сложной модели спайкового нейрона является так называемая модель Е. М. Ижикевича [27], способная наиболее реалистично моделировать динамику биологического нейрона. Эволюция состояния описывается двумя дифференциальными уравнениями: = 0.04у2 + 5у +140 - и + /({/}}) + £(с -
Ж к ш к где - параметры состояния, /({/у}) - внешний входной ток от входных времен спайков {Гу} , - времена выходных спайков нейрона, а,Ь,с,с1 - некоторые константы. Условие генерации выходного спайка: V > ЗОмВ. Числовые константы подобраны так, чтобы как можно проще моделировать динамику различных типов биологических нейронов с помощью настройки
Как и бинарные модели нейронов, спайковый нейрон интегрирует несколько входных сигналов с некоторыми весами и способен генерировать выходные спайки на единственном выходном канале, идущие на входные синапсы других нейронов. Однако, в отличие от бинарных и частотных моделей, в спайковом нейроне ведется интегрирование не только пространственной, но и временной информации: входной спайк, пришедший в момент времени ^, может заставить нейрон сгенерировать выходной спайк в момент времени ^ + А/. Таким образом, сама модель спайкового нейрона уже явно учитывает временные соотношения между входными сигналами и не требует создания дополнительных приспособлений для преобразования временной информации в пространственную. Явное использование временных характеристик для представления информации позволяет предположить, что спайковые нейронные сети естественным образом подходят для решения задач с явной временной составляющей. Например, они могут быть использованы для распознавания объектов в нестационарных потоках информации, предсказания, адаптивного управления нестационарными системами (например, виртуальными агентами или роботами). Одним из ярких примеров применения спайковых нейронных сетей в важной практической задаче распознавания лиц служат продукты компании 8р1ке№1 Показано, что использование временного кодирования многократно уменьшает требования к объему памяти и вычислительных ресурсов, требуемых для распознавания лиц многослойными сетями.
Заметим, что гипотеза о кодировании с помощью времен спайков не отвергает наличие частотного кодирования в различных отделах мозга (наряду с возможностью других видов кодирования, например, с помощью фазы импульсации нейрона относительно базовых осцилляций в мозге [29, 30]), а исследования в области обработки спайков дополняют исследования в области частотных нейронов. Более того, в работе [31] обосновано утверждение, что различные способы осреднения активности спайковых нейронов приводят к частотным и бинарным моделям нейронов.
Преимущества спайковых нейронов.
Использование спайковых нейронных сетей в практических приложениях приобретает все большую актуальность в связи со следующими их преимуществами. 1. Возможность обработки временной составляющей сигналов одним нейроном
Использование времен спайков как основной информационной составляющей сигнала позволяет естественным образом обрабатывать временную потоковую информацию в таких задачах, как прогнозирование, распознавание быстро движущихся объектов, управление [32,33]. В "классических" частотных нейронных сетях обычно применяются модели (бинарный нейрон, сигмоидальный нейрон), состояние которых зависит только от текущих значений входов - пространственной составляющей входной информации Рис. 1 (слева). л:
-.
К гЧ"* г(0 = /(У>д-,(0)
Выход - непрерывная величина на основе входов на текущем шаге а
А / ч ч \ . ч 1 л v ;
V. : У'. а ск
ДО = Л ДОН У О)
Состояние у (О определяется историей входов
Есдп5(у(0) ~ ггие. то выходной спайк в момент г
Рис. 1. Пространственно временная обработка информации «классическим» частотным нейроном (слева) и спайковым нейроном (справа).
Для обработки временной составляющей информации применяются дополнительные структурные механизмы (рекурсивные связи, линии задержек), которые переводят временную составляющую в пространственную. Напротив, изменение состояния спайкового нейрона описывается дифференциальными уравнениями. Спайковый нейрон реагирует на историю сенсорных входов. Это позволяет использовать кратковременную память отдельных нейронов без введения дополнительных структур обработки временной составляющей. Следовательно, такие задачи могут быть решены более простыми нейронными сетями с меньшим количеством связей.
2. Преимущества реализации на высокопараллельных вычислительных машинах
Дальнейшее развитие вычислительной техники связывают с ростом степени параллелизма вычислений. В частности, перспективным является создание нейрокомпьютеров [34, 35] -высокопараллельных вычислительных машин, использующих бионические принципы нейросетей живых организмов. Однако с ростом количества вычислительных узлов количество связей между ними экспоненциально возрастает. При использовании моделей частотных нейронов, общающихся с помощью числовых сигналов (например, сигмоидальных нейронов), пропускная способность связи между элементами должна быть достаточной, чтобы с приемлемой точностью передать значение входного сигнала. При этом распространение сигналов происходит на каждом шаге вычислений. При функционировании моделей многослойных частотных сетей требуется пошаговая синхронизация элементов для корректного распространения сигнала и ошибки по слоям сети. Напротив, для передачи спайка между узлами высокопараллельной вычислительной машины (нейрокомпьютера) требуется передать всего 1 бит информации, что не налагает на связи ограничений типа минимальной емкости (Рис. 2). у(0 = /(1>л(0)
Д5Ч0) + У «Д'->;')) г >
Рис. 2. Качественное сравнение реализации нейрокомпьютера на частотных (слева) и спайковых (справа) искусственных нейронах.
Спайки возникают сравнительно редко, и не требуется передавать сигналы каждый шаг вычислений. Для спайковых нейронов не требуется синхронизация. Данные особенности значительно уменьшают сложность архитектуры и размеры нейрокомпьютеров, понижают энергопотребление, необходимое на распространение сигналов [36]. Это позволит использовать нейрокомпьютеры на основе спайковых нейронов в компактных устройствах, в том числе, в микро- и нанотехнике.
3. Повышенные вычислительные возможности спайковых нейронов
Хотя спайковые нейроны напоминают по форме сигнала (есть спайк/нет спайка) бинарные модели нейронов Мак-Каллока — Питса, спайковые нейроны способны обрабатывать непрерывные величины наравне с частотными моделями. При этом непрерывная величина кодируются длиной интервалов между спайками. В работах [2, 24] показано, что спайковые нейроны способны решать задачи частотных и бинарных нейросетей, включая задачи интерполяции непрерывных функций.
Для решения задачи нелинейной классификации (типа "исключающего ИЛИ") требуется более одного слоя бинарных или частотных нейронов. В работе [37] показано, что спайковые нейронные сети только из одного слоя способны решать некоторые задачи нелинейной классификации, тем самым уменьшая количество элементов и связей, требующихся для решения таких задач.
Обучение спайковых нейронов может происходить одновременно с их функционированием (по аналогии с биологическими нейронами). Следовательно, процесс использования спайковых сетей в практических приложениях менее трудоемок — нет нужды разбивать процесс на стадии обучения и непосредственно функционирования.
4. Близость спайковых моделей к реальным нейронам живых организмов
Большая близость спайковых моделей к биологическим нейронам позволяет напрямую использовать бионические принципы при решении практических задач. И наоборот, становится возможным сверять полученные при исследованиях спайковых искусственных нейронов результатов с явлениями, наблюдающимися в биосистеме, реализующей ту же функцию. Знания, полученные из исследований спайковых моделей, помогают развивать знания о мозге человека.
Однако в настоящее время использование спайковых нейронных сетей ограничено в связи с недостаточно развитым математическим аппаратом их обучения. В основном используются разнообразные эвристические правила обучения спайковых нейронов, не гарантирующие решения поставленных задач. Построение методов обучения спайковых нейронов, унификация описания различных видов обучения нейронов в рамках единого математического аппарата — актуальная теоретическая задача. Ее решение позволит разработать новые и усовершенствовать существующие методы и средства анализа обработки информации и управления сложными системами, повышения эффективности, надежности и качества их работы. Построение самообучающихся спайковых нейронных сетей, способных детектировать и запоминать пространственно-временную информацию, управлять различными нестационарными объектами, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта — актуальная практическая задача. Эта задача отвечает потребностям ряда связанных с информационными технологиями отраслей: робототехники, космической техники, разработки систем безопасности.
Существующие методы обучения спайковых нейронов Сильные отличия моделей спайковых нейронов от частотных моделей, связанные с учетом эволюции внутреннего состояния нейрона во времени и сенсорной истории сигналов при их обработке, осложняют распространение на них проверенных, математически обоснованных методов обучения частотных и бинарных нейронов (например, метода обратного распространения ошибки). Большинство правил обучения основываются на экспериментально полученных нейрофизиологических явлениях (различные вариации STDP) и не имеют строгой математической трактовки (хотя являются достаточно эффективными в приложениях) [38-40]. В некоторых работах спайковые нейронные сети используются только как нестационарные системы управления или распознавания без механизмов обучения [41, 42]. Также популярным является использование генетических алгоритмов [43 - 45], доказавших свою эффективность на других моделях нейронных сетей [46, 47].
Ряд исследователей выражает мнение, что при наличии надежных и эффективных механизмов обучения спайковых нейронных сетей, они найдут широкое применение в практических приложениях [37, 24]. Основным путем получения надежных и математически обоснованных правил обучения в частотных нейронных сетях является постановка практических задач в терминах оптимизации значений некоторых целевых функций от входов и выходов сети. Однако ярко выраженная разрывность процесса работы спайкового нейрона в моменты возникновения спайков затрудняет построение непрерывных оценочных функций активности нейрона, на минимизации которых можно построить надежные методы их обучения. Существуют правила обучения SpikeProp [48], построенные на минимизации разницы времен между выходным и требуемым спайком Integrate-and-Fire нейрона:
-tf )2 —> min . Однако такая целевая функция терпит разрывы при непрерывном к изменении весов. Например, при плавном повышении весов неактивного нейрона он начинает генерировать выходные спайки при превышении порога значением напряжения на мембране, а значение целевой функции скачкообразно меняется. Для решения этой проблемы для данного правила обучения предложены различные эвристики.
Введение шума [31] в процесс генерации спайков позволяет исследовать зависимость вероятности генерации набора спайков как непрерывной функции весов нейрона. Это свойство используется для построения целевых функций. Шум (стохастическая составляющая) часто вводится в модель нейрона в виде так называемого стохастического порога. При детерминированном механизме генерации спайков считается, что спайк всегда возникает при выполнении каких-либо условий (например, при пересечении напряжением на мембране нейрона некоторой пороговой величины). При стохастическом пороге существует ненулевая вероятность генерации спайка, если данное условие не выполнено. Причем значение вероятности непрерывно меняется от параметров состояния нейронов. Например, вероятность спайка может возрастать по нелинейному закону при приближении напряжения мембраны нейрона к пороговой величине. Введение шума в спайковые модели оправдано, так как в
12 реальном нейроне существует большое количество источников шумовых воздействий, например, тепловой шум, вероятностная передача входных спайков на синапсах и др.
В работе [49] было предложено использовать логарифм вероятности генерации требуемого выходного спайка в качестве оценочной функции для минимизации в задаче обучения с учителем нейрона Spike Response Model [31]. Показано, что правила изменения весов, полученные минимизацией этой оценочной функции с помощью метода градиентного спуска, напоминают явление STDP. Далее в работе [50] было предложено использовать минимизацию полной энтропии нейрона для получения оптимальной формы STDP, однако предложенный точный алгоритм минимизации был слишком трудоемок для реализации в моделях спайковых сетей. В работе [51] предложена процедура самообучения с помощью максимизации передаваемой нейроном информации в процессе сжатия многомерного входного спайкового паттерна в одномерную последовательность спайков. Во всех описанных методах использовалась процедура градиентной минимизации целевых функций работы нейрона. Предложенные методы демонстрируют, что использование информационных характеристик спайкового нейрона в качестве целевых функций для минимизации позволяет математически строго формулировать разнообразные задачи его обучения. В данной работе развивается подход к обучению спайкового нейрона на основе изменения энтропийных характеристик его работы. В частности, делается попытка формализовать три вида обучения для спайкового нейрона (обучение с учителем, самообучение, обучение с подкреплением) с общей точки зрения предлагаемого энтропийного подхода. Вопрос о том, какие черты реальных нейронов действительно важны для практических приложений, все еще остается открытым. В связи с этим формализация процессов обучения в диссертации практически всегда ведется с точки зрения "обобщенной" модели нейрона, то есть без учета внутреннего устройства интегратора входов и механизма генерации спайков. При этом преследуется цель использовать полученные методы обучения не только для простейших моделей спайковых нейронов, но и для биологически правдоподобных моделей различной сложности.
Цель диссертационной работы заключается в создании методов обучения спайковых нейронных сетей, использующихся для адаптивной обработки и запоминания многомерной потоковой пространственно-временной информации и предназначенных для решения задач распознавания и управления различными объектами, в том числе, в меняющейся внешней среде.
Научная новизна работы:
1. На базе известной модели спайкового нейрона Spike Response Model (SRM) со стохастическим порогом создана оригинальная модель нейрона - SMRM, позволяющая гибко реагировать на пространственную и временную структуру входного спайкового потока. Построенная модель отличается специальным набором функций отклика на единичный спайк ("альфа-функции"), реализующих настраиваемый по амплитуде и задержке отклик нейрона на входные спайки на каждом синапсе нейрона.
2. Для спайкового нейрона впервые формализован процесс обучения с учителем как процесс снижения частной условной информационной энтропии, при условии, что требуемый учителем паттерн представлен в виде набора обучающих спайков. Практически значимая задача обучения с учителем по обнаружению определенного пространственно-временного спайкового паттерна впервые решена с помощью всего одного нейрона БМИМ и метода снижения частной информационной энтропии. Впервые получены графики снижения частной энтропии.
3. Разработана оригинальная система временной автоассоциативной памяти, состоящая из сети взаимодействующих спайковых нейронов. Эта система использует полученные правила обучения с учителем и способна запомнить несколько спайковых паттернов и в дальнейшем восстановить их, развернув во времени, при предъявлении только начального участка паттерна.
4. Построен оригинальный метод самообучения спайкового нейрона, позволяющий успешно решать в реальном времени задачу увеличения устойчивости процесса генерации наиболее вероятного выходного паттерна путем снижения полной собственной энтропии нейрона. Впервые проведены опыты по самообучению с моделью нейрона БМИМ, получены графики снижения полной энтропии в процессе обучения. Показано, что после обучения процесс генерации наиболее вероятного выходного паттерна достигает большой степени устойчивости, а менее вероятные выходные паттерны перестают генерироваться практически полностью.
5. Впервые показано, что существующий метод обучения с подкреплением спайковых нейронов, основанный на прямой градиентной максимизации получаемого подкрепления, может быть реализован в рамках теоретико-информационного подхода к обучению. Впервые показано, что двухслойная спайковая нейронная сеть способна реализовывать поставленную задачу управления при недостатке пространственной информации, активно используя временную структуру сенсорных спайковых паттернов и внутреннюю активность сети. Произведены эксперименты с меняющейся внешней для сети средой, а также оригинальный эксперимент с подменой управляемого объекта. Показано, что одна и та же спайковая нейронная сеть способна управлять различными объектами, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта и внезапных изменениях во внешней среде объекта.
Основные положения, выносимые на защиту:
1. Созданная модель спайкового нейрона SMRM со стохастическим порогом и несколькими функциями отклика нейрона на входные спайки способна более гибко реагировать на пространственную и временную структуру входного спайкового потока, чем известная модель спайкового нейрона Spike Response Model.
2. Для обобщенного спайкового нейрона формализован процесс обучения с учителем как процесс снижения частной условной информационной энтропии, при условии, что требуемый учителем паттерн представлен в виде набора обучающих спайков.
3. Разработана система временной автоассоциативной памяти, состоящая из сети взаимодействующих спайковых нейронов и использующая полученные правила обучения с учителем. Эта система способна запомнить несколько спайковых паттернов и в дальнейшем восстановить их, развернув во времени, при предъявлении только начального участка паттерна.
4. Построен метод самообучения, увеличивающий устойчивость процесса генерации наиболее вероятного выходного паттерна спайкового нейрона. Метод основан на анализе распределения вероятностей на пространстве выходных паттернов нейрона и учете свойства иерархической аддитивности полной энтропии нейрона.
5. Получены правила обучения спайкового нейрона SMRM с подкреплением. Правила основаны на методе прямой градиентной максимизации получаемого подкрепления.
6. Показано, что одна и та же спайковая нейронная сеть, использующая полученные правила обучения с подкреплением, способна управлять объектами различного типа, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта и внезапных изменениях во внешней среде объекта.
Апробация работы. Основные результаты диссертационной работы докладывались: на 11-ой национальной конференции по искусственному интеллекту с международным участием (КИИ-2008) (Дубна, 2008); на 2-ой российской мультиконференции по проблемам управления: 5-ой научной конференции "Управление и информационные технологии" (Санкт-Петербург, 2008); на V-ой международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2009); на XI и XII всероссийских научно-технических конференциях "Нейроинформатика" (Москва, 2009, 2010); на Тайваньско-Российском двухстороннем симпозиуме по проблемам современной механики 2010, МГУ им. М.В.Ломоносова (Москва, 2010); на 12-ом заседании Московского семинара под рук. академика А.Л. Микаэляна "Нейроинформатика и когнитивные исследования" (Москва, 2010); на 21-ом заседании семинара отдела программирования и объединенного семинара по робототехническим системам ИПМ им.М.В. Келдыша РАН, МГУ им. М.В.Ломоносова, МГТУ им.Н.Э. Баумана, ИНОТиИ РГГУ (Москва, 2010); на семинаре «Динамика относительного движения» МГУ им. М.В.Ломоносова (Москва, 2010); на семинаре ЦОНТ НИИСИ РАН (Москва, 2011).
Структура и объём диссертации. Диссертация состоит из введения, четырех глав, двух приложений и заключения 149 страниц машинописного текста, включая 55 иллюстраций и список литературы из 115-х наименований.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Генерация и распространение импульсных последовательностей в моделях нейронных сетей с динамической организацией межэлементных взаимодействий2011 год, кандидат физико-математических наук Симонов, Александр Юрьевич
Нейросетевое моделирование и машинное обучение на основе экспериментальных и наблюдательных данных2021 год, доктор наук Сбоев Александр Георгиевич
Влияние астроцитов на кратковременную память в биофизических моделях нейрон-астроцитарных сетей мозга2024 год, кандидат наук Цыбина Юлия Александровна
Эффект резистивного переключения в нанокомпозитных структурах на основе ниобата лития с гранулами CоFе2022 год, кандидат наук Никируй Кристина Эрнестовна
Экспериментальное и теоретическое исследование автогенераторных моделей нейронных систем2011 год, кандидат физико-математических наук Щапин, Дмитрий Сергеевич
Заключение диссертации по теме «Теоретические основы информатики», Синявский, Олег Юрьевич
Заключение
Для достижения поставленных целей были проанализированы существующие модели спайковых нейронов и правила их обучения. В результате выделения основных черт существующих моделей была введена обобщенная стохастическая модель нейрона, оперирующая с многомерными спайковыми паттернами. Предложено ставить задачи обучения в терминах теории информации. В частности, на основе общего подхода минимизации различных энтропийных характеристик функционирования спайкового нейрона были разработаны правила изменения весов в задаче обучения с учителем, самообучения и обучения с подкреплением.
Работоспособность полученных правил обучения была проверена на ряде тестовых задач с использованием разработанной модели спайкового нейрона Spike Multi Responses Model (SMRM) со специальным . набором альфа-функций на каждом входном синапсе и стохастическим порогом. Данная модель позволяет гибко реагировать на пространственную и временную структуру входного спайкового потока. Эксперименты проводились с использованием разработанного диссертантом программного обеспечения.
Процесс обучения с учителем формализован как задача минимизации частной информационной энтропии нейрона. Полученные правила обучения протестированы в задаче детектирования пространственно-временного спайкового паттерна. После обучения нейрон способен детектировать конкретный паттерн в зашумленном импульсном потоке, реагируя не только на количество спайков в паттерне, но и на их взаимное расположение во времени. Построены графики снижения частной энтропии, произведен выбор оптимальных параметров альфа-функций нейрона SMRM для задачи детектирования паттерна. Выбор полученных параметров способствует высокой средней скорости обучения детектирования паттернов с различной временной структурой.
В рамках цели данной работы на основе полученных правил обучения нейрона были разработаны динамические спайковые нейронные сети автоассоциативной памяти, служащие для обработки и запоминания многомерной потоковой информации. Работа автоассоциативной памяти протестирована в нескольких тестовых задачах запоминания, в частности в задаче запоминания процесса рисования двух тестовых картинок на экране 8x15 пикселей. В результате сеть обучилась предсказывать (восстанавливать) движение виртуального карандаша художника на основе первого штриха из всего двух-трех пикселей.
Процесс самообучения нейрона с целью увеличения устойчивости процесса генерации наиболее вероятного выходного паттерна (или снижения неопределенности генерации
126 выходного паттерна) поставлен в виде задачи минимизации полной информационной энтропии нейрона на всем пространстве выходных паттернов. Получен оригинальный алгоритм самообучения, позволяющий успешно решать поставленную задачу только на основе информации о собственных входах и выходах нейрона в процессе работы в реальном времени. Проведены опыты с моделью нейрона БМЯМ, построены графики снижения полной энтропии в процессе обучения. Показано, что после обучения процесс генерации наиболее вероятного выходного паттерна достигает большой степени устойчивости, а менее вероятные выходные паттерны перестают генерироваться практически полностью. Разработан оригинальный комплексный подход для ускорения обучения спайкового нейрона с учителем, использующий полученный алгоритм самообучения. Рассмотрен пример использования комплексного подхода для модели спайкового нейрона в тестовой задаче соблюдения задержки между входным и выходным спайком.
Процесс обучения с подкреплением для спайкового нейрона формализован в виде модулированного подкреплением изменения весов по направлению свертки плотности градиента информационной энтропии с экспоненциальным фильтром, реализующим забывание сенсорной истории. При положительном подкреплении происходит уменьшение частной энтропии недавно сгенерированного выходного паттерна (максимизация его вероятности), а при отрицательном подкреплении - увеличение его частной энтропии.
В рамках цели данной работы на основе полученных правил обучения нейрона были разработаны универсальные сети для управления динамическими объектами. Управляющие спайковые нейронные сети протестированы в нескольких модельных задачах управления. С помощью одной и той же сети реализовано управление интеллектуальным агентом в дискретной среде и управление моделью робота-футболиста. Исследованы различные конфигурации управляющих сетей. В частности, впервые показано, что при недостатке пространственной информации двухслойная спайковая нейронная сеть способна реализовывать поставленную задачу управления, активно используя временную структуру сенсорных спайковых паттернов. Показано, что одна и та же спайковая нейронная сеть, использующая полученные правила обучения с подкреплением, способна управлять объектами различного типа, в том числе, при возникновении неисправностей в активаторах и сенсорах объекта и внезапных изменениях во внешней среде объекта.
Список литературы диссертационного исследования кандидат технических наук Синявский, Олег Юрьевич, 2011 год
1. Мартин Р., Николлс Дж., Валлас Б., Фукс П. От нейрона к мозгу. М.: УРСС, 2003 - 676 с.
2. Rieke F., Warland D., Ruyter R. van Steveninck, Bialek W. Spikes: Exploring the Neural Code // Computational Neurosciences series —MIT Press, 1997 —416 p.
3. McCuIIoch W. S., Pitts W. A logical calculus of ideas immanent in nervous activity // Bulletin of Mathematical Biophysics 1943. - Vol. 5 - P. 115-133.
4. Rosenblatt F. The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain // Psychological Review.- 1958. Vol. 65 - No 6 - P. 386-408.
5. Adrian E. D. The impulses produced by sensory nerve endings // J. Physiology Lond. 1926. -Vol.61 - P. 49-72.
6. Kandel E. C.; Schwartz J. H. Principles of Neural Science New York : Elsevier, 3rd edition, 1991 - 1182 p.
7. Hebb D.O. The Organization of Behavior New York : John Wiley & Sons - 1949. - 378 p.
8. Hopfield J. J. Neural networks and physical systems with emergent collective computational abilitie // Proceedings of the National Academy of Sciences of the USA, 1982 Vol. 79 - No 8 - P. 2554-2558.
9. Осовский С. Нейронные сети для обработки информации М. : Финансы и статистика, 2002. - 344 с.
10. Rumelhart D.E., Hinton G.E., Williams R.J. Learning Internal Representations by Error Propagation // Parallel Distributed Processing. Parallel Distributed Processing Cambridge, MA, MIT Press, 1986. - Vol. 1. - P. 318-362.
11. Chauvin Y.; Rumelhart D.E. Backpropagation: Theory, Architectures, and Applications New Jersey Hove, UK: Hillsdale, 1995. - 576 p.
12. Neaupane K.; Achet S. Some applications of a backpropagation neural network in geo-engineering // Environmental Geology 2003. - Vol. 45 - No 4 - P. 567-575.
13. Astion M.L., Wilding P. The application of backpropagation neural networks to problems in pathology and laboratory medicine // Arch. Pathol. Lab. Med. -1992. Vol. 116, 10, P. 995-1001.
14. Бэстенс Д.-Э., ван ден Берг В.-М., Вуд Д. Нейронные сети и финансовые рынки: принятие решений в торговых операциях. М.: ТВП, 1997. - 235 с.
15. Mozer М. С., Hillsdale N.J. A focused backpropagation algorithm for temporal pattern recognition. // Backpropagation, Lawrence Erlbaum Associates -1995. P. 137-169.
16. O'Reilly R. C., Munakata Y. Computational Explorations in Cognitive Neuroscience: Understanding the Mind by Simulating the Brain Cambridge, MA: MIT Press, 2000 - 512 p.
17. Carr C. E., Konishi M. A circuit for detection of interaural time differences in the brain stem of the barn owl // J. Neuroscience 1990. - Vol. 70 - No 10 - P. 3227-3246.
18. Bell C.C., Han V., Sugawara Y-, Grant K. Synaptic plasticity in a cerebellum-like structure depends on temporal order// Nature -1997. Vol. 387 - P. 278 - 281.
19. Thorpe S., Fize D., Marlot C. Speed of processing in the human visual system//Nature 1996. -Vol. 381 - No 6582. - P. 520 - 522.
20. Tovee M. J., Rolls E. T. Information encoding in short firing rate epochs by single neurons in the primate temporal visual cortex// Visual Cognition. 1995. - Vol. 2. — No 1. - P. 35 - 58.
21. Johansson R.S., Birznieks I. First spikes in ensembles of human tactile afferents code complex spatial fingertip events // Nature Neuroscience. — 2004. Vol. 7. - P. 170 - 177.
22. Mehta M. R., Lee A. K.,Wilson M. A. Role of experience and oscillations in transforming a rate code into a temporal code // Nature. 2002. - Vol. 417. - P. 741-746.
23. Bi G.Q., Poo M.M. Synaptic modifications in cultured hippocampal neurons: dependence on spike timing, synaptic strength, and postsynaptic cell type // Journal of Neuroscience. — 1998. Vol. 18. — No 24.-P. 10464-10472.
24. Stein R. B. Some models of neuronal variability// Biophys. J. 1967. - Vol. 7. No 1. - P. 37-68.
25. Feng J. Is the integrate-and-fire model good enough a review // Neural Networks. — 2001. - Vol. 14.-No 6.-P. 955-975.
26. Izhikevich E. M. Dynamical Systems in Neuroscience: The Geometry of Excitability and Bursting The MIT Press, 2007 - 457 p.
27. SpikeNet Technology Electronic resource. 2006. — Mode access: http://www.spikenet-technology.com.
28. Hopfield J. J. Pattern recognition computation using action potential timing for stimulus representation // Nature -1995. Vol. 376. - P. 33 - 36.
29. O'Keefe J. Hippocampus, theta, and spatial memory // Curr. Opin. Neurobiol 1993. - Vol. 3. - P. 917-924.
30. Gerstner W., Kistler W.M. Spiking Neuron Models: Single Neurons, Populations, Plasticity -Cambridge University Press, 2002 480 p.
31. Melamed O., Gerstner W., Maass W., Tsodyks M., Markram H. Coding and learning of behavioral sequences // Trends in Neurosciences 2004. - Vol. 27. - No 1. - P. 11-14.
32. Saggie К., Keinan A., Ruppin E. Solving a delayed response task with spiking and McCulloch-Pitts agents // Advances in Artificial Life: 7th European Conference, ECAL 2003 Dortmund, Germany. 2003. - P. 199-208.
33. Комарцова Л.Г., Максимов A.B. Нейрокомпьютеры: Учеб. пособие для вузов. М. : Изд-во МГТУ им. Н.Э.Ба^ана, 2004 - 399 с.
34. Галушкин А.И. Нейрокомпьютеры и их применение. Книга 3. Нейрокомпьютеры. М.: ИПРЖР, 2000. - 528 с.
35. Paquot Y., Duport F. Dambre J., Schrauwen В., Haelterman M., Massar S. Artificial intelligence at light speed : toward optoelectronic reservoir computing // Belgian Physical Society Magazine.-2001. Vol. 3. - P. 15-22.
36. Thorpe S., Delorme A., Rullen R. Spike-based strategies for rapid processing //Neural Networks. -2001,-Vol. 14. P.715-725.
37. Ponulak F. ReSuMe New supervised learning method for Spiking Neural Networks Electronic resource. - Poznan University of Technology, Institute of Control and Information Engineering , 2005. - Mode access: http://dl.cie.put.poznan.pl/~fp/.
38. Legenstein R., Markram H., Maass W. Input prediction and autonomous movement analysis in recurrent circuits of spiking neurons // Rev Neurosci. 2003. - Vol. 14. - No 1-2. - P.5-19.
39. Paolo E. Di. Spike-Timing Dependent Plasticity for Evolved Robots // Adaptive Behavior. 2002. -Vol. 10.-No3.-P.73-95.
40. Damper R. I., French R. L. В., Scutt T. W. ARB IB: an Autonomous Robot Based on Inspirations from Biology // Robotics and Autonomous Systems -1998. Vol. 31.- No. 4. - P.247-274.
41. Wiles J., Ball D., Heath S., Nolan C., Stratton P. Spike-time robotics: a rapid response circuit for a robot that seeks temporally varying stimuli // Australian Journal of Intelligent Information Processing Systems. 2010. - P.1-10.
42. Floreano D., Zufferey J.-C., Mattiussi C. Evolving Spiking Neurons from Wheels to Wings // Dynamic Systems Approach for Embodiment and Sociality. 2003. - Vol. 6. - P. 65-70.
43. Nolfi S., Floreano D. Synthesis of Autonomous Robots Through Evolution // Trends in Cognitive Sciences. -2002. Vol. 6. - No 1. - P.31-37.
44. Florian R. V. Spiking Neural Controllers for Pushing Objects Around // Proceedings of the Ninth International Conference on the Simulation of Adaptive Behavior (SAB'06) 2006. - Vol. 4095 - P. 570-581.
45. Castillo P.A., Rivas V., Merelo J.J., Gonzalez J., Prieto A., Romero G. G-Prop-II: Global Optimization of Multilayer Perceptrons using GAs // CEC 99. Proceedings of the 1999 Congress on Evolutionary Computation 1999. - P. 149-163.
46. Bohte S.M., Kok J.N., Poutre J.A.L. SpikeProp: backpropagation for networks of spiking neurons // Proceedings of ESANN. 2000. - P. 419-424.
47. Pfister J.P., Toyoizumi Т., Barber D., Gerstner W. Optimal Spike-Timing Dependent Plasticity for Precise Action Potential Firing in Supervised Learning // Neural computation 2006. - Vol. 18. -No6-P.1318- 1348.
48. Bohte S.M., Mozer M.C. A computational theory of spike-timing dependent plasticity: achieving robust neural responses via conditional entropy minimization // SEN-E0505. 2005. - P.1-25.
49. Toyoizumi Т., Pfister J.-P., Aihara K., Gerstner W. Optimality Model of Unsupervised Spike-Timing Dependent Plasticity: Synaptic Memory and Weight Distribution // Neural Computation. -2007.-Vol. 19.-No 3.-P. 639-671.
50. Markowitz D.A., Collman F., Brody C.D., Hopfield J.J., Tank D.W. Rate-specific synchrony: using noisy oscillations to detect equally active neurons // Proc. Natl. Acad. Sci. 2008. - Vol.105. -No 24. - P.8422-8427.
51. Кингман Дж. Пуассоновские процессы. — M.: МЦНМО, 2007. 136 с.
52. Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998.-432 p.
53. Webster R. A. Neurotransmitters, Drugs and Brain Function. John Wiley and Sons, 2002. - 534 P
54. Deutch A.Y., Bean A. J. Colocalization in Dopamine Neurons // Psychopharmacology: The Fourth Generation of Progress. New York, Raven Press, 1995. - P. 205-214
55. Holmes P. V., Crawely J. Q. N. Coexisting Neurotransmitters in Central Noradrenergic Neurons. // Psychopharmacology: The Fourth Generation of Progress. New York, Raven Press; 1995. - P. 347353
56. Porr В., Worgotter F. Isotropic sequence order learning // Neural Computation. 2003. - Vol. 15. -No. 4.-P. 831-864.
57. Wermter S., Christo P. Temporal Sequence Detection with Spiking Neurons: Towards Recognizing Robot Language Instructions II Connection Science. 2006. - Vol. 18. - No 1. - P.1 -22.
58. Perkel D. H., Feldman M. W. Neurotransmitter release statistics: Moment estimates for inhomogeneous Bernoulli trials. Berlin//J. Math. Biol. 1979.-Vol. 7.-No I.-P. 31-40.
59. Dunin-Barkovskii V. L., Osovets N. B. Neural network with formed dynamics of activity // Radiophysics and Quantum Electronics. 1994. - Vol. 37. - No 9. - P. 687-693.
60. Szatmary В., Izhikevich E. M. Spike-Timing Theory of Working Memory // PLoS Comput. Biol. -2010-Vol. 6-No 8.
61. Wills S. A. Computation with Spiking Neurons Electronic resource. PhD Disertation. -2004. -Access mode: http://ecs.victoria.ac.nz/twiki/pub/Courses/COMP4212010Tl/Readings/SebWilIsPhD-chapter3.pdf.
62. Hopfield J. J., Brody C. D. Sequence reproduction, single trial learning, and mimicry based on a mammalian-like distributed code for time. Electronic resource. — 2010. — Access mode: http://arxiv.org/abs/0910.2660.
63. Baudry M., Davis J. L., Thompson R. F. Advances in Synaptic Plasticity N.Y.: MIT Press, 1999.-335 p.
64. Bi G., M. Poo. Synaptic modification of correlated activity: Hebb's postulate revisited // Ann. Rev. Neuroscience 2001. - Vol. 24. - P.139-166.
65. Стратонович P.JI. Теория информации M.: Сов. Радио, 1975 - 424 с.
66. Antonelo Е. A., Schrauwen В., Stroobandt D. Mobile Robot Control in the Road Sign Problem using Reservoir Computing Networks // IEEE Int. Conf. on Robotics and Automation (ICRA) 2008. -P. 911-916.
67. Queiroz M. S., Braga A., Bcrredo R. C. Reinforcement Learning of a Simple Control Task Using the Spike Response Model //Neurocomputing. 2006. - Vol. 70. - No. 1-3. - P. 14-20.
68. Lee K., Kwon D.-S. Synaptic plasticity model of a spiking neural network for reinforcement learning //Neurocomputing.-2008.-Vol. 17.-No 13-15. P. 3037-3043.
69. Florian R. V. A reinforcement learning algorithm for spiking neural networks // S YNASC '05 Proceedings of the Seventh International Symposium on Symbolic and Numeric Algorithms for Scientific Computing. -2005. P. 299-306.
70. Burgsteiner H. Training networks of biological realistic spiking neurons for real-time robot control // Proceedings of the 9th International Conference on Engineering Applications of Neural Networks, Lile, France. 2005. - P. 129-136.
71. AInajjar F., Murase K. A Simple Aplysia-Like Spiking Neural Network to Generate Adaptive Behavior in Autonomous Robots // Adaptive Behavior. 2008. - Vol. 16. - No 5. - P. 306-324.
72. Joshi P., Maass W. Movement Generation with Circuits of Spiking Neurons // Neural Computation. 2005. - Vol. 17. - No 8. - P. 1715-1738.
73. Carrillo R., Ros E., Boucheny C., Coenen O. J.-M.D. A real-time spiking cerebellum model for learning robot control // Biosystems. 2008. - Vol. 94. - No 1-2. - P. 18-27.
74. Boucheny C., Carrillo R., Ros E., Coenen O. J.-M.D. Real-Time Spiking Neural Network: An Adaptive Cerebellar Model // Computational Intelligence and Bioinspired Systems: Lecture Notes in Computer Science.-2005. Vol. 3512. - P. 136-144.
75. Maass W., Natschlager Т., Markram H. Real-time computing without stable states: a new framework for neural computation based on perturbations // Neural Computations. 2002. - Vol. 14. -No 11.-P. 2531-2560.
76. Baxter J., Weaver L., Bartlett P. L. Direct gradient-based reinforcement learning: II. Gradient ascent algorithms and experiments // Technical report, Australian National University, Research School of Information Sciences and Engineering. 1999.
77. Bellman R. A Markovian Decision Process // Journal of Mathematics and Mechanics. 1957. -Vol. 6.
78. Farries M. A., Fairhall A. L. Reinforcement Learning With Modulated Spike Timing-Dependent Synaptic Plasticity //Neurophysiol. 2007. - Vol. 98. - No 6. - P. 3648-3665.
79. Baras D., Meir R. Reinforcement Learning, Spike Time Dependent Plasticity and the BCM Rule // Neural Computation. 2007. - Vol. 19. - No 8. - P. 2245-2279.
80. Levine M.W., Shefner, J.M. Fundamentals of sensation and perception. Pacific Grove, CA: Brooks/Cole, 1991. -512 p.
81. Rejeb L., Guessoum Z., M'Hallah R. An Adaptive Approach for the Exploration-Exploitation Dilemma for Learning Agents // Multi-Agent Systems and Applications IV. 2005. - Vol. 3690. - P. 316-325.
82. Bartlett P. L., Baxter, J. A biologically plausible and locally optimal learning algorithm for spiking neurons Electronic resource. 2000. Access Mode: http://arp.anu.edu.au/fltp/papers/jon/brains.pdf.gz.
83. Legenstein R., Pecevski D., Maass W. A Learning Theory for Reward-Modulated Spike-Timing-Dependent Plasticity with Application to Biofeedback // PLoS Comput Biol. 2008. - Vol. 4. - No 10. - el000180. doi: 10.1371 /journal.pcbi. 1000180
84. Izhikevich E. M. Solving the Distal Reward Problem through Linkage of STDP and Dopamine Signaling // Cerebral Cortex. 2007. - Vol. 17. - P. 2443 - 2452.
85. Fremaux N., Sprekeler H., Gerstner W. Functional Requirements for Reward-Modulated Spike-Timing-Dependent Plasticity // The Journal of Neuroscience. -2010. Vol. 30. - No. 40. - P. 133261333.
86. Редысо В.Г. Эволюция, нейронные сети, интеллект: Модели и концепции эволюционной кибернетики М.: УРСС, 2005 - 224 с.
87. Pakhomov V., Yelkin Е. Introducing an Another One Mirosot Robot Soccer System // Proceeding of FIRA Robot World Congress 2006. Dortmund University, 2006. - P. 137-145.
88. Sinyavskiy O.Y., Kobrin A.I. Research opportunities of management by movement models of the mobile robot football player with the help of neural net algorithms // Proceeding of FIRA Robot World Congress 2006. Dortmund University, 2006. - P. 231-240.
89. Matlab 7.11 overview. Electronic resource. Access Mode: http://www.mathworks.com/help/pdfdoc/matlab/getstart.pdf.
90. Maple 14 overview. Electronic resource. Access Mode: http://www.inaplesoft.com/view.aspx?SF=53244/0/Maple 14UserManua.pdf.
91. Mathcad 15.0 overview. Electronic resource. . Access Mode: http://www.ptc.com/WCMS/files/121836/en/6011Mathcad15DS.pdf.
92. CSIM : A Neural Circuit SIMulator. Electronic resource. . Access Mode: http://www.lsm.tugraz.at/download/csim-l.l-usermanual.pdf.
93. Hines M.L., Carnevale N.T. The NEURON simulation environment // The Handbook of Brain Theory and Neural Networks, 2nd ed., edited by M.A. Arbib. Cambridge, MA: MIT Press, 2003. - P. 769-773.
94. Bower J. M., Beeman D., Hucka M. The GENESIS Simulation System // The Handbook of Brain Theory and Neural Networks, 2nd ed., edited by M.A. Arbib. Cambridge, MA: MIT Press, 2003. - P. 475-478
95. Gewaltig M.O., Diesmann M. NEST // Scholarpedia. 2007. - Vol. 2. - No. 4.
96. Goodman D.F.M., Brette R. The Brian simulator // Frontiers in Neuroscience. 2009. - Vol. 3. -No 2.-P. 192- 197.
97. Мартыненко Ю.Г. Динамика мобильных роботов // Соровский Образовательный Журнал. 2000. - Т. 6. - № 5. - С. 110-116.
98. Синявский О.Ю. Моделирование футбола роботов лиги MIROSOT // Материалы научного фестиваля "Мобильные роботы 2008". МГУПИ, 2008. - С. 145-156.
99. Baraff D. An Introduction to Physically Based Modeling: Rigid Body Simulation II— Nonpenetration Constraints // Technical report Robotics Inst., Carnegie Mellon Univ., 1997.
100. Barraf D. Fast contact force computation for Nonpenetrating Rigid Body // Computer Graphics Proceedings, Annual Conference Series. -1994. P. 23-34.
101. Список публикаций по теме диссертации:
102. Neural Networks (Information Optics). AUerton press, 2010. - Vol. 19. - No 4. - P. 300309
103. Синявский О.Ю., Кобрин А.И. Обучение спайкового нейрона с учителем в задаче детектирования пространственно-временного импульсного паттерна // Нейрокомпьютеры: разработка и применение. М. Радиотехника, 2010. - №8. - С. 6976.
104. Sinyavskiy O.Y. Autoassociative spatial-temporal pattern memory based on stochastic spiking neurons//Annals of DAAAM International Symposium. -2010. P. 121-122
105. Синявский О.Ю., Кобрин А.И. Обучение спайковых нейронных сетей работе с нестационарными импульсными последовательностями // XI Всероссийская Научно-Техническая Конференция "Нейроинформатика-2009". Сборник Научных Трудов. МИФИ, М., 2009.-С. 139-149.
106. Синявский О.Ю. Принципы построения универсальной программы для работы с искусственными нейронными сетями //Труды международной конференции "Современные проблемы математики, механики и информатики". -ТулГУ, 2005.-С. 121-127
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.