Разработка методов и алгоритмов представления информации в обучении с подкреплением с использованием биологических принципов

Кудеров Петр Викторович

Разработка методов и алгоритмов представления информации в обучении с подкреплением с использованием биологических принципов тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Кудеров Петр Викторович

Кудеров Петр Викторович
кандидат наук
2024

Специальность ВАК РФ00.00.00

Количество страниц 156

Кудеров Петр Викторович. Разработка методов и алгоритмов представления информации в обучении с подкреплением с использованием биологических принципов: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2024. 156 с.

Оглавление диссертации кандидат наук Кудеров Петр Викторович

Введение

Глава 1. Обзор и мотивация

1.1 Теоретические основы обучения с подкреплением

1.1.1 Историческое развитие методов на основе полезности

1.1.2 Методы на основе полезности и на основе стратегии

1.1.3 Безмодельные и модельные методы

1.1.4 Компромисс между исследованием и использованием

1.1.5 Проблема распределения заслуг

1.1.6 Перенос и обобщение в RL

1.2 Модельное обучение с подкреплением

1.2.1 Методы, фокусирующиеся на обучении модели

1.2.2 Методы, интегрирующие обучение и планирование

1.2.3 Преимущества и вызовы

1.3 Иерархическое обучение с подкреплением

1.3.1 Преимущества и вызовы

1.4 Подходы на основе больших языковых моделей

1.5 Обучение представлений в обучении с подкреплением

1.6 Биологически-вдохновленные модели и мотивация для исследования

1.7 Формулировка задачи

Глава 2. Применение иерархических и биологически

правдоподобных моделей в обучении с подкреплением

2.1 Модель иерархического внутренне-мотивированного агента

(HIMA)

2.2 Модуль "Dreaming" и процесс воображения

2.2.1 Обучение в воображении

2.2.2 Механизм обнаружения аномалии предсказаний

2.2.3 Преимущества и влияние на процесс обучения

2.3 Эксперименты и результаты

2.3.1 Оценка компонентов модели HIMA

2.3.2 Эксперимент с изменяющимися заданиями

2.4 Анализ результатов

Глава 3. Пространственно-временная обработка

3.1 Аналогичные модели пространственно-временной памяти

3.1.1 Временной Кодировщик Объединением

3.2 Метрики оценки качества представлений

3.2.1 Метрики сохранения информации

3.2.2 Метрики стабильности представлений

3.2.3 Точность предсказаний и скорость обучения

3.3 Разработка моделей пространственно-временной памяти

3.3.1 Начальная модель: Временной кодировщик Сэндвич

3.3.2 Финальная модель: Память последовательностей с аттракторным модулем

3.4 Экспериментальная проверка

3.4.1 Задача запоминания последовательных данных

3.4.2 Аттракторные свойства пространственного аттрактора

3.5 Анализ и заключение

Глава 4. Пространственное кодирование

4.1 Предпосылки и обзор литературы

4.2 Модель SpatialEncodeг

4.2.1 Механизмы обучения и активации

4.2.2 Механизмы гомеостаза и синаптогенеза

4.2.3 Ключевые особенности и преимущества

4.3 Экспериментальная проверка

4.3.1 Классификация цифр МШТ

4.3.2 Классификация изображений С1РЛК-10

4.3.3 Оценка позы DVS камеры

4.3.4 Сравнение с моделями одного размера

4.4 Подробный сравнительный анализ

4.4.1 Механизмы конкуренции

4.4.2 Адаптивность

4.4.3 Вычислительная сложность

4.4.4 Ограничения и направления для будущей работы

4.5 Заключение

Заключение

Список литературы

Введение диссертации (часть автореферата) на тему «Разработка методов и алгоритмов представления информации в обучении с подкреплением с использованием биологических принципов»

Введение

Обучение с подкреплением (ЯЬ) утвердилось как эффективный метод для обучения агентов принятию решений в сложных средах на основе взаимодействия с окружающей средой и получения вознаграждений [1]. Однако, несмотря на значительные достижения [2—4], ЯЬ-системы продолжают сталкиваться с рядом серьёзных проблем, особенно при работе с высокоразмерными, разреженными и шумными данными [5; 6]. Эти трудности ограничивают их способность эффективно обучаться и обобщать знания для различных задач и новых условий.

В отличие от искусственных систем, интеллект человека и животных демонстрирует высокую способность к обучению в условиях ограниченных взаимодействий и к широкому обобщению знаний [7—9]. Мозг с лёгкостью интегрирует сенсорные данные во времени, создавая представления, которые позволяют быстро адаптироваться к изменяющимся условиям [10; 11]. Такое сравнение подчёркивают как вдохновление биологическими принципами при разработке многих методов ЯЬ, так и существующий разрыв между искусственными и биологическими системами [12; 13].

Одной из актуальных тем исследований в ЯЬ является обучение представлениям [6]. Эффективное представление окружающей среды необходимо агентам для обработки высокоразмерных данных. Однако эта задача остаётся сложной для искусственных систем, особенно когда речь идёт о динамических пространственно-временных паттернах. Биологические системы естественным образом кодируют пространственную и временную информацию, создавая устойчивые представления, которые способствуют принятию решений в реальном времени [14—18].

Хотя методы иерархического обучения с подкреплением и модельного обучения с подкреплением значительно продвинулись в решении этих проблем [19—21], они всё ещё сталкиваются с ограничениями в обработке сложной пространственно-временной информации [22; 23]. Иерархический подход обеспечивает структурность модели и решения через разбиение задачи на более простые подзадачи и поддержку повторного использования выученных навыков в различных контекстах [23]. Модельный подход позволяет агентам представлять будущее поведение на основе обучаемой модели окружающей

среды [24—26]. Тем не менее, по сравнению с живыми системами [27; 28], эти подходы сталкиваются с трудностями в обработке сложных динамических данных.

Способность мозга эффективно работать с пространственно-временными данными и обучаться на основе минимальной обратной связи подчёркивает необходимость разработки новых подходов, которые выходят за рамки традиционного обучения с подкреплением. Основываясь на принципах когнитивной нейронауки [11; 14; 15; 29; 30], биологически вдохновленные модели представляют собой перспективное направление для решения этих задач [17; 18]. Согласуясь с принципами работы мозга, такие механизмы как обучение по Хеб-бу [13], аттракторная динамика [16], адаптивные резонансные сети Гроссберга

[31] позволяют создавать модели, способные формировать более гибкие, адаптивные и эффективные представления. В отличие от классических ЯЬ-систем, естественными атрибутами биологически вдохновленных моделей являются обучение и адаптация в реальном времени, управление рисками в условиях неопределённости, устойчивость к шумам, ошибкам и повреждениям модели

[32].

Важным аспектом при построении биологически правдоподобных моделей может служить иерархическая структура памяти, вдохновленная нейробио-логическими моделями гиппокампа и коры, которая позволяет эффективно кодировать и извлекать сложные последовательности информации [15; 33]. Такие модели могут быть интегрированы в модели когнитивных агентов в обучении с подкреплением для улучшения стратегий обучения, исследования и принятия решений. Другим важным атрибутом естественного интеллекта является его способность учитывать неопределенность и шум в процессах обучения [16; 18; 29; 34]. Мозг постоянно сталкивается с неполной и шумной информацией, но остаётся способным принимать надежные решения, обеспечивая необходимую адаптивность и гибкость. Интеграция этих принципов в ИИ создаёт системы, которые могут учитывать различные уровни неопределённости и оценивать степень уверенности в своих предсказаниях.

Таким образом, интеграция биологически вдохновленных механизмов в ЯЬ открывает путь к преодолению разрыва между искусственным и биологическим интеллектом [17]. Используя достижения когнитивной нейронауки, можно создавать ИИ-системы, которые не только более эффективны, но и лучше согласуются с когнитивными процессами человека [14; 30; 35]. Такой междисциплинарный подход способен революционным образом изменить и

улучшить системы искусственного интеллекта, которые будут более адаптивными, масштабируемыми и способными к обобщению, аналогично человеческому интеллекту [29].

И помимо улучшения возможностей искусственного интеллекта, такие биологически правдоподобные модели представляют собой новый шаг в кооперации между когнитивными науками. Они создают уникальные возможности для нейробиологов и когнитивных исследователей изучать модели "т эШео" — моделируя и тестируя гипотезы о работе мозга в экспериментах в виртуальных средах. Такой подход значительно упрощает и ускоряет исследования сложных когнитивных процессов. Последнее особенно актуально в свете очень ограниченного числа исследований, направленных на объединение когнитивных нейробиологических моделей с целью экспериментального тестирования и изучения их взаимодействия, согласованности, а также эмерджентных свойств. Как результат, совместная работа между ИИ и другими когнитивными науками открывает путь не только к созданию более точных и интерпретируемых систем, но и к лучшему представлению о когнитивных процессах человеческого мозга.

Учитывая вышеупомянутые задачи и возможности, были поставлены цель и задачи исследования.

Целью данного исследования являлась разработка методов и алгоритмов представления информации в обучении с подкреплением с использованием биологических принципов. Основное внимание уделялось созданию биологически правдоподобных моделей для эффективного кодирования и обработки пространственно-временных данных. Знания вычислительной когнитивной нейро-биологии использовались для разработки моделей, поддерживающих принятие решений, обучение и адаптацию в реальном времени, формирование эффективного представления информации и ее запоминание.

Для достижения поставленной цели необходимо было решить следующие задачи:

1. Предложить и реализовать метод обучения модели мира агента в обучении с подкреплением, оснащенного иерархической памятью, построенной на биологических принципах. Проверить эффективность памяти, применяя модельный подход при обучении стратегии агента.

2. Разработать иерархическую модель памяти, способную эффективно запоминать и извлекать пространственно-временную информацию.

Оценить качество обучаемых представлений, а также способность модели извлекать и переиспользовать повторяющиеся паттерны или последовательности паттернов.

3. Предложить подход для стабилизации обучаемых представлений и облегчения агрегации похожей информации в биологически правдоподобных нейросетевых моделях на основе аттракторной динамики. Оценить качество представлений и эффективность способности памяти к агрегации и извлечению знаний.

4. Создать универсальную нейросетевую модель с использованием биологических принципов, которая может быть использована для кодирования информации, а также в качестве базового блока для построения иерархических ассоциативных моделей памяти. На примере реализации пространственного кодировщика показать эффективность представления данных в задачах классификации и регрессии.

Научная новизна:

1. Реализован модельный алгоритм для обучения стратегии ЯЬ агента в воображении, который улучшает эффективность обучения за счет использования обучаемой модели мира, основанной на биологически-правдоподобной иерархической памяти. Продемонстрировано, как оригинальное правило переключения между обучением в реальной или моделируемой в воображении среде на основе оценки ошибки предсказания модели значительно повышает эффективность и стабильность обучения.

2. Разработана оригинальная методология количественной оценки качества обучаемых представлений в пространственно-временных моделях памяти разреженных представлений. Предложенная методология апробирована в задачах запоминания последовательных данных. Количественные метрики основаны на идее измерения сохранения локальности представлений до и после кодирования. Данная методология позволила оценить и сравнить способность к агрегации информации в исследуемых моделях памяти.

3. Предложена оригинальная иерархическая модель памяти с аттрак-торным модулем, который стабилизирует обучаемые представления и помогает агрегации похожих знаний. Данный модуль основан на идеях аттракторных сетей, таких как сети Хопфилда, и способен

хранить и извлекать знания, являющиеся состояниями-аттракторами. Разработанный аттракторный модуль значительно повышает качество обучаемых представлений, а также эффективность запоминания и извлечения знаний.

4. Создана оригинальная нейросетевая конкурентная модель пространственного кодировщика, способная эффективно кодировать высокоразмерные данные в разреженные распределенные представления. Отличительной чертой модели среди аналогов является комбинация разреженной матрицы связей и мягкой синаптической и нейронной конкуренции, что позволяет добиться более быстрого и стабильного обучения. Для данной модели была предложена новая модификация правила обучения Хебба с поддержкой отрицательных весов. В работе также предложен двух-компонентный механизм синаптогенеза для разреживания матрицы связей и ее последующей динамической адаптации, что позволяет снизить требования по памяти и время обработки.

Теоретическая значимость. Новый модельный алгоритм обучения стратегии ЯЬ агента в воображении предлагает оригинальное правило переключения между обучением в реальной и моделируемой среде на основе оценки ошибки предсказания модели. Это значительно повышает как эффективность, так и стабильность обучения.

Разработанная методология оценки качества обучаемых представлений в моделях памяти предоставляет новый способ количественной оценки их [моделей] способности к разделению и консолидации пространственно-временной информации.

Иерархическая модель памяти последовательностей предлагает теоретическую основу для понимания того, как иерархические представления могут использоваться для запоминания, извлечения и переиспользования пространственно-временной информаии. Продемонстрировано, как аттрактор-ная динамика нейросетей усиливает способность поддерживать локальность представлений в памяти, облегчая агрегацию информации и долговременную консолидацию знаний.

Модель пространственного кодировщика предлагает теоретическую основу для эффективного и стабильного онлайн обучения представлениям высокоразмерных данных в условиях ограниченных вычислительных ресурсов. Новая модификация хеббовского правила обучения расширяет его применение на мо-

дели с отрицательными весами. Важнейший теоретический вклад заключается в создании альтернативы существующим подходам обучения в конкурентных сетях, которые основаны на жесткой конкуренции с использованием полиномиальной функции или эойшах в качестве функции активации и нормализации весов высокого порядка. Предложена комбинация двух параллельных процессов — жесткого разреживания матрицы связей и мягких линейных правил синаптической и нейронной конкуренции, обеспечивающих высокую эффективность и стабильность процесса специализации нейронов. Механизмы гомеостаза и динамического синаптогенеза в модели формируют теоретическую основу для создания высокоадаптивных алгоритмов нейросетевого кодирования информации.

Практическая значимость. Модельный алгоритм обучения стратегии агента в воображении может применяться в задачах, требующих сокращения взаимодействий с реальной средой, например, в вычислительно сложных виртуальных средах, таких как среды для управления робототехническими установками.

Методология оценки качества обучаемых представлений в моделях памяти последовательностей позволяет проводить количественное сравнение моделей по их способности к агрегации и разделению информации для анализа и оценки качества обучаемых представлений в различных задачах, где требуется баланс обобщающей способности и способности к запоминанию.

Иерархическая модель памяти для хранения и извлечения пространственно-временных паттернов применима в задачах последовательной обработки данных и онлайн-обучения, таких как прогнозирование временных рядов; обработка, запоминание и анализ текстовых данных или данных от динамических сенсоров.

Модель пространственного кодировщика может применяться для задач, связанных с обучением представлений высокоразмерных данных. Предложенная модель имеет преимущества в условиях необходимости быстрой адаптации и обучения без учителя при ограниченных вычислительных ресурсах, что делает её подходящей для приложений в робототехнике, автономных системах и обработке сенсорных данных.

Методология и методы исследования.

Разработанные алгоритмы используют методы машинного обучения и модели вычислительной нейробиологии для решения исследовательских задач.

Среди использованных методов машинного обучения, классические алгоритмы обучения с подкреплением: Q-обучение и TD(A), а также нейросетевые алгоритмы DQN и Option-Critic. Для сравнения с базовыми решениями использовались нейросетевые модели на основе сверточных сетей, а также рекуррентная модель LSTM, основанные на методе обратного распространения ошибки (backpropagation). Также использовались биологически-правдоподобные вычислительные модели для моделирования когнитивных процессов: хеббовское обучение, нейросетевая модель HTM, дискретизированные по времени спайко-вые (импульсные) нейросетевые модели, сети Хопфилда и Кохонена.

Эффективность предлагаемых решений оценивалась в численных экспериментах, а сравнительный анализ проводился на основе статистической оценки с множественными запусками каждого алгоритма. Для более детальной оценки вклада отдельных компонентов использовалось исследование с исключением отдельных элементов (ablation study). Все алгоритмы и эксперименты реализованы с использованием Python 3, библиотек NumPy и Numba. Некоторые модели также применяли фреймворк htm.core для моделирования памяти последовательностей. Для сравнения с базовыми решениями (baseline) использовались фреймворки PyTorch и htm.core. Логирование результатов экспериментов и отслеживание качества моделей осуществлялось с помощью библиотеки wandb.

Основные положения, выносимые на защиту:

1. Модельный алгоритм для обучения стратегии агента RL в воображении: алгоритм, который улучшает эффективность и стабильность обучения в задачах RL за счет использования модели мира, основанной на биологически-правдоподобной иерархической памяти.

2. Иерархическая модель памяти: биологически правдоподобная модель пространственно-временной памяти с аттракторным модулем, улучшающим качество обучаемых представлений и способность к агрегации и переиспользованию информации.

3. Модель пространственного кодировщика: модель для кодирования высокоразмерных данных в разреженные распределенные представления с использованием онлайн обучения без учителя. Она включает в себя новую биологически правдоподобную нейронную модель с модифицированным хеббовским правилом обучения, линейной синаптической и

нейронной соревновательности, разреженной топологией связей и её динамической адаптацией новым алгоритмом синаптогенеза.

Достоверность полученных результатов обеспечивается многократными запусками каждого эксперимента и проведением статистического анализа для оценки значимости результатов. Исследования с исключением отдельных элементов дополнительно подтверждают вклад отдельных компонентов в итоговые результаты. Результаты предложенных моделей сравниваются с базовыми решениями на основе современных методов для обеспечения их валидности и надежности. Программные реализации разработанных алгоритмов и моделей, а также проведенных экспериментов, опубликованы в виде библиотек с открытым исходным кодом и доступны в сети интернет.

Апробация работы. Основные результаты работы докладывались на:

— International Conference on Agents and Artificial Intelligence (ICAART) (2021)

— International Conference on Brain Informatics (2021 и 2023)

— International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence (BICA) (2022, 2023, 2024)

— Open Conference on Artificial Intelligence OpenTalks.AI (2022)

— XXV Международная научно-техническая конференция "Нейроинфор-матика-2023", (2023)

— Виртуальный семинар "Ключевые опережающие научные инициативы" (КОНИ НИЯУ МИФИ), (2023)

— Семинар Центра Когнитивного Моделирования МФТИ (2021, 2022,

2023)

Полученные результаты и знания использовались в преподавании курсов по искусственному интеллекту:

— Курс "Машинное обучение с подкреплением" (МФТИ, 2022, 2023, 2024), разработка и проведение практических занятий, разработка и проверка домашних практических заданий.

— Курс "Теория машинного обучения" (МГИМО, 2020, 2021, 2022, 2023,

2024), разработка и проведение лекционный занятий.

— Мини-курс "Введение в обучение с подкреплением" (Летняя Школа AIRI, 2023, 2024), разработка и проведение практических занятий.

Публикации. Основные результаты по теме диссертации изложены в 7 печатных изданиях, 3 из которых изданы в журналах списка К1, 7 —в периодических научных журналах, индексируемых Web of Science и Scopus, 4 — в тезисах докладов.

Личный вклад. В работе [36] предложен, реализован, протестирован и описан новый метод планирования в простых задачах обучения с подкреплением на примере клеточных сред, используя модель мира, основанную на биологически правдоподобной иерархической памяти. В работах [37; 38] был предложен, реализован, проанализирован и описан алгоритм обучения стратегии агента RL в воображении, который сокращает количество требуемых взаимодействий с окружающей средой, повышая эффективность обучения. В работах [39; 40] была разработана и описана новая методология для оценки качества представлений в моделях пространственно-временной памяти. В работах [40; 41] была предложена, реализована, проанализирована и описана новая иерархическая модель пространственно-временной памяти, включающая аттракторный модуль, который стабилизирует обучение представлений и облегчает агрегацию памяти. В работе [42] была разработана оригинальная биологически правдоподобная нейросетевая модель, продемонстрировано её использование для создания пространственного кодировщика высокоразмерных данных в разреженные распределенные представления, проведены экспериментальные сравнения с базовыми решениями, проанализированы свойства и преимущества предложенного метода.

Содержание диссертации соответствует паспорту специальности 5.12.4. Когнитивное моделирование, в частности, пунктам:

1. Математическое и компьютерное моделирование когнитивных процессов у человека, животных и искусственных агентов. Подходы к решению классических проблем: фрейма, обыденной ("наивной") модели мира, генерации нового знания, принятия медицинских и социально значимых решений.

5. Обработка информации в информационно-аналитических системах поддержки интеллектуальной деятельности. Роль когнитивной науки при мо-

делировании экспертизы человека-специалиста в работах по искусственному интеллекту (инженерии знаний). Когнитивные аспекты восприятия, понимания и прогнозирования на основе обработки больших массивах информации.

8. Искусственные нейронные сети (включая конволюционные и импульсные сети) при моделировании базовых когнитивных функций обучения, распознавания, запоминания фигуративной (образной), процедурной и декларативной информации.

Объем и структура работы. Диссертация состоит из введения, 4 глав, заключения и 0 приложений. Полный объём диссертации составляет 156 страниц, включая 27 рисунков и 0 таблиц. Список литературы содержит 184 наименования.

Глава 1. Обзор и мотивация

Обучение с подкреплением (Reinforcement Learning, RL) зарекомендовало себя как чрезвычайно мощный и эффективный подход для задач принятия решений и управления, особенно подходящий для сложных сред [1]. Основное преимущество этого подхода заключается в моделировании задач последовательного принятия решений через взаимодействие агента и окружающей среды, которое обычно формализуется в виде Марковского процесса принятия решений (MDP) [43; 44]. Такая постановка нашла широкое применение в робототехнике, автономных системах и играх. Основная цель в обучении с подкреплением заключается в поиске оптимальной стратегии — стратегии, максимизирующей совокупные вознаграждения, — через взаимодействие с окружающей средой. Несмотря на потенциал, RL по-прежнему сталкивается с важными вызовами, касающимися эффективности, масштабируемости и обработки данных в реальном времени, таких как пространственно-временные данные.

Одним из главных ограничений традиционных методов обучения с подкреплением является их низкая эффективность с точки зрения использования данных. Популярные алгоритмы, такие как Q-обучение и Deep Q-Networks (DQN), часто требуют миллионов или даже миллиардов взаимодействий с окружающей средой для обучения эффективных стратегий [45; 46]. Эти методы часто полагаются на оффлайн-обучение или пакетную обработку данных, многократно используя большие объемы ранее собранных данных для улучшения стратегии агента. Хотя это может быть эффективно в статичных или контролируемых условиях, такие методы плохо подходят для принятия решений в реальном времени в динамических средах, где агентам необходимо адаптироваться к непрерывным потокам данных. Эта неэффективность подчеркивает необходимость более гибких методов онлайн-обучения, которые могут работать в реальных условиях.

Еще одной важной проблемой является задача представления состояний в высокоразмерных, зашумленных или частично наблюдаемых средах. В таких условиях агентам необходимо извлекать значимые, низкоразмерные признаки из исходных наблюдений для принятия эффективных решений [46; 47]. Без эффективных представлений состояний агенты RL испытывают трудности с

обобщением задач, что приводит к неоптимальным результатам, особенно в сложных, реальных приложениях [47; 48]. Кроме того, сложность балансировки краткосрочных действий и долгосрочного планирования добавляет дополнительных сложностей, особенно для методов без модели, которые часто не учитывают будущие переходы состояний [26; 46; 49].

Для устранения этих недостатков методы, такие как модельно-ориентиро-ванное обучение с подкреплением (Model-Based Reinforcement Learning, MBRL), предлагают перспективный подход за счет включения явной модели динамики окружающей среды [26; 50]. MBRL позволяет агентам симулировать будущие исходы на основе изученных или известных моделей, значительно повышая эффективность использования данных и обеспечивая долгосрочное планирование [50; 51]. Предсказывая будущие состояния и вознаграждения, агенты могут принимать более обоснованные решения, уменьшая зависимость от чрезмерного количества взаимодействий с реальной средой. Однако обучение точным моделям в сложных, динамических средах остается вызовом. Это открывает возможности для дальнейших исследований в области более адаптивных и биологически правдоподобных подходов, способных справляться с пространственно-временной сложностью, присущей реальным задачам.

Аналогично, иерархическое обучение с подкреплением (Hierarchical Reinforcement Learning, HRL) предлагает другой перспективный путь, разбивая сложные задачи на подзадачи, или опции, позволяя агенту принимать решения на нескольких уровнях абстракции. Эта иерархическая структура обеспечивает более эффективное обучение и принятие решений на длинных временных интервалах, разбивая сложные задачи на более простые, управляемые шаги [52; 53]. Этот подход соответствует тому, как биологические системы, такие как человеческий мозг, управляют сложными задачами, иерархически организуя процессы принятия решений. Структурирование решений на разных уровнях снижает сложность обучения стратегии и улучшает способность агента обобщать различные задачи.

Несмотря на достижения, сделанные MBRL и HRL, основные подходы RL остаются ограниченными из-за их зависимости от оффлайн-обучения в больших масштабах и их неспособности обрабатывать пространственно-временные данные в реальном времени. В отличие от этого, биологические системы превосходно справляются с обработкой таких данных. Например, человеческий мозг способен обрабатывать непрерывные потоки пространственно-временной

информации, адаптируя свои представления и стратегии принятия решений в реальном времени. Эта способность к онлайн-обучению — обновление внутренних моделей и стратегий принятия решений на основе минимальных взаимодействий в реальном времени — делает биологические системы идеальным источником вдохновения для улучшения алгоритмов ЯЬ.

Список литературы диссертационного исследования кандидат наук Кудеров Петр Викторович, 2024 год

Список литературы

1. Sutton R. S., Barto A. G. Reinforcement learning: An introduction. — MIT press, 2018.

2. Kaelbling L. P., Littman M. L., Moore A. W. Reinforcement learning: A survey // Journal of artificial intelligence research. — 1996. — Т. 4. — С. 237—285.

3. Mnih V. [и др.]. Human-level control through deep reinforcement learning // Nature. — 2015. — Т. 518, № 7540. — С. 529—533.

4. Hafner D. [и др.]. Mastering diverse domains through world models // arXiv preprint arXiv:2301.04104. — 2023.

5. Levine S. [и др.]. End-to-end training of deep visuomotor policies // Journal of Machine Learning Research. — 2016. — Т. 17, № 39. — С. 1—40.

6. Botteghi N., Poel M, Brune C. Unsupervised Representation Learning in Deep Reinforcement Learning: A Review. — 2024. — arXiv: 2208 . 14226 [cs.LG]. — URL: https://arxiv.org/abs/2208.14226.

7. Thorndike E. L. Animal intelligence: An experimental study of the associative processes in animals. // The Psychological Review: Monograph Supplements. — 1898. — Т. 2, № 4. — С. i.

8. Watson J. B. Psychology as the behaviorist views it. // Psychological review. — 1913. — Т. 20, № 2. — С. 158.

9. Piaget J. The origins of intelligence in children // International University. — 1952.

10. Tulving E. Elements of Episodic Memory. — Oxford University Press, 1983.

11. Miller G. A. The magical number seven, plus or minus two: Some limits on our capacity for processing information. // Psychological review. — 1956. — Т. 63, № 2. — С. 81.

12. Skinner B. F. The behavior of organisms: An experimental analysis. — BF Skinner Foundation, 2019.

13. Hebb D. O. The organization of behavior: A neuropsychological theory. — Psychology press, 2005.

14. Buzsaki G. Rhythms of the Brain. — Oxford university press, 2006.

15. Marr D., Thach W. T. A theory of cerebellar cortex // From the retina to the neocortex: selected papers of David Marr. — 1991. — С. 11—50.

16. Hopfield J. J. Neural networks and physical systems with emergent collective computational abilities. // Proceedings of the national academy of sciences. — 1982. — Т. 79, № 8. — С. 2554—2558.

17. Friston K. The free-energy principle: a unified brain theory? // Nature reviews neuroscience. — 2010. — Т. 11, № 2. — С. 127—138.

18. George D., Hawkins J. A hierarchical Bayesian model of invariant pattern recognition in the visual cortex // Proceedings. 2005 IEEE International Joint Conference on Neural Networks, 2005. Т. 3. — IEEE. 2005. — С. 1812—1817.

19. Dietterich T. G. Hierarchical reinforcement learning with the MAXQ value function decomposition // Journal of artificial intelligence research. — 2000. — Т. 13. — С. 227—303.

20. Dayan P., Hinton G. E. Feudal Reinforcement Learning // Advances in Neural Information Processing Systems. Т. 5 / под ред. S. Hanson, J. Cowan, C. Giles. — Morgan-Kaufmann, 1993.

21. Hafner D. [и др.]. Dream to Control: Learning Behaviors by Latent Imagination // arXiv:1912.01603 [cs]. — 2020. — Март. — URL: http:// arxiv.org/abs/1912.01603 ; arXiv: 1912.01603.

22. Schmidhuber J. Learning complex, extended sequences using the principle of history compression // Neural computation. — 1992. — Т. 4, № 2. — С. 234—242.

23. Hutsebaut-Buysse M., Mets K., Latre S. Hierarchical reinforcement learning: A survey and open research challenges // Machine Learning and Knowledge Extraction. — 2022. — Т. 4, № 1. — С. 172—221.

24. Ha D., Schmidhuber J. World models // arXiv preprint arXiv:1803.10122. — 2018.

25. Silver D. [и др.]. Mastering the game of go without human knowledge // nature. — 2017. — Т. 550, № 7676. — С. 354—359.

26. Moerland T. M. [и др.]. Model-based reinforcement learning: A survey // Foundations and Trends® in Machine Learning. — 2023. — Т. 16, № 1. — С. 1—118.

27. Выготский Л. С. Мышление и речь. — Directmedia, 2014.

28. Леонтьев А. Н. Деятельность. Сознание. Личность. — Политиздат, 1975.

29. Simon H. A. The Sciences of the Artificial, reissue of the third edition with a new introduction by John Laird. — MIT press, 2019.

30. Анохин П. К. Принципиальные вопросы общей теории функциональных систем. — 1973.

31. Grossberg S. Adaptive Resonance Theory: How a brain learns to consciously attend, learn, and recognize a changing world // Neural networks. — 2013. — Т. 37. — С. 1—47.

32. Maass W. Networks of spiking neurons: the third generation of neural network models // Neural networks. — 1997. — Т. 10, № 9. — С. 1659—1671.

33. Hawkins J., Ahmad S., Cui Y. A Theory of How Columns in the Neocortex Enable Learning the Structure of the World // Frontiers in Neural Circuits. — 2017. — Окт. — Т. 11. — С. 81.

34. Kahneman D. Thinking, fast and slow // Farrar, Straus and Giroux. — 2011.

35. Anderson J. R. The architecture of cognition. — Psychology Press, 2013.

36. Kuderov P., Panov A. Planning with Hierarchical Temporal Memory for Deterministic Markov Decision Problem: // Proceedings of the 13th International Conference on Agents and Artificial Intelligence. — SCITEPRESS - Science, Technology Publications, 2021. — P. 1073—1081. — URL: https : / / www. scitepress . org / DigitalLibrary / Link . aspx ? doi = 10 . 5220 / 0010317710731081.

37. Dzhivelikian E. [et al.]. Intrinsic Motivation to Learn Action-State Representation with Hierarchical Temporal Memory // Brain Informatics / ed. by M. Mahmud [et al.]. — Cham : Springer International Publishing, 2021. — P. 13—24. — URL: https://doi.org/10.1007/978-3-030-86993-9_2.

38. Dzhivelikian E. [et al.]. Hierarchical intrinsically motivated agent planning behavior with dreaming in grid environments // Brain Informatics. — 2022. — Apr. — Vol. 9, no. 1. — P. 8. — URL: https://doi.org/10.1186/s40708-022-00156-6.

39. Rodkin I., Kuderov P., Panov A. I. Stability and Similarity Detection for the Biologically Inspired Temporal Pooler Algorithms // Procedia Computer Science. — 2022. — Nov. — Vol. 213. — P. 570—579. — (2022 Annual International Conference on Brain-Inspired Cognitive Architectures for Artificial Intelligence: The 13th Annual Meeting of the BICA Society). — URL: https://doi.org/10.1016Zj.procs.2022.11.106.

40. Kuderov P., Dzhivelikian E., Panov A. I. Stabilize Sequential Data Representation via Attraction Module // Brain Informatics / ed. by F. Liu [et al.]. — Cham : Springer Nature Switzerland, 2023. — P. 83—95. — URL: https: //doi.org/10.1007/978-3-031-43075-6_8.

41. Kuderov P., Dzhivelikian E., Panov A. I. Attractor Properties of Spatiotemporal Memory in Effective Sequence Processing Task // Optical Memory and Neural Networks. — 2023. — Dec. — Vol. 32, no. 2. — S284—S292. — URL: https://doi.org/10.3103/S1060992X23060097.

42. Kuderov P., Dzhivelikian E., Panov A. I. Hebbian spatial encoder with adaptive sparse connectivity // Cognitive Systems Research. — 2024. — Vol.88. —P. 101277. —URL: https://www.sciencedirect.com/science/ article/pii/S1389041724000718.

43. Bellman R. The theory of dynamic programming // Bulletin of the American Mathematical Society. — 1954. — T. 60, № 6. — C. 503—515.

44. Puterman M. L. Markov decision processes: discrete stochastic dynamic programming. — John Wiley & Sons, 2014.

45. Watkins C. J. C. H. Learning from delayed rewards. — 1989.

46. Mnih V. [h gp.]. Playing atari with deep reinforcement learning // arXiv preprint arXiv:1312.5602. — 2013.

47. Bengio Y, Courville A., Vincent P. Representation learning: A review and new perspectives // IEEE transactions on pattern analysis and machine intelligence. — 2013. — T. 35, № 8. — C. 1798—1828.

48. Böhmer W. [h gp.]. Autonomous learning of state representations for control: An emerging field aims to autonomously learn state representations for reinforcement learning agents from their real-world sensor observations // KI-Künstliche Intelligenz. — 2015. — T. 29, № 4. — C. 353—362.

49. Achille A., Soatto S. A separation principle for control in the age of deep learning // Annual Review of Control, Robotics, and Autonomous Systems. — 2018. — T. 1, № 1. — C. 287—307.

50. Sutton R. S. Integrated architectures for learning, planning, and reacting based on approximating dynamic programming // Machine learning proceedings 1990. — Elsevier, 1990. — C. 216—224.

51. Bertsekas D. Dynamic programming and optimal control: Volume I. T. 4. — Athena scientific, 2012.

52. Schilders W. H., Van der Vorst H. A., Rommes J. Model order reduction: theory, research aspects and applications. T. 13. — Springer, 2008.

53. Botteghi N. Robotics deep reinforcement learning with loose prior knowledge. — 2021.

54. Sutton R. S. Temporal credit assignment in reinforcement learning. — University of Massachusetts Amherst, 1984.

55. Sutton R. S. Learning to predict by the methods of temporal differences // Machine learning. — 1988. — T. 3. — C. 9—44.

56. Sutton R. S. TD models: Modeling the world at a mixture of time scales // Machine Learning Proceedings 1995. — Elsevier, 1995. — C. 531—539.

57. Williams R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning // Machine learning. — 1992. — T. 8. — C. 229—256.

58. Grondman I. [h gp.]. A survey of actor-critic reinforcement learning: Standard and natural policy gradients // IEEE Transactions on Systems, Man, and Cybernetics, part C (applications and reviews). — 2012. — T. 42, № 6. — C. 1291—1307.

59. Konda V., Tsitsiklis J. Actor-critic algorithms // Advances in neural information processing systems. — 1999. — T. 12.

60. Mnih V. [h gp.]. Asynchronous Methods for Deep Reinforcement Learning. — 2016. — arXiv: 1602.01783 [cs.LG]. — URL: https://arxiv.org/abs/1602. 01783.

61. Lillicrap T. P. [h gp.]. Continuous control with deep reinforcement learning. — 2019. — arXiv: 1509.02971 [cs.LG]. — URL: https://arxiv.org/abs/1509. 02971.

62. Haarnoja T. [h gp.]. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor. — 2018. — arXiv: 1801.01290 [cs.LG]. — URL: https://arxiv.org/abs/1801.01290.

63. Haarnoja T. [h gp.]. Soft Actor-Critic Algorithms and Applications. — 2019. — arXiv: 1812.05905 [cs.LG]. — URL: https://arxiv.org/abs/1812. 05905.

64. Schulman J. [h gp.]. Trust Region Policy Optimization. — 2017. — arXiv: 1502.05477 [cs.LG]. — URL: https://arxiv.org/abs/1502.05477.

65. Schulman J. [h gp.]. Proximal Policy Optimization Algorithms. — 2017. — arXiv: 1707.06347 [cs.LG]. — URL: https://arxiv.org/abs/1707.06347.

66. Sutton R. S. Dyna, an integrated architecture for learning, planning, and reacting // ACM Sigart Bulletin. — 1991. — T. 2, № 4. — C. 160—163.

67. Tokic M, Palm G. Value-difference based exploration: adaptive control between epsilon-greedy and softmax // Annual conference on artificial intelligence. — Springer. 2011. — C. 335—346.

68. Chen R. Y. [h gp.]. Ucb exploration via q-ensembles // arXiv preprint arXiv:1706.01502. — 2017.

69. Burda Y. [h gp.]. Exploration by Random Network Distillation. — 2018. — arXiv: 1810.12894 [cs.LG]. — URL: https://arxiv.org/abs/1810.12894.

70. Pathak D., Gandhi D., Gupta A. Self-supervised exploration via disagreement // International conference on machine learning. — PMLR. 2019. — C. 5062—5071.

71. Minsky M. Steps toward artificial intelligence // Proceedings of the IRE. — 1961. — T. 49, № 1. — C. 8—30.

72. Agogino A. K., Tumer K. Unifying temporal and structural credit assignment problems // Autonomous agents and multi-agent systems conference. — 2004.

73. Arumugam D., Henderson P., Bacon P.-L. An information-theoretic perspective on credit assignment in reinforcement learning // arXiv preprint arXiv:2103.06224. — 2021.

74. Oh J. [h gp.]. Action-conditional video prediction using deep networks in atari games // Advances in neural information processing systems. — 2015. — T. 28.

75. Gu S. [h gp.]. Continuous deep q-learning with model-based acceleration // International conference on machine learning. — PMLR. 2016. — C. 2829—2838.

76. Deisenroth M, Rasmussen C. E. PILCO: A model-based and data-efficient approach to policy search // Proceedings of the 28th International Conference on machine learning (ICML-11). — 2011. — C. 465—472.

77. Dennett D. C. Why the law of effect will not go away // Journal of the Theory of Social Behavior. — 1975. — T. 5, № 2. — C. 169—187.

78. Chua K. [h gp.]. Deep reinforcement learning in a handful of trials using probabilistic dynamics models // Advances in neural information processing systems. — 2018. — T. 31.

79. Hafner D. [h gp.]. Learning latent dynamics for planning from pixels // International conference on machine learning. — PMLR. 2019. — C. 2555—2565.

80. Hafner D. [h gp.]. Mastering atari with discrete world models // arXiv preprint arXiv:2010.02193. — 2020.

81. Janner M. [h gp.]. When to trust your model: Model-based policy optimization // Advances in neural information processing systems. — 2019. — T. 32.

82. Nagabandi A. [h gp.]. Neural network dynamics for model-based deep reinforcement learning with model-free fine-tuning // 2018 IEEE international conference on robotics and automation (ICRA). — IEEE. 2018. — C. 7559—7566.

83. Watter M. [h gp.]. Embed to control: A locally linear latent dynamics model for control from raw images // Advances in neural information processing systems. — 2015. — T. 28.

84. Pathak D. [h gp.]. Curiosity-driven exploration by self-supervised prediction // International conference on machine learning. — PMLR. 2017. — C. 2778—2787.

85. Wilson A. [h gp.]. Multi-task reinforcement learning: a hierarchical bayesian approach // Proceedings of the 24th international conference on Machine learning. — 2007. — C. 1015—1022.

86. Van Seijen H. [h gp.]. The LoCA regret: a consistent metric to evaluate modelbased behavior in reinforcement learning // Advances in Neural Information Processing Systems. — 2020. — T. 33. — C. 6562—6572.

87. Amodei D. [h gp.]. Concrete problems in AI safety // arXiv preprint arXiv:1606.06565. — 2016.

88. Berkenkamp F. [h gp.]. Safe model-based reinforcement learning with stability guarantees // Advances in neural information processing systems. — 2017. — T. 30.

89. Talvitie E. Model Regularization for Stable Sample Rollouts. // UAI. — 2014. — C. 780—789.

90. Zhang L, Yang G., Stadie B. C. World model as a graph: Learning latent landmarks for planning // International conference on machine learning. — PMLR. 2021. — C. 12611—12620.

91. Yu Y. Towards Sample Efficient Reinforcement Learning. // IJCAI. — 2018. — C. 5739—5743.

92. Lake B. M. [h gp.]. Building machines that learn and think like people // Behavioral and brain sciences. — 2017. — T. 40. — e253.

93. Precup D., Sutton R. S., Singh S. P. Planning with closed-loop macro actions // Working notes of the 1997 AAAI Fall Symposium on Model-directed Autonomous Systems. — 1997. — C. 70—76.

94. Sutton R. S., Precup D, Singh S. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning // Artificial Intelligence. — 1999. — T. 112, № 1. — C. 181—211. — URL: https://www. sciencedirect.com/science/article/pii/S0004370299000521.

95. Bacon P.-L., Harb J., Precup D. The Option-Critic Architecture // Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. — San Francisco, California, USA : AAAI Press, 2017. — С. 1726—1734. — (AAAI'17).

96. Nachum O. [и др.]. Data-efficient hierarchical reinforcement learning // Advances in neural information processing systems. — 2018. — Т. 31.

97. Schaul T. [и др.]. Universal value function approximators // International conference on machine learning. — PMLR. 2015. — С. 1312—1320.

98. Vezhnevets A. S. [и др.]. Feudal networks for hierarchical reinforcement learning // International conference on machine learning. — PMLR. 2017. — С. 3540—3549.

99. Eysenbach B. [и др.]. Diversity is all you need: Learning skills without a reward function // arXiv preprint arXiv:1802.06070. — 2018.

100. Konidaris G., Barto A. Skill discovery in continuous reinforcement learning domains using skill chaining // Advances in neural information processing systems. — 2009. — Т. 22. — С. 1015—1023.

101. Gregor K., Rezende D. J., Wierstra D. Variational intrinsic control // arXiv preprint arXiv:1611.07507. — 2016.

102. Haarnoja T. [и др.]. Latent space policies for hierarchical reinforcement learning // International Conference on Machine Learning. — PMLR. 2018. — С. 1851—1860.

103. Sukhbaatar S. [и др.]. Learning goal embeddings via self-play for hierarchical reinforcement learning // arXiv preprint arXiv:1811.09083. — 2018.

104. Bain A. The Senses and the Intellect. — J. W. Parker & Son, 1855. — URL: https://books.google.ru/books?id=cIFhAAAAcAAJ.

105. Morgan C. L. Habit and Instinct // The Monist. — 1896. — Т. 7. — С. 628.

106. Павлов И. Двадцатилетний опыт объективного изучения высшей деятельности (поведения) животных. — Госиздат, 1923. — (Условные рефлексы). — URL: https://books.google.ru/books?id=kvvuAgAAQBAJ.

107. Анохин П. Системогенез как общая закономерность эволюционного процесса // Бюллетень экспериментальной биологии и медицины. — 1948. — Т. 26, № 8.

108. Turing A. M. The Essential Turing. — Clarendon Press, 09.2004. — URL: https://www.xarg.org/refZa/B005NE559E/.

109. Lashley K. S. The problem of serial order in behavior. T. 21. — Bobbs-Merrill Oxford, United Kingdom, 1951.

110. Zacks J. M, Tversky B. Event structure in perception and conception. // Psychological Bulletin. — 2001. — T. 127, № 1. — C. 3—21. — URL: https: //doi.org/10.1037/0033-2909.127.1.3.

111. Lehman J. F., Laird J. E., Rosenbloom P. [h gp.]. A gentle introduction to Soar, an architecture for human cognition // Invitation to cognitive science. — 1996. — T. 4. — C. 212—249.

112. Anderson J. R. [h gp.]. An integrated theory of the mind. // Psychological review. — 2004. — T. 111, № 4. — C. 1036.

113. Niv Y. Reinforcement learning in the brain // Journal of Mathematical Psychology. — 2009. — T. 53, № 3. — C. 139—154.

114. Lee D., Seo H., Jung M. W. Neural basis of reinforcement learning and decision making // Annual review of neuroscience. — 2012. — T. 35. — C. 287—308.

115. Montague P. R., Hyman S. E., Cohen J. D. Computational roles for dopamine in behavioural control // Nature. — 2004. — T. 431, № 7010. — C. 760—767.

116. Bromberg-Martin E. S., Matsumoto M., Hikosaka O. Dopamine in motivational control: rewarding, aversive, and alerting // Neuron. — 2010. — T. 68, № 5. — C. 815—834.

117. Cohen J. D., Dunbar K., McClelland J. L. Automaticity, attention and the strength of processing: A parallel distributed processing account of the Stroop effect // Psychological Review. — 1990. — T. 97, № 3. — C. 332—361.

118. Monsell S. Task switching // Trends in cognitive sciences. — 2003. — T. 7, № 3. — C. 134—140.

119. Botvinick M. M., Niv Y., Barto A. G. Hierarchically organized behavior and its neural foundations: a reinforcement learning perspective // Cognition. — 2009. — T. 113, № 3. — C. 262—280.

120. Sakai K. Task set and prefrontal cortex // Annu. Rev. Neurosci. — 2008. — T. 31. — C. 219—245.

121. Sigala N. [h gp.]. Hierarchical coding for sequential task events in the monkey prefrontal cortex // Proceedings of the National Academy of Sciences. — 2008. — T. 105, № 33. — C. 11969—11974.

122. Barnes T. D. [h gp.]. Advance cueing produces enhanced action-boundary patterns of spike activity in the sensorimotor striatum // Journal of neurophysiology. — 2011. — T. 105, № 4. — C. 1861—1878.

123. Diuk C. [h gp.]. Divide and conquer: hierarchical reinforcement learning and task decomposition in humans // Computational and robotic models of the hierarchical organization of behavior. — Springer, 2013. — C. 271—291.

124. Ribas-Fernandes J. J. [h gp.]. A neural signature of hierarchical reinforcement learning // Neuron. — 2011. — T. 71, № 2. — C. 370—379.

125. Ito M., Doya K. Hierarchical information coding in the striatum during decision making tasks // Neuroscience Research. — 2010. — ^hb. — T. 68. — e187. — URL: https://doi.org/10.1016/j.neures.2010.07.2399.

126. Reynolds J. R., O'Reilly R. C. Developing PFC representations using reinforcement learning // Cognition. — 2009. — T. 113, № 3. — C. 281—292.

127. O'Reilly R. C., Frank M. J. Making working memory work: a computational model of learning in the prefrontal cortex and basal ganglia // Neural computation. — 2006. — T. 18, № 2. — C. 283—328.

128. Vigorito C. M., Barto A. G. Intrinsically motivated hierarchical skill learning in structured environments // IEEE Transactions on Autonomous Mental Development. — 2010. — T. 2, № 2. — C. 132—143.

129. Moradi P. [h gp.]. Automatic skill acquisition in reinforcement learning using graph centrality measures // Intelligent Data Analysis. — 2012. — T. 16, № 1. — C. 113—135.

130. Higgins I. [h gp.]. beta-vae: Learning basic visual concepts with a constrained variational framework. // ICLR (Poster). — 2017. — T. 3.

131. O'Reilly R. C. [h gp.]. Computational Cognitive Neuroscience. — Online Book, 4th Edition, URL: https://CompCogNeuro.org, 2012. — URL: https: //github.com/CompCogNeuro/ed4.

132. Asada M. [и др.]. Cognitive developmental robotics as a new paradigm for the design of humanoid robots // Robotics and Autonomous systems. — 2001. — Т. 37, № 2/3. — С. 185—193.

133. Cangelosi A., Schlesinger M. Developmental robotics: From babies to robots. — MIT press, 2015.

134. Hassabis D. [и др.]. Neuroscience-Inspired Artificial Intelligence // Neuron. — 2017. — Июль. — Т. 95, № 2. — С. 245—258.

135. Hull C. L. Principles of Behavior. New York: Appleton-Century-Crofts // Report of the New Zealand Committee on the Recruitment, Education and Training of Teachers. — 1943.

136. Baldassarre G. What are intrinsic motivations? A biological perspective // 2011 IEEE international conference on development and learning (ICDL). Т. 2. — IEEE. 2011. — С. 1—8.

137. Johnson-Laird P. N. Inference with mental models // The Oxford handbook of thinking and reasoning. — 2012. — С. 134—145.

138. Schacter D. L. [и др.]. The future of memory: remembering, imagining, and the brain // Neuron. — 2012. — Т. 76, № 4. — С. 677—694.

139. Pateria S. [и др.]. Hierarchical Reinforcement Learning: A Comprehensive Survey // ACM Comput. Surv. — New York, NY, USA, 2021. — Июнь. — Т. 54, № 5. — URL: https://doi.org/10.1145/3453160.

140. Ibarz J. [и др.]. How to train your robot with deep reinforcement learning: lessons we have learned // The International Journal of Robotics Research. — 2021. — Т. 40, № 4/5. — С. 698—721. — eprint: https://doi.org/10.1177/ 0278364920987859. — URL: https://doi.org/10.1177/0278364920987859.

141. Chevalier-Boisvert M, Willems L, Pal S. Minimalistic Gridworld Environment for OpenAI Gym. — 2018. — https://github.com/maximecb/ gym-minigrid.

142. Klyubin A. S., Polani D., Nehaniv C. L. All Else Being Equal Be Empowered // Advances in Artificial Life / под ред. M. S. Capcarrere [и др.]. — Berlin, Heidelberg : Springer Berlin Heidelberg, 2005. — С. 744—753.

143. Goodfellow I., Bengio Y., Courville A. Deep learning. T. 1. — MIT Press, 2016.

144. Himberger K. D., Chien H.-Y., Honey C. J. Principles of Temporal Processing Across the Cortical Hierarchy // Neuroscience. — 2018. — T. 389. — C. 161—174. — URL: https://www.sciencedirect.com/science/ article/pii/S0306452218302951 ; Sensory Sequence Processing in the Brain.

145. Hasson U. [h gp.]. A hierarchy of temporal receptive windows in human cortex // Journal of Neuroscience. — 2008. — T. 28, № 10. — C. 2539—2550.

146. Orlov T, Zohary E. Object Representations in Human Visual Cortex Formed Through Temporal Integration of Dynamic Partial Shape Views // Journal of Neuroscience. — 2018. — T. 38, № 3. — C. 659—678. — eprint: https: //www.jneurosci.org/content/38/3/659.full.pdf. — URL: https://www. jneurosci.org/content/38/3/659.

147. Mazoyer B. M. [h gp.]. The cortical representation of speech // Journal of cognitive neuroscience. — 1993. — T. 5, № 4. — C. 467—479.

148. Kiebel S. J., Daunizeau J., Friston K. J. A Hierarchy of Time-Scales and the Brain // PLOS Computational Biology. — 2008. — hoh6. — T. 4, № 11. — C. 1—12. — URL: https://doi.org/10.1371/journal.pcbi.1000209.

149. Pateria S. [et al.]. Hierarchical Reinforcement Learning: A Comprehensive Survey // ACM Computing Surveys. — 2021. — June. —Vol. 54, no. 5. — P. 1—35.

150. He Y., Zhao J. Temporal Convolutional Networks for Anomaly Detection in Time Series // Journal of Physics: Conference Series. — 2019. — June. — Vol. 1213, no. 4. — P. 042050.

151. Zhang G. P. Time series forecasting using a hybrid ARIMA and neural network model // Neurocomputing. — 2003. — T. 50. — C. 159—175.

152. Vaswani A. [h gp.]. Attention is all you need // Advances in neural information processing systems. — 2017. — T. 30.

153. Jaegle A. [h gp.]. Perceiver: General perception with iterative attention // International conference on machine learning. — PMLR. 2021. — C. 4651—4664.

154. Dai Z. [h gp.]. Transformer-xl: Attentive language models beyond a fixed-length context // arXiv preprint arXiv:1901.02860. — 2019.

155. Burtsev M. S. [h gp.]. Memory transformer // arXiv preprint arXiv:2006.11527. — 2020.

156. Hochreiter S., Schmidhuber J. Long Short-term Memory // Neural computation. — 1997. — ^eK. — T. 9. — C. 1735—80.

157. Cho K. [h gp.]. Learning phrase representations using RNN encoder-decoder for statistical machine translation // arXiv preprint arXiv:1406.1078. — 2014.

158. Otahal M., Keeney D., McDougall D. [h gp.]. HTM.core implementation of Hierarchical Temporal Memory. — 2019. — https:/ /github.com/htm-community/htm.core/.

159. Cui Y, Ahmad S., Hawkins J. The HTM Spatial Pooler: A Neocortical Algorithm for Online Sparse Distributed Coding // Frontiers in Computational Neuroscience. — 2017. — T. 11. — URL: https:/ /www. frontiersin.org/articles/10.3389/fncom.2017.00111.

160. Kempter R., Gerstner W, Van Hemmen J. L. Hebbian learning and spiking neurons // Physical Review E. — 1999. — T. 59, № 4. — C. 4498.

161. Skrynnik A., Petrov A., Panov A. I. Hierarchical Temporal Memory Implementation with Explicit States Extraction // Biologically Inspired Cognitive Architectures (BICA) for Young Scientists. Advances in Intelligent Systems and Computing. T. 449 / nog peg. A. V. Samsonovich, V. V. Klimov, G. V. Rybina. — Springer, 2016. — C. 219—225. — URL: http://link.springer. com/10.1007/978-3-319-32554-5_28.

162. Kuderov P. [h gp.]. AIRI-Institute/him-agent: Hierarchical Intrinsically Motivated Agent Planning Behavior with Dreaming in Grid Environments. — Bep. v3.2-hima-airi. — 03.2022. — URL: https://doi.org/10.5281/zenodo. 7133430.

163. Mueggler E. [h gp.]. The event-camera dataset and simulator: Event-based data for pose estimation, visual odometry, and SLAM // The International Journal of Robotics Research. — 2017. — T. 36, № 2. — C. 142—149.

164. Ba J. [и др.]. Using Fast Weights to Attend to the Recent Past // Advances in Neural Information Processing Systems. Т. 29 / под ред. D. Lee [и др.]. — Curran Associates, Inc., 2016.— URL: https://proceedings.neurips.cc/paper/ 2016/file/9f44e956e3a2b7b5598c625fcc802c36-Paper.pdf.

165. Musavi M. [и др.]. On the training of radial basis function classifiers // Neural Networks. — 1992. — Т. 5, № 4. — С. 595—603. — URL: https://www. sciencedirect.com/science/article/pii/S0893608005800383.

166. Menache I., Mannor S., Shimkin N. Basis Function Adaptation in Temporal Difference Reinforcement Learning // Annals of Operations Research. — 2005. — Февр. — Т. 134, № 1. — С. 215—238. — URL: https://doi.org/ 10.1007/s10479-005-5732-z.

167. Menghani G. Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better // ACM Comput. Surv. — New York, NY, USA, 2023. — Март. — Т. 55, № 12. — URL: https://doi.org/10.1145/ 3578938.

168. Liu R. [и др.]. Deep Reinforcement Learning for the Control of Robotic Manipulation: A Focussed Mini-Review // Robotics. — 2021. — Т. 10, № 1. — URL: https://www.mdpi.com/2218-6581/10Z1/22.

169. Ibarz J. [и др.]. How to train your robot with deep reinforcement learning: lessons we have learned // The International Journal of Robotics Research. — 2021. — Т. 40, № 4/5. — С. 698—721. — eprint: https://doi.org/10.1177/ 0278364920987859. — URL: https://doi.org/10.1177/0278364920987859.

170. Su D. [и др.]. Generalizing Question Answering System with Pre-trained Language Model Fine-tuning // Proceedings of the 2nd Workshop on Machine Reading for Question Answering / под ред. A. Fisch [и др.]. — Hong Kong, China : Association for Computational Linguistics, 11.2019. — С. 203—211. — URL: https://aclanthology.org/D19-5827.

171. Hussain M., Bird J. J, Faria D. R. A Study on CNN Transfer Learning for Image Classification // Advances in Computational Intelligence Systems / под ред. A. Lotfi [и др.]. — Cham : Springer International Publishing, 2019. — С. 191—202.

172. Leeb F. [и др.]. Exploring the Latent Space of Autoencoders with Interventional Assays // Advances in Neural Information Processing Systems. Т. 35 / под ред. S. Koyejo [и др.]. — Curran Associates, Inc., 2022. — С. 21562—21574. — URL: https://proceedings.neurips.cc/paper_files/paper/ 2022/file/87213955efbe48b46586e37bf2f1fe5b-Paper-Conference.pdf.

173. Keraghel I., Morbieu S., Nadif M. Beyond Words: A Comparative Analysis ofA LLM Embeddings forA Effective Clustering // Advances in Intelligent Data Analysis XXII / под ред. I. Miliou, N. Piatkowski, P. Papapetrou. — Cham : Springer Nature Switzerland, 2024. — С. 205—216.

174. Matsuo Y. [и др.]. Deep learning, reinforcement learning, and world models // Neural Networks. — 2022. — Т. 152. — С. 267—275. — URL: https://www. sciencedirect.com/science/article/pii/S0893608022001150.

175. Dulac-Arnold G., Mankowitz D., Hester T. Challenges of Real-World Reinforcement Learning. — 2019. — arXiv: 1904.12901 [cs.LG].

176. Amato G. [и др.]. Hebbian Learning Meets Deep Convolutional Neural Networks // Image Analysis and Processing - ICIAP 2019 / под ред. E. Ricci [и др.]. — Cham : Springer International Publishing, 2019. — С. 324—334.

177. Moraitis T. [и др.]. Softhebb: Bayesian inference in unsupervised hebbian soft winner-take-all networks // Neuromorphic Computing and Engineering. — 2022. — Т. 2, № 4. — С. 044017.

178. Krotov D., Hopfield J. J. Unsupervised learning by competing hidden units // Proceedings of the National Academy of Sciences. — 2019. — Т. 116, № 16. — С. 7723—7731.

179. Mnatzaganian J., Fokoue E., Kudithipudi D. A Mathematical Formalization of Hierarchical Temporal Memory's Spatial Pooler // Frontiers in Robotics and AI. — 2017. — Т. 3. — URL: https://www.frontiersin.org/articles/10. 3389/frobt.2016.00081.

180. Graham D., Field D. Sparse Coding in the Neocortex // Evolution of Nervous Systems. — 2007. — Дек. — Т. 3.

181. Journe A. [и др.]. Hebbian deep learning without feedback // arXiv preprint arXiv:2209.11883. — 2022.

182. Willshaw D. J, Von Der Malsburg C. How patterned neural connections can be set up by self-organization // Proceedings of the Royal Society of London. Series B. Biological Sciences. — 1976. — T. 194, № 1117. — C. 431—445.

183. Martins A., Astudillo R. From softmax to sparsemax: A sparse model of attention and multi-label classification // International conference on machine learning. — PMLR. 2016. — C. 1614—1623.

184. Dobric D. [et al.]. On the Importance of the Newborn Stage When Learning Patterns with the Spatial Pooler //SN Computer Science. — 2022. — Mar. — Vol. 3, no. 2. — P. 179.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Кудеров Петр Викторович

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Методы и алгоритмы нейросимвольного обучения и планирования поведения когнитивных агентов2024 год, доктор наук Панов Александр Игоревич

Исследование рабочей памяти и механизмов быстрой адаптации в обучении с подкреплением2022 год, кандидат наук Сорокин Артём Юрьевич

Интеграция иерархических ансамблей и трансформерных архитектур в алгоритмы обучения с подкреплением2024 год, кандидат наук Козлов Даниил Александрович

Нейросетевые модели на основе механизма внимания с памятью для решения задач обработки естественного языка2024 год, кандидат наук Сагирова Алсу Рафаэлевна

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Иерархические методы и алгоритмы визуальной навигации внутри помещений с обучаемыми навыками2023 год, кандидат наук Староверов Алексей Витальевич

Нейронные сети на сегментных импульсных моделях нейрона со структурным обучением2025 год, кандидат наук Корсаков Антон Михайлович

Обучение на неразмеченных данных с использованием генеративных моделей2023 год, кандидат наук Григорьев Тимофей Андреевич

Развитие моделей субсимвольных распределенных вычислений в задачах многокритериального выбора2022 год, кандидат наук Демидовский Александр Владимирович

Список литературы диссертационного исследования кандидат наук Кудеров Петр Викторович, 2024 год