Нейронные сети в моделях мотивированного поведения тема диссертации и автореферата по ВАК РФ 03.01.02, кандидат наук Шуваев Сергей Алексеевич

  • Шуваев Сергей Алексеевич
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ03.01.02
  • Количество страниц 121
Шуваев Сергей Алексеевич. Нейронные сети в моделях мотивированного поведения: дис. кандидат наук: 03.01.02 - Биофизика. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2022. 121 с.

Оглавление диссертации кандидат наук Шуваев Сергей Алексеевич

Введение

Актуальность темы исследования

Цель и задачи

Научная новизна работы

Теоретическая и практическая значимость работы

Положения, выносимые на защиту

Степень достоверности и апробация результатов

Глава 1: Литературный обзор

1.1. Последовательные решения

1.2. Мотивационные влечения

1.3. Система вознаграждения в мозге

1.4. Обучение с подкреплением

Глава 2: Материалы и методы

2.1. Данные из задачи питания из истощаемых источников

2.2. Модель питания из истощаемых источников

2.3. Модель «Четыре комнаты»

2.4. Модель «Задача коммивояжёра»

Глава 3: Результаты (модель питания из истощаемых источников)

3.1. Поведение мышей в задачах питания из истощаемых источников

3.2. Связь истории вознаграждений с принятием решений у животных

3.3. Поведения при «фиксированных начальных вознаграждениях»

3.4. Поведения при «случайных начальных вознаграждениях»

3.5. Изучение оптимальных правил поведения

3.6. Активность в системе вознаграждения в мозге

Глава 4: Результаты (модель мотивационной модуляции вознаграждения)

4.1. Модель влияния мотивации на последовательные решения

4.2. Динамика мотивационных состояний в модели

4.3. Изучение динамических стратегий в модели

4.4. Обобщение поведения на новые контексты

4.5. Другие динамики мотиваций в модели «зависимости»

4.6. Модель «Задача коммивояжёра»

4.7. Выявление динамики мотивации по поведению

Глава 5: Обсуждение

5.1. Согласование R-обучения с известными и новыми поведениями

5.2. Глубокие R-модели и обобщённые правила поведения

5.3. Я-обучение и оптимальность по Байесу в динамических средах

5.4. Обучающий сигнал в R-модели и дофамин в ВТО

5.5. Мотивационная значимость и обучение с подкреплением

5.6. Учёт мотивации при моделировании поведений

5.7. Другие модели обучения с подкреплением

Заключение

Выводы

Благодарности

Список сокращений

Список терминов и их переводов

Список работ, опубликованных автором по теме диссертации

Список работ, опубликованных автором по направлению подготовки

Список литературы

Рекомендованный список диссертаций по специальности «Биофизика», 03.01.02 шифр ВАК

Введение диссертации (часть автореферата) на тему «Нейронные сети в моделях мотивированного поведения»

Введение Актуальность темы исследования

Решения, принимаемые животными и человеком, зависят не только от стимулов окружающей среды, но также от внутренних физиологических и психологических состояний организма [1, 2]. Такие состояния определяют цели, направляющие поведение животного, а также регулируют затраты энергии и уровни допустимого риска при достижении целей [2]. Совокупно, эти состояния и их динамика формируют когнитивный процесс, известный как мотивация. Многие аспекты мотивации получили детальное описание [1, 3], но моделирование влияния мотивационных состояний на поведение находится в ранних стадиях разработки и было определено как важная цель для вычислительной нейробиологии [2, 4].

Общая схема участия мотиваций в организации поведения была предложена в теории функциональных систем (ТФС) [1, 5]. По этой теории, взаимодействие доминирующей мотивации с информацией об обстановке, сигналами среды и памятью ведёт к принятию решения о результате, ожидаемом организмом. Параметризованная модель результата закладывается в акцептор результата действия - нейрофизиологический аппарат, сопоставляющий признаки ожидаемого и полученного результатов и формирующий оценочный сигнал для изменения программы поведения. ТФС может быть использована для построения численной модели влияния мотивации на поведение, что может быть достигнуто в случае математического определения её составляющих. Данная работа предлагает логику для возможного биологически обоснованного определения этих величин.

Динамика мотиваций может быть определена по работам о конфликте подхода-избегания, в которых испытуемые сравнивали стимулы противоположной валентности и различной амплитуды [3]. Роль мотивации в изменении программы поведения может быть определена по работам о вентральном паллидуме (ВП), связывающем в мозге мотивацию, сенсорную информацию и рабочую память с

областями моторного контроля и планирования [6]. Согласно этим работам, роль мотивации в мозге может заключаться в модуляции функции вознаграждения [2].

Использование функции вознаграждения и оценочного сигнала для формирования целенаправленных поведений лежит в основе методов обучения с подкреплением [7]. Модели обучения с подкреплением успешно объясняют логику адаптивного выбора у человека и животных [8]; нейронные корреляты оценочного сигнала моделей наблюдаются в вентральной тегментальной области (ВТО) мозга [9]. В обучении с подкреплением предложены несколько моделей мотивации, но они не ставили своей целью биологическое правдоподобие, а стремились к более эффективному исследованию сред искусственными агентами [10, 11]. Подходы к мотивации, пригодные для моделирования поведений животных, имеются только в виде концепций [2, 4].

Детально изученным случаем влияния внутреннего состояния субъектов на поведенческие стратегии являются задачи питания из истощаемых источников, где испытуемые решали, когда покинуть истощающиеся ресурсы [12, 13]. Решения в этих задачах качественно согласуются с предсказаниями теоремы Чарнова [12, 14], утверждающей, что для максимизации вознаграждения агенты должны покидать истощаемые ресурсы при падении текущего вознаграждения до среднего уровня в среде. Изучение испытуемыми параметров задач моделируют путём обучения с подкреплением [15] или Байесовского вывода [16]. Для применения этих подходов к моделированию общего случая влияния внутренних состояний субъекта на его стратегию требуется: 1) установить связь между теоремой Чарнова и обучением с подкреплением [12] и 2) понять причины отклонения решений испытуемых от предсказаний моделей [15]. Оба вопроса рассмотрены в данной работе; результаты легли в основу численной модели влияния мотивации на поведения.

Цель и задачи

Целью данной работы было построение количественной модели влияния мотивационных состояний на поведенческие стратегии человека и животных.

Для достижения заявленной цели были поставлены следующие задачи:

1. Выявить факторы, влияющие на последовательные решения типа «уйти или остаться», по поведению мышей в задаче питания из истощаемых источников.

2. Определить правила принятия решений типа «уйти или остаться» на основе этих факторов; убедиться в соответствии этих правил поведению животных.

3. Вывести функции вознаграждения в основе этих правил принятия решений; проверить их на соответствие активности в системе вознаграждения в мозге.

4. Построить модель мотивированного поведения на основе ТФС, гипотезы о мотивационной модуляции вознаграждений и обучения с подкреплением.

5. Исследовать свойства мотивационной модуляции вознаграждений в модели за счёт учёта динамики мотиваций.

6. Предложить подходы к выявлению динамики мотиваций агента по поведению с помощью иерархической модели обучения.

Научная новизна работы

В работе введено локальное правило Чарнова, предполагающее сравнение следующего ожидаемого вознаграждения с экспоненциальным средним прошлых вознаграждений для принятия решений «уйти или остаться» в задачах питания из истощаемых источников и впервые объясняющее отдельные решения животных.

Впервые установлено соответствие между теориями оптимальности питания: классическим / локальным правилами Чарнова и V- / Я-обучением - методами для оптимизации абсолютного / относительного ожидаемого суммарного будущего вознаграждения путём обучения с подкреплением.

Впервые показано, что при неожиданных вознаграждениях обучающий сигнал Я-обучения равен обучающему сигналу V-обучения, и что оба сигнала в равной мере соответствуют активациям дофаминовых нейронов в ВТО.

Предложена и исследована модель влияния мотивации на последовательные решения, основанная на ТФС, глубоком обучении с подкреплением, а также на данных о динамике мотиваций и мотивационной модуляции вознаграждений.

Теоретическая и практическая значимость работы

Связь теорий оптимальности питания, выведенная в данной работе, позволит сфокусировать дальнейшие исследования на одной из теорий. Такой теорией может стать локальное правило Чарнова в совокупности с Я-обучением.

Полученные результаты, в том числе локальное правило Чарнова, могут быть использованы при изучении нейронных основ последовательных решений.

Предложенная схема учёта мотивационных переменных в моделях обучения с подкреплением позволит агентам с динамическими потребностями ускорять выучивание оптимальных стратегий и обобщать поведение на новые состояния.

Разработанные технологии могут быть применены для уточнения динамики мотивационных состояний человека и животных, а также вовлечены в анализ мотивированных поведений, включая поведения при наркотической зависимости.

Положения, выносимые на защиту

1. Сформулировано локальное правило Чарнова, описывающее решения «уйти или остаться» у мышей в задаче питания из истощаемых источников: животные покидали источники вознаграждений, когда ожидаемое вознаграждение падало ниже экспоненциального среднего прошлых вознаграждений и затрат энергии.

2. Установлено соответствие между теориями оптимальности питания животных: локальное правило Чарнова следует из Я-обучения; классическое правило является предельным случаем локального и следует из У-обучения. Обучающий сигнал обеих моделей коррелирует с активностью дофаминовых нейронов ВТО.

3. Предложена модель мотивационной модуляции вознаграждения, построенная в рамках ТФС на основе методов обучения с подкреплением с учётом данных о динамике мотивационных влечений и роли мотивации в афферентном синтезе.

4. Показано в модели, что мотивационная модуляция вознаграждений позволяет вырабатывать долгосрочные поведения, отражающие динамику потребностей агента; изменять эти поведения без переучивания в случае смены потребностей агента; обобщать поведения на новые ситуации. Уровни и динамика мотиваций могут быть восстановлены по поведению в иерархической модели обучения.

Степень достоверности и апробация результатов

Основное содержание данной работы опубликовано в виде 3 статей, индексированных системой Scopus, а также отражено в 15 тезисах конференций. Содержание Главы 3 опубликовано в статье «R-learning in actor-critic model offers a biologically relevant mechanism for sequential decision-making» (Advances in Neural Information Processing Systems, 2020); содержание Главы 4 - в статье «Neural networks with motivation» (Frontiers in Systems Neuroscience, 2021); вычислительный комплекс в основе всех глав введён в статье «Using artificial neural networks to represent the space of odorants» (Proceedings in Machine Learning Research, 2019).

Результаты работы были представлены на конференциях: Society for Neuroscience Annual Meeting, Сан-Диего, 2018, и Чикаго, 2019; FENS Forum of Neuroscience, Берлин, 2018; Brains & Behavior: Order & Disorder in the Nervous System, Нью-Йорк, 2018; Recording, Analyzing, Manipulating, and Modeling Whole Brain Activity, Санта-Барбара, 2018; Sloan-Swartz Centers Annual Meeting, Вашингтон, 2019; Gordon Research Conference on Catecholamines, Ньюри, 2019; International Conference on Machine Learning, Лонг-Бич, 2019; Computational and Systems Neuroscience, Денвер, 2020, и 2021; Neuronal Circuits, 2020; Neural Information Processing Systems, 2020; Bernstein Conference, 2020; Virtual Dopamine Symposium: the Future of Dopamine, 2020; Neuro Launchpad, 2020; From Neuroscience to Artificially Intelligent Systems, 2020; также на семинарах у: Михаила Бурцева, Долгопрудный, 2019, и 2021, Карела Свободы, 2020, и в ЦОНТ НИИСИ, 2021; в лаборатории Колд Спринг Харбор на институтских конференциях, 2018-19; на студенческих конференциях, 2018-19; на семинарах отделов нейронаук, 2018-20, и вычислительной биологии, 2019 и 2021, а также на еженедельных совещаниях.

Глава 3 диссертации была отмечена призом The Gatsby Charitable Foundation, Burroughs Wellcome Fund, Google DeepMind и Simons Foundation на конференции Computational and Systems Neuroscience 2020; Глава 4 была отмечена призом Simons Center for Quantitative Biology на конференции Колд Спринг Харбор 2019.

Глава 1: Литературный обзор 1.1. Последовательные решения

В повседневной жизни мы сталкиваемся с последовательными решениями типа «уйти или остаться». В качестве примеров таких решений можно назвать решения о том, на что тратить время, где работать, как отдыхать - а также другие решения в условиях, когда связанные с ними вознаграждения уменьшаются со временем. Ниже рассмотрены принципы, с помощью которых животные и человек решают, придерживаться ли своего текущего выбора или искать другие варианты.

Вопрос о последовательных решениях типа «уйти или остаться» заинтересовал исследователей, занимающихся поведением, лишь недавно [15]. Последовательные решения типа «уйти или остаться» рассматривали в нескольких работах на человеке и грызунах (модельном организме, используемом для доступа к нейронной активности с высоким разрешением). Последовательности решений собирали в ходе задач питания из истощаемых источников, где испытуемые решали когда покинуть истощающиеся ресурсы [12]. В исследованиях на человеке задачи в основном были виртуальными, а вознаграждения формализовывали в виде небольших сумм денег [12]. В задачах для животных истощаемые природные ресурсы моделировали с помощью источников первичных вознаграждений (пищи, воды и так далее), в которых амплитуду или вероятность вознаграждения уменьшали с течением времени [12, 13]. Рассмотрим эти работы подробнее.

Работа 1 («о питании из истощаемых источников у человека»). Одно из наиболее полных систематических исследований решений типа «уйти или остаться» у человека можно найти в работе [12]. Для записи последовательностей решений типа «уйти или остаться», была разработана виртуальная задача питания из истощаемых источников. В рамках этой задачи, испытуемые взаимодействовали с компьютерной программой (Рисунок 1 А), изображающей процесс сбора яблок с деревьев. В каждом эпизоде задачи субъектам показывали на экране схематичное изображение дерева и предлагали два варианта развития событий. Человек мог либо 1) «собирать яблоки с дерева», либо 2) переместиться к другому дереву;

испытуемые передавали своё решение программе нажатием одной из двух клавиш. В случаях, когда человек решал собирать яблоки с имеющегося дерева, схематичное изображение дерева на экране «тряслось» в течение небольшого времени «сбора яблок» (например, 3 сек), после чего на экране отображалось схематичное изображение «собранных яблок». Если испытуемый продолжал собирать яблоки с того же самого дерева, то число яблок, которые можно было собрать за эпизод задачи, снижалось экспоненциально (например, каждое следующее число яблок было на 20% меньше предыдущего). В случаях, когда испытуемые выбирали переход к новому, неистощённому дереву, схематичное изображение предыдущего дерева блёкло и уходило с экрана, будучи через некоторое время (например, 9 сек) замещённым изображением нового дерева. Старые деревья в задаче нельзя было посетить повторно, а новые деревья всегда предоставляли испытуемому полноценное число яблок. Общая продолжительность задачи была фиксированной (1 час), и каждый новый выбор можно было сделать только по прошествии короткого времени «сбора яблок» или длинного времени «перемещения к другому дереву». Такая постановка задачи гарантировала, что суммарное число яблок, собранное испытуемыми, определялось эффективностью их стратегии выбора, а не скоростью их реакции. Чтобы мотивировать испытуемых оптимизировать их стратегию, за каждое собранное в задаче яблоко им выдавали эквивалент 50 копеек по завершении задачи.

Чтобы установить закономерности, согласно которым человек принимает решения типа «уйти или остаться», параметры задачи для каждого испытуемого меняли несколько раз на протяжении задачи. Всего 1 час задачи таким образом делили на 4 блока равной продолжительности. Параметрами, определявшимися заново для каждого блока задачи, были: 1) время «сбора яблок» в рамках одного эпизода задачи; 2) время «перемещения к другому дереву»; 3) изначальное число яблок, которое можно было получить при первичном взаимодействии с «новым» деревом и 4) скорость, с которой получаемое число яблок снижалось в повторных взаимодействиях с одним и тем же деревом («коэффициент истощения» дерева). Вариации этих параметров создавали среды разной «насыщенности», причём в

некоторых средах максимально достижимый уровень вознаграждения был выше, чем в других средах. По результатам эксперимента было обнаружено, что именно насыщенность среды определяла решения типа «уйти или остаться» у испытуемых (Рисунок 1 В). В блоках задачи с низкими вознаграждениями испытуемые стремились покидать деревья при относительно низком пороговом уровне вознаграждения, а в блоках задачи с высокими вознаграждениями они покидали деревья при более высоком пороге. Этот эффект наблюдали у большинства испытуемых в экспериментах.

Похожий эффект наблюдали и в экспериментах на животных. Несмотря на то, что животных труднее обучить задаче питания из истощаемых источников, а данные по поведению менее полны, такие эксперименты имеют ряд преимуществ. В частности, у грызунов исследователи могли получить доступ к активностям нейронов в высоком разрешении, а также могли проводить манипуляции возбуждая или ингибируя определённые группы клеток. Доступ к активностям отдельных нейронов открыл возможности для исследования нейрональных субстратов последовательных решений типа «уйти или остаться». При этом поведенческие эксперименты могли быть похожи на задачу для человека, описанную выше. Для примера, рассмотрим работу [13], шедшую параллельно с данной диссертацией.

Работа 2 («о питании из истощаемых источников у животных»). Для записи последовательностей решений типа «уйти или остаться» у животных была разработана новая вероятностная задача питания из истощаемых источников. Водно-депривированных мышей в задаче помещали в длинную прямоугольную камеру (Рисунок 1 Б). На внутренних торцах камеры было сделано по одному отверстию («порту»), через которые животные могли получать воду. При взаимодействии с таким портом, животные могли либо получить каплю воды (3 мкл), либо не получить ничего. Вероятность получения капли воды определяли следующим образом. Если животное перемещалось к новому порту, вероятность получения вознаграждения выставлялась на максимальное значение. При каждом следующем взаимодействии с тем же портом, вероятность получить вознаграждение снижалась экспоненциально; при этом сам объём вознаграждения

не менялся. Таким образом, порт изображал новый ресурс, истощающийся по мере взаимодействия с ним животного. Последовательные взаимодействия с одним и тем же портом не разделяли минимальными промежутками времени, как это было сделано в прошлой работе; тем не менее утверждалось, что поведение животных было стереотипным, и отсутствие такого ограничения не повлияло на результаты. Помимо продолжения взаимодействия с одним и тем же портом, животные могли перебегать к другому порту по длинному коридору с препятствиями. В качестве препятствий в коридоре (50 см) устанавливали 4 панели, каждая из которых перекрывала половину сечения коридора. Препятствия чередовали, вынуждая животных бежать зигзагом. При переходе животного в новый порт вероятность выдачи вознаграждения каждый раз устанавливали на максимальное значение. Начальная вероятность вознаграждения в порту выбирали случайным образом из трёх возможных значений (50%, 75%, 100%). Этот разброс позволял моделировать ресурсы с разной «насыщенностью». Во всех трёх случаях, вероятность получить вознаграждение при взаимодействии с портом снижали с одним и тем же экспоненциальным коэффициентом. По результатам опыта было обнаружено, что животные покидали порты при примерно одном и том же пороговом значении вознаграждения (Рисунок 1Г). Более тонкий анализ показал, что порог покидания животными портов коррелировал со средним вознаграждением в среде.

В обоих вышеупомянутых работах решения типа «уйти или остаться» в среднем соответствовали теореме Чарнова о предельной ценности [12, 14] -теоретической работе, показывающей, что оптимальный агент должен покидать истощающиеся ресурсы, когда следующее ожидаемое вознаграждение в них падает ниже уровня среднего уровня вознаграждения в среде с учётом энергетических затрат агента на перемещения. Несмотря на явные качественные сходства экспериментальных данных с теоретическими выводами Чарнова, были отмечены и некоторые количественные расхождения между данными и теорией. В частности, в работе на человеке было отмечено, что большинство испытуемых задерживались у каждого дерева дольше, чем было предсказано теоремой Чарнова, и в среднем получали из-за этого вознаграждение на 10% меньше теоретического максимума.

Было также показано, что этот эффект был сильнее выражен при длительном пребывании у одного и того же «дерева».

Одним из возможных объяснений такого расхождения между экспериментом и теорией может быть то, что теорема Чарнова предполагает у агента полное знание параметров среды с самого начала задачи, что не представляется возможным в реальных условиях. Для учёта того, каким образом испытуемый может накапливать знания о среде, были предложены альтернативные модели решений типа «уйти или остаться», которые позволяли агентам обновлять свои оценки параметров среды. Эти модели, по-прежнему редко встречаемые в контексте задач питания из истощаемых источников, включают обучение с подкреплением [15] и Байесовский вывод [16]. Оба подхода предполагают, что агент обладает моделью среды, обновляя лишь относительно малое число переменных с целью отражения динамики этой среды [12].

Имеющиеся теоретические подходы к принятию последовательных решений типа «уйти или остаться» объяснили некоторые важные аспекты этих решений, включая правила принятия решений в среднем случае и то, как они могут обновляться с учетом изменений в среде [12]. Однако поведение агентов в реальных условиях может быть сложнее, чем предсказывается существующей теорией. Например, и человек, и животные, вероятнее всего, будут обобщать опыт, полученный в разных средах, таким образом применяя метаправила для выработки своих стратегий [17]. Применимы ли теоретические правила для усреднённых решений к описанию каждого решения в отдельности? Достаточно ли существующих подходов для выработки оптимальных моделей принятия решений в динамических естественных средах? Как именно человек и животные выучивают оптимальные правила принятия решений [15]? В данной работе предложена новая вычислительная модель последовательных решений «уйти или остаться» для поиска ответа на эти вопросы.

Рисунок 1. Последовательные решения типа «уйти или остаться» опираются на среднее вознаграждение в среде. (А) Виртуальная задача питания из истощаемых источников для человека. На каждом эпизоде задачи, испытуемым предъявляется дерево и показывается, сколько яблок можно собрать с него за один эпизод задачи. После этого, человек может либо перейти к другому дереву (за 9 сек) и собрать большее количество яблок, либо остаться у того же дерева и (через 3 сек) собрать меньшее количество яблок. (Б) Задача питания из истощаемых источников для животных. Мышь может перемещаться по тоннелю с препятствиями между двумя портами с водой. Пока мышь находится у одного и того же порта, вероятность получить воду на каждом эпизоде задачи снижается экспоненциально. Если мышь переходит в другой порт, вероятность получить воду восстанавливается до полного значения. (В) У человека, пороговое количество яблок, при котором испытуемый покидает дерево, возрастает вместе со средним вознаграждением в среде. Этот эффект можно наблюдать по средам с четырьмя разными значениями среднего вознаграждения, представленным испытуемому. (Г) У животных, порог покидания порта также коррелирует со средним вознаграждением в среде. Изображения (А, В) адаптированы из работы [12]; изображения (Б, Г) адаптированы из работы [13].

1.2. Мотивационные влечения

Экспериментальные наблюдения и теоретические выводы, приведённые выше, показывают, что последовательные решения типа «уйти или остаться» могут зависеть от ненаблюдаемой величины среднего вознаграждения, вычисляемой человеком или животным. Многочисленные исследования показывают, что этот эффект является намного более общим. Решения преследовать те или иные цели, стремиться к каким-либо объектам и событиям - или избегать их - зависят не только от ожидаемых результатов соответствующих действий, но также и от когнитивного процесса, известного как мотивация [2]. Данный процесс регулирует поведения, направленные на достижение различных целей; он определяет, сколько времени и энергии человек готов потратить на достижение каждого конкретного результата, и устанавливает приемлемые уровни связанного с этим риска [2, 18]. Мотивация отвечает за динамику привлекательности различных целей, объектов и событий, и может использоваться для модуляции ценности связанных с ними ожидаемых вознаграждений [19, 20].

Распространённым подходом для изучения мотивации стали парадигмы «стимул-ответ», в рамках которых испытуемым предъявляли различные стимулы и их комбинации, а разрабатываемые теории ставили своей целью предсказать динамику реакции испытуемых на эти стимулы в переменных условиях [20]. Уровни мотивации были формализованы как влечения (аппетит, жажда и так далее) к определенным объектам или событиям, потенциально изменяющиеся со временем и с полученным вознаграждением. Для установления динамики мотивационных влечений (скрытых переменных, не наблюдаемых напрямую экспериментаторами), применяли парадигмы конфликта подхода-избегания [21, 22]. В этих парадигмах человеку или животному одновременно предлагали два различных стимула; как правило, положительный и отрицательный. Варьирование типов и амплитуд совместно предъявляемых стимулов позволяло оценивать динамику соответствующих им влечений в общих координатах [20, 23]. Было показано, что в отсутствие стимулов влечения увеличиваются индивидуальными

темпами, после чего достигают насыщения [20, 24]. Подробное описание таких экспериментов приведено в работе [20], описанной ниже.

Работа 3 («о силе мотивационных влечений»). Для оценки динамики и относительных уровней различных мотиваций, была разработана задача конфликта подхода-избегания. В основу строения задачи легли гипотезы о том, что 1) стремления подхода и избегания прямо зависят от подлежащих мотивационных влечений; 2) стремления подхода / избегания усиливаются при приближении к источнику вознаграждения / наказания; 3) стремления избегания при приближении к источнику наказания растут быстрее, чем стремления подхода при приближении к источнику вознаграждения. Относительно быстрый рост стремления избегания обеспечивал существование точки, в которой его уровень сравнивался с уровнем стремления подхода; при этом у животного исчезала превалирующая мотивация двигаться в любом из направлений. Координата такой точки и её изменения при разных уровнях вознаграждения / наказания отражали относительную динамику соответствующих мотиваций.

Для проверки гипотез о росте стремлений подхода / избегания при приближении к источникам вознаграждения / наказания, а также о разной скорости роста этих стремлений, был проведён следующий эксперимент. Крыс-альбиносов обучали преодолевать расстояние до источника пищи, а затем фиксировали на разных расстояниях от этого источника. Далее с помощью динамометра измеряли усилие, с которым животные стремились к вознаграждению в зависимости от 1) голода; 2) расстояния до источника вознаграждения. Затем крыс переучивали, назначая им вместо вознаграждения электрический шок. Эксперимент повторяли, варьируя 1) силу шока; 2) расстояния до источника шока. Было показано, что крысы тянули динамометр сильнее вблизи источника вознаграждения / наказания и при усилении голода / шока; в случае шока эффект рос быстрее (Рисунок 2А).

Похожие диссертационные работы по специальности «Биофизика», 03.01.02 шифр ВАК

Список литературы диссертационного исследования кандидат наук Шуваев Сергей Алексеевич, 2022 год

Список литературы

1. Биологические мотивации. / Судаков К. - Москва: Медицина, 1971.

2. Zhang J., Berridge K. C., Tindell A. J., Smith K. S., Aldridge J. W. A neural computational model of incentive salience // PLoS Comput Biol. - 2009. - T. 5, № 7. - C. e1000437.

3. Selected papers on conflict, displacement, learned drives and theory. / Miller N. E.: Aldine, 1972.

4. Palm G., Schwenker F. Artificial development by reinforcement learning can benefit from multiple motivations // Frontiers in Robotics and AI. - 2019. - T. 6. - C. 6.

5. Принципиальные вопросы общей теории функциональных систем. / Анохин П. К. - Москва: Наука, 1973.

6. Mogenson G. J., Jones D. L., Yim C. Y. From motivation to action: functional interface between the limbic system and the motor system // Progress in neurobiology. - 1980. - T. 14, № 2-3. - C. 69-97.

7. Reinforcement learning: an introduction. Adaptive computation and machine learning. / Sutton R. S., Barto A. G. - Cambridge, Mass.: MIT Press, 1998. Adaptive computation and machine learning. - xviii, 322 p. с.

8. Theoretical neuroscience: computational and mathematical modeling of neural systems. Computational neuroscience. / Dayan P., Abbott L. F. - Cambridge, Mass.: Massachusetts Institute of Technology Press, 2001. Computational neuroscience. - xv, 460 p. с.

9. Schultz W., Dayan P., Montague P. R. A neural substrate of prediction and reward // Science. - 1997. - T. 275, № 5306. - C. 1593-9.

10.Chentanez N., Barto A. G., Singh S. P. Intrinsically motivated reinforcement learning // Advances in neural information processing systems -, 2005. - C. 1281-1288.

11.Kulkarni T. D., Narasimhan K., Saeedi A., Tenenbaum J. Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation // Advances in neural information processing systems -, 2016. - C. 3675-3683.

12.Constantino S. M., Daw N. D. Learning the opportunity cost of time in a patch-foraging task // Cognitive, Affective, & Behavioral Neuroscience. - 2015. - T. 15, № 4. - C. 837-853.

13.Lottem E., Banerjee D., Vertechi P., Sarra D., oude Lohuis M., Mainen Z. F. Activation of serotonin neurons promotes active persistence in a probabilistic foraging task // Nature communications. - 2018. - T. 9, № 1. - C. 1-12.

14.Charnov E. L. Optimal foraging, the marginal value theorem //. - 1976.

15.Kolling N., Akam T. (Reinforcement?) Learning to forage optimally // Current opinion in neurobiology. - 2017. - T. 46. - C. 162-169.

16.Davidson J. D., El Hady A. Foraging as an evidence accumulation process // PLoS computational biology. - 2019. - T. 15, № 7. - C. e1007060.

17.Wang J. X., Kurth-Nelson Z., Kumaran D., Tirumala D., Soyer H., Leibo J. Z., Hassabis D., Botvinick M. Prefrontal cortex as a meta-reinforcement learning system // Nature neuroscience. - 2018. - T. 21, № 6. - C. 860-868.

18.Berridge K. C. From prediction error to incentive salience: mesolimbic computation of reward motivation // Eur J Neurosci. - 2012. - T. 35, № 7. - C. 1124-43.

19.Berridge K. C., Schulkin J. Palatability shift of a salt-associated incentive during sodium depletion // Q J Exp Psychol B. - 1989. - T. 41, № 2. - C. 121-38.

20.Conflict, displacements, learned drives and theory. / Miller N. E.: Transaction Publishers, 2008.

21.Lewin K. Environmental forces in child behavior and development //. - 1931.

22.Hull C. L. The goal-gradient hypothesis applied to some" field-force'problems in the behavior of young children // Psychological Review. - 1938. - T. 45, № 4. - C. 271.

23.Sears R. R., Hovland C. I. Experiments on motor conflict. II. Determination of mode of resolution by comparative strengths of conflicting responses // Journal of Experimental Psychology. - 1941. - T. 28, № 3. - C. 280.

24.Wolfe J. B. Effectiveness of token rewards for chimpanzees // Comparative Psychology Monographs. - 1936.

25.Haber S. N., Knutson B. The reward circuit: linking primate anatomy and human imaging // Neuropsychopharmacology. - 2010. - T. 35, № 1. - C. 4-26.

26.Humphries M. D., Prescott T. J. The ventral basal ganglia, a selection mechanism at the crossroads of space, strategy, and reward // Prog Neurobiol. - 2010. - T. 90, № 4.

- C. 385-417.

27.Stephenson-Jones M., Bravo-Rivera C., Ahrens S., Furlan A., Xiao X., Fernandes-Henriques C., Li B. Opposing Contributions of GABAergic and Glutamatergic Ventral Pallidal Neurons to Motivational Behaviors // Neuron. - 2020.

28.Baxter M. G., Murray E. A. The amygdala and reward // Nature reviews neuroscience.

- 2002. - T. 3, № 7. - C. 563-573.

29.Gottfried J. A., O'Doherty J., Dolan R. J. Encoding predictive reward value in human amygdala and orbitofrontal cortex // Science. - 2003. - T. 301, № 5636. - C. 1104 -1107.

30.Bray S., O'Doherty J. Neural coding of reward-prediction error signals during classical conditioning with attractive faces // Journal of neurophysiology. - 2007. - T. 97, № 4.

- C. 3036-3045.

31.Saper C. B., Loewy A. D. Efferent connections of the parabrachial nucleus in the rat // Brain Res. - 1980. - T. 197, № 2. - C. 291-317.

32.Heimer L., Zaborszky L., Zahm D. S., Alheid G. F. The ventral striatopallidothalamic projection: I. The striatopallidal link originating in the striatal parts of the olfactory tubercle // J Comp Neurol. - 1987. - T. 255, № 4. - C. 571-91.

33.Mogenson G. J., Yang C. R. The contribution of basal forebrain to limbic-motor integration and the mediation of motivation to action // Adv Exp Med Biol. - 1991. -T. 295. - C. 267-90.

34.Leung B. K., Balleine B. W. The ventral striato-pallidal pathway mediates the effect of predictive learning on choice between goal-directed actions // J Neurosci. - 2013.

- T. 33, № 34. - C. 13848-60.

35.Morgane P. J. Alterations in feeding and drinking behavior of rats with lesions in globi pallidi // Am J Physiol. - 1961. - T. 201. - C. 420-8.

36.Stellar J. R., Brooks F. H., Mills L. E. Approach and withdrawal analysis of the effects of hypothalamic stimulation and lesions in rats // J Comp Physiol Psychol. - 1979. -T. 93, № 3. - C. 446-66. 37.Berridge K. C. Food reward: brain substrates of wanting and liking // Neurosci

Biobehav Rev. - 1996. - T. 20, № 1. - C. 1-25. 38.Ishihara A., Saito H., Ohta H., Nishiyama N. Basal forebrain lesioned mice exhibit deterioration in memory acquisition process in step through passive avoidance test // Jpn J Pharmacol. - 1991. - T. 57, № 3. - C. 329-36. 39.Page K. J., Everitt B. J., Robbins T. W., Marston H. M., Wilkinson L. S. Dissociable effects on spatial maze and passive avoidance acquisition and retention following

AMPA- and ibotenic acid-induced excitotoxic lesions of the basal forebrain in rats: differential dependence on cholinergic neuronal loss // Neuroscience. - 1991. - T. 43, № 2-3. - C. 457-72.

40.Root D. H. The ventromedial ventral pallidum subregion is necessary for outcome-specific Pavlovian-instrumental transfer // J Neurosci. - 2013. - T. 33, № 48. - C. 18707-9.

41.McFarland K., Kalivas P. W. The circuitry mediating cocaine-induced reinstatement of drug-seeking behavior // J Neurosci. - 2001. - T. 21, № 21. - C. 8655-63.

42.Harvey S. C., Foster K. L., McKay P. F., Carroll M. R., Seyoum R., Woods J. E., 2nd, Grey C., Jones C. M., McCane S., Cummings R., Mason D., Ma C., Cook J. M., June H. L. The GABA(A) receptor alpha1 subtype in the ventral pallidum regulates alcohol-seeking behaviors // J Neurosci. - 2002. - T. 22, № 9. - C. 3765-75.

43.Miller J. M., Vorel S. R., Tranguch A. J., Kenny E. T., Mazzoni P., van Gorp W. G., Kleber H. D. Anhedonia after a selective bilateral lesion of the globus pallidus // Am J Psychiatry. - 2006. - T. 163, № 5. - C. 786-8.

44.Vijayaraghavan L., Vaidya J. G., Humphreys C. T., Beglinger L. J., Paradiso S. Emotional and motivational changes after bilateral lesions of the globus pallidus // Neuropsychology. - 2008. - T. 22, № 3. - C. 412-8.

45.Root D. H., Ma S., Barker D. J., Megehee L., Striano B. M., Ralston C. M., Fabbricatore A. T., West M. O. Differential roles of ventral pallidum subregions during cocaine self-administration behaviors // J Comp Neurol. - 2013. - T. 521, № 3. - C. 558-88.

46.Pessiglione M., Schmidt L., Draganski B., Kalisch R., Lau H., Dolan R. J., Frith C. D. How the brain translates money into force: a neuroimaging study of subliminal motivation // Science. - 2007. - T. 316, № 5826. - C. 904-6.

47.Singh-Bains M. K., Waldvogel H. J., Faull R. L. The role of the human globus pallidus in Huntington's disease // Brain Pathol. - 2016. - T. 26, № 6. - C. 741-751.

48.Tindell A. J., Berridge K. C., Aldridge J. W. Ventral pallidal representation of pavlovian cues and reward: population and rate codes // J Neurosci. - 2004. - T. 24, № 5. - C. 1058-69.

49.Smith K. S., Berridge K. C. Opioid limbic circuit for reward: interaction between hedonic hotspots of nucleus accumbens and ventral pallidum // J Neurosci. - 2007. -T. 27, № 7. - C. 1594-605.

50.Tachibana Y., Hikosaka O. The primate ventral pallidum encodes expected reward value and regulates motor action // Neuron. - 2012. - T. 76, № 4. - C. 826-37.

51.Jiang T., Soussignan R., Schaal B., Royet J. P. Reward for food odors: an fMRI study of liking and wanting as a function of metabolic state and BMI // Soc Cogn Affect Neurosci. - 2015. - T. 10, № 4. - C. 561-8.

52.Richard J. M., Ambroggi F., Janak P. H., Fields H. L. Ventral Pallidum Neurons Encode Incentive Value and Promote Cue-Elicited Instrumental Actions // Neuron. -2016. - T. 90, № 6. - C. 1165-73.

53.Mirenowicz J., Schultz W. Preferential activation of midbrain dopamine neurons by appetitive rather than aversive stimuli // Nature. - 1996. - T. 379, № 6564. - C. 449451.

54.Rutledge R. B., Lazzaro S. C., Lau B., Myers C. E., Gluck M. A., Glimcher P. W. Dopaminergic drugs modulate learning rates and perseveration in Parkinson's patients in a dynamic foraging task // Journal of Neuroscience. - 2009. - T. 29, № 48. - C. 15104-15114.

55.Watkins C. J., Dayan P. Q-learning // Machine learning. - 1992. - T. 8, № 3-4. - C. 279-292.

56.Krizhevsky A., Sutskever I., Hinton G. E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems -, 2012. - C. 1097-1105.

57.Silver D., Huang A., Maddison C. J., Guez A., Sifre L., Van Den Driessche G., Schrittwieser J., Antonoglou I., Panneershelvam V., Lanctot M. Mastering the game of Go with deep neural networks and tree search // nature. - 2016. - T. 529, № 7587.

- C. 484.

58.Lee D., Seo H., Jung M. W. Neural basis of reinforcement learning and decision making // Annu Rev Neurosci. - 2012. - T. 35. - C. 287-308.

59.Schultz W. Predictive reward signal of dopamine neurons // Journal of neurophysiology. - 1998. - T. 80, № 1. - C. 1-27.

60.Glimcher P. W. Understanding dopamine and reinforcement learning: the dopamine reward prediction error hypothesis // Proceedings of the National Academy of Sciences. - 2011. - T. 108, № Supplement 3. - C. 15647-15654.

61.Schultz W. Multiple dopamine functions at different time courses // Annu Rev Neurosci. - 2007. - T. 30. - C. 259-88.

62.Haarnoja T., Zhou A., Abbeel P., Levine S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor // arXiv preprint arXiv:1801.01290. - 2018.

63.Morita K., Morishima M., Sakai K., Kawaguchi Y. Reinforcement learning: computing the temporal difference of values via distinct corticostriatal pathways // Trends in neurosciences. - 2012. - T. 35, № 8. - C. 457-467.

64.Joel D., Niv Y., Ruppin E. Actor-critic models of the basal ganglia: New anatomical and computational perspectives // Neural networks. - 2002. - T. 15, № 4-6. - C. 535547.

65.Редько В., Прохоров Д. Нейросетевые адаптивные критики. В сб // VI Всероссийская научно-техническая конференция «Нейроинформатика-2004». Сборник научных трудов -. - C. 77-84.

66.Singh S., Lewis R. L., Barto A. G., Sorg J. Intrinsically motivated reinforcement learning: An evolutionary perspective // IEEE Transactions on Autonomous Mental Development. - 2010. - T. 2, № 2. - C. 70-82.

67.Liu C., Xu X., Hu D. Multiobjective reinforcement learning: A comprehensive overview // IEEE Transactions on Systems, Man, and Cybernetics: Systems. - 2014.

- T. 45, № 3. - C. 385-398.

68.Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks // Proceedings of the thirteenth international conference on artificial intelligence and statistics. - 2010. - C. 249-256.

69.Schwartz A. A reinforcement learning method for maximizing undiscounted rewards // Proceedings of the Tenth International Conference on Machine Learning (ICML '93). - 1993. - C. 298-305.

70.Sutton R. S., Precup D., Singh S. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning // Artificial Intelligence. - 1999. - T. 112, № 1-2. - C. 181-211.

71.Komarov M., Osipov G., Burtsev M. Adaptive functional systems: learning with chaos // Chaos: An Interdisciplinary Journal of Nonlinear Science. - 2010. - T. 20, № 4. -C. 045119.

72.Miller N., Brown J., Lipofsky H., Miller N. A theoretical and experimental analysis of conflict behavior: III. Approach-avoidance conflict as a function of strength of drive and strength of shock // Book A theoretical and experimental analysis of conflict behavior: III. Approach-avoidance conflict as a function of strength of drive and strength of shock / EditorRonald New York, 1943.

73.O'Connell K. A., Gerkovich M. M., Cook M. R., Shiffman S., Hickcox M., Kakolewski K. E. Coping in real time: using Ecological Momentary Assessment techniques to assess coping with the urge to smoke // Research in Nursing & Health.

- 1998. - T. 21, № 6. - C. 487-497.

74.McKennell A. Smoking motivation factors // British Journal of Social and Clinical Psychology. - 1970. - T. 9, № 1. - C. 8-22.

75.Ikard F. F., Green D. E., Horn D. A scale to differentiate between types of smoking as related to the management of affect // International Journal of the Addictions. - 1969.

- T. 4, № 4. - C. 649-659.

76.Shiffman S. Assessing smoking patterns and motives // Journal of Consulting and Clinical Psychology. - 1993. - T. 61, № 5. - C. 732.

77.Dantzig G. B., Ramser J. H. The truck dispatching problem // Management science. -1959. - T. 6, № 1. - C. 80-91.

78.Parush N., Tishby N., Bergman H. Dopaminergic balance between reward maximization and policy complexity // Frontiers in systems neuroscience. - 2011. -T. 5. - C. 22.

79.Henderson B. B., Charlesworth W. R., Gamradt J. Children's exploratory behavior in a novel field setting // Ethology and Sociobiology. - 1982. - T. 3, № 2. - C. 93-99.

80.Lau B., Glimcher P. W. Dynamic response-by-response models of matching behavior in rhesus monkeys // Journal of the experimental analysis of behavior. - 2005. - T. 84, № 3. - C. 555-579.

81.Lloyd K., Dayan P. Tamping ramping: algorithmic, implementational, and computational explanations of phasic dopamine signals in the accumbens // PLoS computational biology. - 2015. - T. 11, № 12. - C. e1004622.

82.Barraclough D. J., Conroy M. L., Lee D. Prefrontal cortex and decision making in a mixed-strategy game // Nat Neurosci. - 2004. - T. 7, № 4. - C. 404-10.

83.Kim J. N., Shadlen M. N. Neural correlates of a decision in the dorsolateral prefrontal cortex of the macaque // Nat Neurosci. - 1999. - T. 2, № 2. - C. 176-85.

84.Daw N. D., Niv Y., Dayan P. Uncertainty-based competition between prefrontal and dorsolateral striatal systems for behavioral control // Nature neuroscience. - 2005. -T. 8, № 12. - C. 1704-1711.

85.Lengyel M., Dayan P. Hippocampal contributions to control: the third way // Advances in neural information processing systems. - 2007. - T. 20. - C. 889-896.

86.Lee J., Bahri Y., Novak R., Schoenholz S. S., Pennington J., Sohl-Dickstein J. Deep neural networks as gaussian processes // arXiv preprint arXiv:1711.00165. - 2017.

87.Piet A. T., El Hady A., Brody C. D. Rats adopt the optimal timescale for evidence integration in a dynamic environment // Nature communications. - 2018. - T. 9, № 1.

- C. 1-12.

88.Yu A. J., Cohen J. D. Sequential effects: superstition or rational behavior? // Advances in neural information processing systems -, 2009. - C. 1873-1880.

89.Sutton R. S. Gain adaptation beats least squares // Proceedings of the 7th Yale workshop on adaptive and learning systems. - T. 161168 -, 1992. -.

90.Daw N. D., Kakade S., Dayan P. Opponent interactions between serotonin and dopamine // Neural networks. - 2002. - T. 15, № 4-6. - C. 603-616.

91.Niv Y., Daw N. D., Joel D., Dayan P. Tonic dopamine: opportunity costs and the control of response vigor // Psychopharmacology. - 2007. - T. 191, № 3. - C. 507520.

92.Schweighofer N., Doya K. Meta-learning in reinforcement learning // Neural Networks. - 2003. - T. 16, № 1. - C. 5-9.

93.Eichenbaum H., Dudchenko P., Wood E., Shapiro M., Tanila H. The hippocampus, memory, and place cells: is it spatial memory or a memory space? // Neuron. - 1999.

- T. 23, № 2. - C. 209-226.

94.Keramati M., Gutkin B. Homeostatic reinforcement learning for integrating reward collection and physiological stability // Elife. - 2014. - T. 3. - C. e04811.

95.Mansfield J. G., Cunningham C. L. Conditioning and extinction of tolerance to the hypothermic effect of ethanol in rats // Journal of Comparative and Physiological Psychology. - 1980. - T. 94, № 5. - C. 962.

96.Hodos W. Progressive ratio as a measure of reward strength // Science. - 1961. - T. 134, № 3483. - C. 943-944.

97.Dickinson A., Balleine B. The role of learning in the operation of motivational systems // Stevens' handbook of experimental psychology. - 2002.

98.Sinakevitch I., Bjorklund G. R., Newbern J. M., Gerkin R. C., Smith B. H. Comparative study of chemical neuroanatomy of the olfactory neuropil in mouse, honey bee, and human // Biol Cybern. - 2018. - T. 112, № 1-2. - C. 127-140.

99.Sutton R. S. The Bitter Lesson. - 2019.

100.Sutton R. S., Barto A. G. A temporal-difference model of classical conditioning // Proceedings of the ninth annual conference of the cognitive science society. - 1987. -C. 355-378.

101.Feudal Reinforcement Learning. / Dayan P., E. Hinton G., 2000.

102.Bacon P. L., Precup D. Constructing Temporal Abstractions Autonomously in Reinforcement Learning // Ai Magazine. - 2018. - T. 39, № 1. - C. 39-50.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.