Разработка методов и алгоритмов для синтеза управления группой динамических объектов тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат наук Доценко Антон Викторович
- Специальность ВАК РФ05.13.01
- Количество страниц 210
Оглавление диссертации кандидат наук Доценко Антон Викторович
Введение
Глава 1. Постановка задачи управления группой динамических
объектов
1.1 Избегание коллизий в задаче управления динамическими объектами
1.2 Обзор существующих подходов управления динамическими объектами
1.2.1 Планировщики маршрутов
1.2.2 Методы потенциальных полей
1.2.3 Реактивные подходы
1.2.4 Управление с прогнозирующими моделями
1.2.5 Методы управления динамическими объектами на основе обучения
1.3 Выводы по первой главе
Глава 2. Нейронные сети и машинное обучение в управлении
2.1 Обзор работ с применением машинного обучения в задаче управления динамическими объектами
2.2 Выводы по второй главе
Глава 3. Избегание коллизий
3.1 Постановка задачи
3.2 Избегание коллизий с ситуативным изменением правых частей дифференциальных уравнений
3.2.1 Сетевой оператор
3.2.2 Модифицированный сетевой оператор
3.2.3 Поиск адаптивных функций управления динамическими объектами на основе модифицированного метода сетевого оператора
3.2.4 Вычислительный эксперимент
3.3 Синтез системы управления группой динамических объектов с универсальным блоком разрешения коллизий
Стр.
3.3.1 Синтез непрерывной динамической системы стабилизации на основе искусственных нейронных сетей
3.3.2 Постановка задачи стабилизации
3.3.3 Этап 1. Синтез обучающего множества
3.3.4 Этап 2. Аппроксимация замкнутой функции управления
3.3.5 Вычислительный эксперимент
3.4 Синтез универсальной системы разрешения коллизий (УСРК) ... 58 3.4.1 Вычислительный эксперимент
3.5 Синтез универсальной вероятностной системы разрешения
коллизий (УВСРК)
3.5.1 Вычислительный эксперимент
3.6 Выводы по третьей главе
Общие выводы и заключение
Список литературы
Приложение
П.1. Базовые операции
П.2. Листинги программного кода
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Методы и алгоритмы планирования транспортных операций гетерогенной группы автономных роботов в условиях пространственно-ситуационной неопределенности2021 год, кандидат наук Моторин Дмитрий Евгеньевич
Алгоритмы координированного управления формацией группы беспилотных летательных аппаратов с обеспечением траекторной безопасности2023 год, кандидат наук Титков Иван Павлович
Методы и алгоритмы планирования траекторий движения роботов в двумерных картографированных средах2023 год, кандидат наук Фархуд Азхар Кадим Фархуд
Синтез алгоритмов управления летающим роботом для системы точного земледелия методом сетевого оператора2013 год, кандидат наук Атиенсия Вильягомес Хосе Мигель
Методы и алгоритмы децентрализованного управления группой автономных подвижных объектов в некартографированной среде2024 год, кандидат наук Лазарев Владимир Сергеевич
Введение диссертации (часть автореферата) на тему «Разработка методов и алгоритмов для синтеза управления группой динамических объектов»
Введение
Диссертационная работа посвящена разработке методов и алгоритмов управления группами динамических объектов (ДО) в условиях отсутствия информации о среде и коммункаций между ДО. В частности, рассматривается задача перемещения гомогенной группы ДО из произвольных начальных состояний в произвольные терминальные состояния с соблюдением динамических фазовых ограничений.
Если проводить разделение существующих подходов управления группами ДО с соблюдением фазовых ограничений относительно момента поиска оптимального управления, то можно выделить два класса. В подходах, принадлежащих первому классу, поиск управлений выполняется в реальном масштабе времени. К нему можно отнести почти все имеющиеся на сегодняшний день подходы. Прогностическое управление основано на решении последовательности задач оптимального управления. Данная методология рассматривается в работах В. Сахарова, П. Агачи, К. Карлоса, Д. Мэйна и др. Локальные планировщики маршрутов, рассматриваемые в работах И. Ермолова, А. Ющенко, С. Зенкевича, Й. Боренштейна, Р. Симонса и других авторов, нацелены на построение оптимальных маршрутов, которые корректируются в реальном масштабе времени для соблюдения фазовых ограничений. Подходы с назначением приоритетов рассматриваются в работах Х. Берга, К. Кларка и М. Беневица. Выбор приоритетов оказывает существенное влияние на критерий оптимизации, однако во многих работах они назначаются эвристическим путем.
К первому классу также можно отнести методы полей потенциалов, первый из которых был предложен А. Платоновым. В зарубежной литературе популярны работы О. Хатиба и Р. Брукса. Применение этих методов на практике может приводить к попаданию ДО в локалные минимумы и к колебательному движению ДО, близко расположенных к препятствиям.
Во втором классе подходов поиск оптимальных управлений выполняется заранее. К нему можно отнести планирование маршрутов в совместном конфигурационном пространстве, рассматриваемое в работах Х. Берга и В. Лумельского. В задачах с большими группами данный подход неприменим из-за проклятия размерности.
В подходах, основанных на численном решении задачи оптимального управления с фазовыми ограничениями, вводятся дополнительные переменные, нахождение значений которых является вычислительно затратной процедурой. Более практичный способ решения задачи соблюдения фазовых ограничений состоит во включении этих ограничений в виде штрафных функций в функционал качества. Однако здесь возникает проблема определения весовых коэффициентов, которые могут существенно исказить значение функционала. А. Дивеев разработал подход для численного решения задачи синтеза управления, в котором многокритериальный функционал минимизируется эволюционным алгоритмом. Данный подход неприменим в больших группах из-за проклятия размерности. Более того, в случае изменения количества объектов в группе необходимо решать новую задачу синтеза.
Не существует универсального подхода к созданию легко масштабируемых систем управления группами ДО, который допускал бы использование произвольной математической модели объектов управления, и при котором поиск управлений не выполнялся бы в реальном масштабе времени. Проблема является важной и нерешённой, что определяет ее актуальность.
Объектом исследования является система управления группой динамических объектов.
Предметом исследования являются алгоритмы для синтеза управления в задаче перемещения ДО из произвольных начальных состояний в произвольные терминальные состояния с соблюдением динамических фазовых ограничений в условиях отсутствия полной информации о среде и обмена информацией между ДО.
Целью исследования является разработка алгоритмов для синтеза масштабируемой децентрализованной системы управления гомогенной группой ДО, позволяющей минимизировать вычисления, выполняемые ДО в реальном масштабе времени.
Задачи исследования:
1. Провести обзор подходов к управлению группами динамических объектов с соблюдением фазовых ограничений;
2. Разработать алгоритмы для структурно-параметрического синтеза блока управления, предназначенного для разрешения коллизий между двумя динамическими объектами;
3. Разработать подход к обучению нейронной сети, реализующей непрерывную динамическую систему стабилизации;
4. Разработать программный комплекс для решения задач структурно-параметрического синтеза и моделирования функционирования групп динамических объектов;
5. Реализовать децентрализованную систему управления группой динамических объектов на основе системы стабилизации и универсального блока разрешения коллизий;
6. Провести вычислительный эксперимент на группе мобильных роботов;
7. Разработать метод принятия решений в условиях угрозы столкновения динамических объектов, позволяющий проводить выборку управления из функции условной плотности вероятностей.
Основные положения, выносимые на защиту:
1. Децентрализованная масштабируемая система управления, основанная на двух обученных блоках управления. Данная система способна доставлять динамические объекты из произволных начальных состояний в произвольные терминальные состояния и разрешает между объектами коллизии;
2. Алгоритм синтеза универсального блока разрешения коллизий, позволяющий динамическим объектам избегать столкновения при их произвольном взаимном расположении;
3. Алгоритм поиска функции управления динамическим объектом, при котором состояние помехи встраивается в качестве дополнительных аргументов в искомую функцию управления объектом;
4. Интеллектуальная система принятия решений, позволяющая динамическому объекту оценивать оптимальность всех возможных траекторий объезда препятствия в реальном масштабе времени.
Научная новизна:
1. Предложен подход к синтезу децентрализованной масштабируемой системы управления группой динамических объектов, позволяющей минимизировать вычисления, выполняемые динамическими объектами в реальном масштабе времени;
2. Разработан алгоритм синтеза непрерывной динамической системы стабилизации, способной доставлять динамические объекты в терминальные состояния при воздействии возмущений;
3. Разработан алгоритм синтеза универсального блока разрешения коллизий. Данный блок позволяет динамическим объектам избегать столкновения при произвольном взаимном расположении и направлении движения;
4. Разработан метод принятия решений, в соответствии с которым динамический объект проводит выборку управления из синтезированной функции условной плотности вероятностей. Такая функция позволяет объекту оценивать оптимальность всех возможных траекторий объезда препятствия в реальном масштабе времени;
5. Предложен подход к избеганию столкновений, основанный на встраивании компонент состояния помехи в искомую функцию управления динамическим объектом в реальном масштабе времени.
Практическая значимость определяется тем, что предложенные алгоритмы могут применяться при создании систем управления группами ДО с произвольной математической моделью.
Разработанные соискателем подходы и алгоритмы реализованы в модулях Python и внедрены при создании и тестировании систем управления группами мобильных роботов в Федеральном исследовательском центре «Информатика и управление» Российской Академии Наук (ФИЦ ИУ РАН).
Методы исследования. В работе применялся двухэтапный процесс, основанный на решении оптимизационных задач и оценки полученных результатов при помощи компьютерного моделирования. Численное решение задачи генерации обучающих данных и синтеза замкнутых функций управления получено на гибридном высокопроизводительном вычислительном комплексе ФИЦ ИУ РАН http://www.frccsc.ru/ckp. Графическое отображение результатов моделирования реализовано на персональном компьютере.
Достоверность и обоснованность научных результатов обеспечивается за счет решения прикладных задач с использованием компьютерного моделирования.
Апробация работы. Основные результаты работы докладывались на следующих научных мероприятиях:
1. 13th International Symposium Intelligent Systems - 2018 (INTELS'18), 23.10.2018, Санкт-Петербург, Россия;
2. 2018 IX International Conference on Optimization and Applications (OPTIMA 2018), 02.10.2018, Петровац, Черногория;
3. The 14th IEEE Conference on Industrial Electronics and Applications (ICIEA 2019), 20.06.2019, Сиань, КНР;
4. Научном семинаре департамента механики и мехатроники Института космических технологий Инженерной академии РУДН, 04.05.2020, Москва;
5. Научном семинаре «Проблемы управления автономными робототехни-ческими комплексами (ИПУ РАН, Москва)», 18.03.2021, Москва;
6. Научном семинаре кафедры ИУ-1 «Системы автоматического управления» МГТУ им. Н. Э. Баумана, 27.05.2021, Москва.
Соответствие паспорту специальности. Диссертация соответствует пунктам 4, 7, 9 паспорта специальности 05.13.01 - Системный анализ, управление и обработка информации (в технических системах).
Публикации. Основные результаты по теме диссертации изложены в 7 печатных изданиях, 4 из которых изданы в журналах, рекомендованных ВАК, 4 в периодических научных журналах, индексируемых Web of Science и Scopus. Зарегистрированы 2 программы для ЭВМ.
Объем и структура работы. Диссертация состоит из введения, 3 глав, заключения и 2 приложений. Полный объём диссертации составляет 210 страниц, включая 34 рисунка и 7 таблиц. Список литературы содержит 146 наименований.
Глава 1. Постановка задачи управления группой динамических объектов
Задана математическая модель объектов управления гомогенной группы
¿г = f (V, иг) , (1.1)
т . т
где = [я.д... - вектор состояния объекта г, $>1 е иг = [и.^ ... и. т] -вектор управления объекта г; иг е и С и - ограниченное замкнутое множество, г = 1, N, N - количество динамических объектов в группе. Заданы начальные
^ (0) = я0'., (1.2)
и терминальные состояния
8г = (1.3)
где Ь- ограниченное время процесса управления, г = 1, N. Заданы статические
Фк И ^ 0, (1.4)
и динамические фазовые ограничения
х (>\ я'') < 0, (1.5)
где j = 1,N, k = 1,C, j = i. Задан функционал качества
J = f0 (s1 (t),sN (t), u1 (t),uN (t)) dt — min. (1.6)
I u*e U
Здесь tf = max tf:i : i = 1,... ,N - максимальное ограниченное время процесса управления, которое может быть задано или определяться по достижению терминальных состояний.
Требуется найти управление в виде функции от компонентов вектора состояний объектов
ui = h (s^ , (1.7)
f
где Ь : ^ Ь (¡г) С и, V е Кта.
Подставив (1.7) в (1.1), получим модель объектов с функцией управления, зависящей от состояния
¡з* = f Ь (э*)) . (1.8)
Требуется найти функцию управления (1.7), переводящую объекты (1.1) в терминальные состояния (1.3), удовлетворяющую функционалу качества (1.6) для всех начальных условий из множества (1.2) и обеспечивающую соблюдение статических (1.4) и динамических фазовых ограничений (1.5).
1.1 Избегание коллизий в задаче управления динамическими объектами
Роботы уже широко используются в различных сферах человеческой деятельности. Дальнейшее развитие робототехники направлено на создание роботов, способных автономно решать поставленные задачи и работать в группах [1—5]. Использование группы автономных роботов позволяет решать задачи более эффективно с минимальным участием оператора-человека. По этой причине актуально создание систем управления группами роботов, которые позволили бы роботам эффективно решать поставленные перед ними задачи.
В данном диссертационном исследовании рассматривается задача перемещения группы ДО с соблюдением фазовых ограничений. Приняты следующие условия, учитываемые при создании систем управления:
1. Неполнота информации. Подразумевается, что а) между ДО нет коммуникаций и б) ДО недоступна полная информация о среде. Частичные знания о среде доступны объектам благодаря мониторингу локальной окрестности.
2. Парное взаимодействие. ДО вырабатывает управление с учетом собственного состояния и состояния ближайшего препятствия, находящегося в локальной окрестности ДО.
3. Минимальная вычислительная нагрузка. Система управления должна выполнять как можно меньше вычислений в реальном масштабе времени.
В диссертации рассматривается два подхода к решению задачи перемещения ДО с соблюдением фазовых ограничений. Первый подход предусматривает поиск оптимальных функций управления для определенных начальных и конечных состояний. При беспрепятственном продвижении ДО к терминальному
состоянию функция управления зависит только от состояния ДО. В случае появления в локальной окрестности ДО объектов-помех, в функцию управления добавляются аргументы, определяющие состояние ближайшего объекта-помехи [6; 7]. Компоненты состояния объекта-помехи исключаются из функции управления, когда объект-помеха удаляется на безопасное расстояние от ДО.
Для реализации данного подхода был разработан численный метод символьной регрессии - модифицированный метод сетевого оператора [8], который кодирует математическое выражение в регистр. Регистр сетевого оператора представляет множество из упорядоченных подмножеств, мощность которых может меняться в ходе выполнения эволюционного алгоритма. Отутствие неучаству-ющих в вычислениях узлов в структуре закодированного выражения позволяет сократить потребление памяти ЭВМ, что является преимуществом модифицированного метода сетевого оператора.
Разработанный метод способен накладывать параметрические вариации на регистр сетевого оператора, что позволяет не прибегать к вложенному поиску оптимальных параметров для промежуточных структур. Поиск оптимальных параметров проводится после завершения выполнения эволюционного алгоритма, для конечной структуры регистра.
В рамках второго подхода предлагается система управления группой ДО с двумя нейросетевыми блоками управления. На первом этапе решается задача синтеза непрерывной динамической системы стабилизации [9], которая ответственна за доставку ДО в назначенные им терминальные состояния. Многократно решается задача оптимального управления на конечном множестве начальных условий. В качестве критерия оптимальности управления используется функционал интегрального типа с аддитивной сверткой двух компонент - отклонения текущего состояния от терминального состояния (терминальная невязка) и времени достижения объектом терминального состояния. Результатом решения задачи оптимального управления на конечном множестве начальных условий является неупорядоченное множество пар невязка-управление.
На втором этапе замкнутая функция управления аппроксимируется многослойным персептроном на множестве, синтезированном на первом этапе.
Полученная замкнутая функция способна доставлять динамический объект из произвольного начального состояния в произвольное терминальное состояние с учетом наложенных на управление ограничений. Более того, синтезированная функция успешно справляется с задачей в условиях воздействия на ДО
внешних возмущений. Стоит заметить, что в рамках данного подхода поиск оптимальных весовых коэффициентов НС не требует вмешательства опытного оператора, что характерно для подходов на основе ПИД-регуляторов, методов АКОР, АКАР и бэкстеппинга. Пользователю необходимо задать характеристики объекта управления, параметры генетического поиска для синтеза обучающей выборки, архитектуру и параметры НС.
Далее, синтезируется универсальная система разрешения коллизий (УСРК) [10]. Непрерывная динамическая система стабилизации применяется в качестве единственной системы управления на борту двух ДО. В ходе моделирования генерируются обучающие сценарии - комбинации начальных и конечных состояний ДО, которые приводят к столкновению или опасному сближению, но без столкновения ДО.
На вход системы разрешения коллизий, которая реализована в многослойном персептроне, подается терминальная невязка и отклонение состояния рассматриваемого объекта от состояния объекта-помехи в текущий и предшествующий момент времени (невязка взаимодействия). Выходной вектор персептрона представляет управление объектом при его опасном сближении с препятствием.
Методом эволюционных стратегий проводится поиск оптимальных весовых коэффициентов персептрона. При этом минимизируется интегральный функционал, который учитывает терминальную невязку объектов, время достижения объектами терминальных состояний и штрафы за столкновения. В результате оптимизации весовых коэффициентов получаем замкнутую функцию управления, которая осуществляет управление объектом, если в его локальной окрестности находятся препятствия.
Найденный маршрут объезда препятствия не всегда является единственным оптимальным. В диссертации разработан метод принятия решений, позволяющий ДО учитывать все возможные траекторий объезда препятствия посредством вероятностной оценки оптимальности управляющих воздействий. Используется специальная НС, отображающая входное состояние ДО в параметры набора статистических распределений, которые пораждают смешанную плотность условных вероятностей управляющих воздействий [11].
В отличие от первого подхода, где выполняется поиск функций управления для каждого ДО, во втором подходе синтезируется замкнутая адаптивная функция управления. При создании системы управления группами ДО в рамках второго подхода полностью учтены выдвинутые ранее условия: система управления не
осуществляет поиск оптимальных управлений в реальном масштабе времени, не подразумевает наличие полной информации о среде и учитывает состояние препятствия при угрозе столкновения с ним.
1.2 Обзор существующих подходов управления динамическими объектами
1.2.1 Планировщики маршрутов
Постоянные изменения среды являются главным препятствием при создании систем управления группами ДО. Специфика управления динамическим объектом в нестационарной среде состоит в том, что траекторию движущихся препятствий рассчитать заранее крайне затруднительно. Чтобы избежать столкновений с движущимися препятствиями, необходимо знать их состояния и иметь возможность предсказывать траекторию их движения. Тогда ДО может двигаться по спланированному маршруту, отклоняясь от него лишь для уклонения от столкновений с препятствиями.
Планировщики подразделяются на централизованные и несвязные [12]. Планирование движения нескольких ДО может быть осуществлено на основе совместного конфигурационного пространства объектов или с применением несвязанных методик, разделяющих проблемы планирования и координации движения.
Совместное конфигурационное пространство формируется посредством декартового произведения конфигурационных пространств отдельных ДО, в то время как несвязные планировщики осуществляют поиск маршрутов независимо друг от друга. В целях избегания коллизий несвязные планировщики задействуют диаграммы координации [13; 14].
Централизованное планирование неприменимо на больших группах из-за проклятия размерности. Несвязные планировщики способны находить маршруты для большого количества ДО. Зачастую, однако, поиск оптимальных маршрутов несвязными планировщиками приводит к потерям оптимальности. Эти потери могут выражаться, например, в слишком длинных объездных маршрутах объектов.
Также существуют планировщики, которые не могут быть чётко отнесены к совместному или несвязному планированию. Такие подходы прибегают к применению дорожных карт, которые призваны покрывать свободные конфигурационные пространства ДО [15—18]. В этих подходах делается акцент на скорости
вычислений или на практической реализуемости. Планирование в сопряженном конфигурационном пространстве является полноценными с точки зрения оптимальности, но затратным с вычислительной точки зрения. Оно применимо только для ДО, функционирующих в простой среде. Несвязные планировщики быстро находят маршруты, но они зачастую не являются оптимальными. Подходы на основе дорожной карты нацелены на достижение компромисса между производительностью и оптимальностью маршрутов.
В исследовании [19] авторы предложили алгоритм управления роботом в нестационарной среде с трассировкой подвижных препятствий. Для планирования маршрутов авторы использовали эвристический алгоритм А * [20]. Данный алгоритм способен спланировать оптимальный маршрут из начального состояния в конечное в стационарной рабочей среде с фиксированными препятствиями. Он может быть адаптирован для непрерывного поиска группой объектов маршрутов в условиях непрерывно меняющейся среды.
В работах [21; 22] предложены методы планирования маршрутов для автономных мобильных роботов, функционирующих в средах с динамическими препятствиями. Отличительной особенностью данных методов является способность прогнозирования движения динамических препятствий. Спрогронизован-ное движение учитывается при формировании траекторий движения роботов.
Авторы работы [23] проводят декомпозицию среды на ячейки, которые учитывают статические и динамические фазовые ограничения. Сначала алгоритм осуществляет разложение свободного пространства на ячейки, а затем выполняет поиск оптимального маршрута по результирующему графу смежности.
Использование совместных планировщиков нецелесообразно, если в группе болшое количество объектов, так как это приводит к высокой размерности совместного конфигурационного пространства поиска. Естественным путём устранения данной проблемы является сжатие совместного пространства поиска. Одним из способов такого сжатия является ограничение некоторых маршрутов, которые могут быть назначены объектам. Одним из самых популярных подходов сжатия сопряжённого пространства является подход, основанный на дорожных картах. В работе [24] был представлен подход создания составной дорожной карты на основе суперграфа. Составная дорожная карта вычисляется в два этапа:
1. Для каждого отдельного агента строится дорожная карта;
2. Построенные дорожные карты объединяются в одну дорожную карту.
Единая дорожная карта используется для формирования согласованных маршрутов, которые предствляют множество возможных маршрутов для всех ДО, исключающих появление коллизий.
Основная идея заключается в поиске маршрутов с учетом единой дорожной карты, которые доставляли бы объекты в конечные состояния без коллизий. В работе [24] представлена дорожная карта на основе суперграфа. Авторы предлагают два варианта реализации суперграфа:
- Плоский суперграф;
- Многоуровневый суперграф.
Узлы плоского суперграфа указывают на допустимые размещения объектов. Дугам графа соответствуют свободные от препятствий маршруты. Многоуровневый суперграф разработан с целью сокращения плоского суперграфа. Узлы многоуровневого суперграфа содержат информацию об объектах, входящих в подграф. На узлы многоуровневого суперграфа наложено ограничение, согласно которому подграфы не должны пересекаться: узлы одного подграфа не могут блокировать пути в другой подграф.
Главным недостатком методов дорожных карт на основе суперграфов заключается в том, что они применимы только на небольших группах из-за экспоненциальной зависимости количества узлов графа от количества ДО в группе.
Ещё один подход на основе дорожной карты был представлен в [25]. Авторы разработали многофазный планировщик, который использует связующее дерево для планирования беспрепятственных маршрутов. Данный подход подразумевает создание графа, узлами которого являются начальные и конечные состояния ДО, а дуги представляют возможные связи узлов. Корнем связующего дерева становится узел, ближе всего расположенный к центру карты. На первом этапе подхода создается план, согласно которому ДО перемещаются к листьям связующего дерева по маршрутам, обеспечивающим отсутствие столкновений. На втором этапе объекты перемещаются на позиции, из которых они могут попасть в терминальные состояния, не препятствуя другим объектам. Это достигается за счет рассмотрения объектов по порядку в соответствии с глубиной расположения их терминального состояния в связующем дереве. На третьем этапе объекты перемещаются в оставшиеся свободные терминальные состояния. Стоит отметить, что в рамках данного подхода только один объект может совершать движение. Лишь на заключительном этапе все объекты могут двигаться одновременно, если это не приведет к столкновениям.
Со временем метод планирования дорожных карт стал популярным подходом к планированию маршрутов [26]. На основе дорожных карт было создано множество различных алгоритмов планирования маршрутов как для одиночных объектов, так и для групп объектов [26].
Составление дорожных карт при планирования маршрутов для группы ДО исследуются в работе [27]. В данной работе автор "сжимает" пространство поиска, раскладывая исходную карту на подграфы. Затем осуществляется планирование маршрутов между подграфами с дальнейшей координацией движения внутри подграфов. В работе [28] вводится понятие динамических сетей, которые формируются между объектами, находящимися в пределах диапазона связи. Объекты, разделяющие динамическую сеть, используют совместный планировщик, основанный на вероятностных дорожных картах [29—31].
Метод адаптивной оптимизации дорожной карты (ARMO) [32], основанный на применении линейного программирования, призван адаптировать дорожную карту в меняющейся рабочей среде в реальном масштабе времени. Для обнаружения изменений среда описывается сеточной картой. Всякий раз, когда в ходе постоянного обновления сеточной карты обнаруживаются значительные изменения, инициируется вычисление диаграммы Вороного. Диаграмма Вороного, отображающая схему связей свободного пространства, является отправной точкой в процессе извлечения путевых сегментов для получения конечной дорожной карты. Вычисление оптимальной конфигурации этих сегментов позволяет определить кратчайшие маршруты и максимальную компактность сети. Данный метод приводит к эффективному групповому планированию маршрутов при невысоких вычислительных затратах.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Принцип синтезированного оптимального управления в робототехнических системах2024 год, доктор наук Шмалько Елизавета Юрьевна
Построение траекторий и моделирование движения летательного аппарата в среде с препятствиями2018 год, кандидат наук Лю Вэй
Оптимальное и субоптимальное управление позиционированием механических систем2003 год, доктор физико-математических наук Аветисян, Ваган Вардгесович
Алгоритмы управления мобильными роботами по неполным данным в многоагентных сценариях2017 год, кандидат наук Семакова, Анна Анатольевна
Децентрализованное управление группой квадрокоптеров2016 год, кандидат наук Галустян, Нарек Каренович
Список литературы диссертационного исследования кандидат наук Доценко Антон Викторович, 2021 год
- - - -
О 250 500 750 1000 1250 1500 1750 2000
е
б)
Рис. 3.6. Зависимость ошибки (3.4) от количества эпох обучения: а) обучающее множество Ttrain; б) тестовое множество Ttest
Вычислительные эксперименты показали, что для повышения качества аппроксимации функциональной связи и (Д&7) = 1,д, целесообразно использовать не одну НС, как было рассмотрено выше, а комитет из трех персептронных НС (КНС), имеющих по два скрытых слоя, и состоящих из 80, 90 и 100 нейронов соответственно. Пусть иг = (игд, иг,2), г = 1,3 - выход г-ой НС. Тогда управление, формируемое КНС, имеет вид:
и\ = 3 (им + и2Д + изд) ,и2 = 1 (и1,2 + и2,2 + ) •
На Рис. 3.7 изображены траектории движения робота на плоскости в терминальное = [0 0 0]т состояние из начальных условий
-10 0 П
4_
0 10
3п
т
T
П
-10 10 2.
T
s4 = [10 10 пГ ,
T
T
1
9
«
Я
0
г
«
г
so =
so =
10 0
5n
T
so =
10
10
3n
T
(3.17)
0
10
7n
T
, s0 = [-10 - 10 2n]
T
T
T
T
не принадлежащих обучающей TtTO^ и тестовой Ttest выборке с использованием КНС в качестве системы управления.
я« \ < Л s 4 0
\ f
S \S7 S5
1 0
56 '0
S 8................ ✓ \ si «
-10.0 -7.5 -5.0 -2.5 0.0 2.5 5.0 7.5 10.0
X
Рис. 3.7. Траектории движения робота (3.14) из начальных состояний (3.17)
в терминальное состояние б^
На Рис. 3.8 представлены графики оптимальных управлений для четырех из восьми начальных условий (3.17). Рисунок показывает, что найденные оптимальные управления не имеют разрывов и существенных скачков и удовлетворяют заданным ограничениям.
Чтобы понять, как ведет себя синтезированная система стабилизации в условиях внешних возмущений, к каждой переменной состояния системы (3.14) на каждом шаге интегрирования добавлялся нормальный шум N (0,1) с нулевым математическим ожиданием и единичным среднеквадратическим отклонением. Результаты этого исследования представлены на Рис. 3.9, 3.10. Рис. 3.9 демонстрирует способность синтезированной системы стабилизации достигать терминальное состояние при наличии внешних возмущений. На Рис. 3.10 можно видеть, какое сильное изменение претерпели графики оптимального управления вследствие воздействия на систему указанного возмущения. Рис. 3.11 демонстрирует способность системы (3.14) достигать терминальное состояние, находясь за
а)
0.0 -
-0.5 -
б)
в)
0.5 -
0.0 -
г)
Рис. 3.8. Функции управления гусеницами роботов
Рис. 3.9. Траектории движения робота (3.14) из начальных состояний (3.17) в терминальное состояние б^ при наличии возмущений
пределами области обучения вследствие наложения возмущения на начальные условия (3.17):
§г0 = 8г0 + N (0,1) N (0,1) N (0,1)]т , г = 1, 8.
(3.18)
О -
и 1
-1 -I
и 1
о -
-1 -I
Ul
1 Н
0-
Ul
0.0-
и2
1 1 1 1 t а) lili t
W и2 á-
1 1 1 1 t б) i 1 1 1 t
и2 /rry
1 1 1 1 t в) IIII t
т i 1 1 1 и2~ t 1 1 1
0 10 20 30 0 10 20 30
г г
г)
Рис. 3.10. Функции управления гусеницами роботов
Рис. 3.11 свидетельствует о высокой обобщающей способности рассматриваемого КНС: несмотря на то, что некоторые начальные состояния вышли за границы области обучения, КНС перевел объект в терминальное состояние из заданных начальных условий. На Рис. 3.12 изображена зависимость соответствующих оптимальных управлений от времени.
Рис. 3.11. Траектории движения робота (3.14) из возмущенных начальных состояний (3.17) в терминальное состояние б^
а)
б)
в)
U\ 0 5- А................-.......-......................... и2~ л
о.о- \ А
1 1 1 i i 1 1
-|-1-1--Ч-1-г~
О 20 40 0 20 40
t t
г)
Рис. 3.12. Функции управления гусеницами роботов
Синтезированная в ходе эксперимента система стабилизации оказалась способной доставлять объект управления в терминальное состояние из любого начального условия, лежащего внутри границ области обучения. Показано, что эта система является малочувствительной к внешним возмущениям.
Решение задачи синтеза в данном эксперименте реализовано на Keras [138]. Обучение выполнялось одной из разновидностей стохастического градиентного спуска, Adam [139]. Следует отметить, что пакетная нормализация [140] существенно ускорила процесс обучения. В данном эксперименте инициализация весовых коэффициентов по схеме Савье [141] в среднем приводит к более быстрой сходимости ошибки по сравнению со случайной инициализацией.
3.4 Оинтез универсальной системы разрешения коллизий (УСРК)
Для реализации адаптивной системы управления (3.7) требуется найти функцию управления иг = g (sz, sJ) = j, реализующую универсальную систему разрешения коллизий (УСРК), которая учитывает динамические фазовые ограничения (3.4) и удовлетворяет функционалу качества (3.5) для всех возможных начальных условий (3.2).
Если в локальной окрестности ДО появляется другой объект, то эти объекты вступают во взаимодействие и управление каждым из них передается системе разрешения коллизий. Если в локальной окрестности ДО находятся сразу несколько других объектов, то учитывается состояние ближайшего объекта-помехи. В случае нахождения в локальной окрестности ДО нескольких объектов на одинаковом расстоянии от него, выбор делается в пользу объекта, идущего первым в списке рассматриваемых объектов-помех.
По условию, ДО могут обнаруживать другие объекты в своей локальной окрестности, но не могут обмениваться с ними информацией. Если в момент времени Ь одновременно выполняются неравенства
т
Я^-Е У с - Узе с)2 ^ 0,
с=1
т
Я2-Е У с - Уз с с)2 < 0, (3.1)
с=1
то будем говорить, что объекты с номерами г, ] находятся во взаимодействии без столкновения, г = ^ Я0 > Я. Если в момент времени Ь выполняется условие, задаваемое неравенством
т
Я2 - Е (У с с - Уз с с)2 < (3.2)
с=1
то объекты г,^ претерпевают столкновение.
Система разрешения коллизий, рассматриваемая в диссертации, основывается на взаимодействии двух ДО, так как столкновение большего количества объектов можно представить как совокупность сталкивающихся пар ДО. Для учета взаимного расположения двух ДО, определим отклонение состояния рассматриваемого объекта от состояния объекта-помехи в текущий момент времени
дв (ь) = (Ь) - э3 (Ь) ,г = {1,2} (3.3)
и в предшествующий момент времени
дв (гр) = 8г (гр) - в3 (гр), (3.4)
где ] - номер ближайшего объекта-помехи, находящегося в локальной окрестности рассматриваемого ДО, э3 - состояние рассматриваемого ДО и его
ближайшего препятствия соответственно, г и гр - текущий и предшествующий моменты времени соответственно. Чтобы объекты могли продвигаться к терминальным состояниям, определим вектор отклонения текущего состояния рассматриваемого объекта от его терминального состояния
Аб* (г) = (г) - б}, (3.5)
где - терминальное состояние ДО г.
Из векторов (3.3), (3.4) и (3.5) формируем вектор
е (г) = [А§г (гр) А8* (г) А8 (г)]т, (3.6)
который будем подавать на вход системы разрешения коллизий объекта г.
Множество двух упорядоченных наборов, состоящих из начальных и конечных состояний двух ДО, будем называть сценарием и обозначать в виде множества из двух упорядоченных пар
ь = {(8* (го), (г})), № (го), в3 (г7))}, (3.7)
где г0,г} - начальный и коченый момент времени соответственно, г,^ = {1, 2}, г = ]. Если для пары выполняются условия (3.1), то будем говорить, что сценарий представляет взаимодействие ДО без столкновений. Если выполняется условие (3.2), то будем говорить о коллизионном сценарии или сценарии со столкновениями.
В качестве системы управления, доставляющей ДО в их терминальные состояния, используется система стабилизации [9]. С ее помощью генерируется множество сценариев, приводящих объекты к столкновениям или вхождению во взаимодействие без столкновений. Наличие сценариев взаимодействия без столкновений необходимо, так как система разрешения коллизий должна обучиться воспроизводить управление, снимаемое с выхода системы стабилизации. Далее, на основе множеств (3.7) формируется множество сценариев
У = {Ьч : д = {1,Ь}} , (3.8)
на котором осуществляется поиск замкнутой функции g(•) для адаптивной системы группового управления (3.7).
Инициализируем НС с весовыми коэффициентами е , где а -
число слоев аппроксиматора; ¡^ - число входов и выходов слоя w = 1, а соответственно. На множестве сценариев (3.8) будем осуществлять поиск оптимальных
функциональных связей u (£i), обеспечивающих минимум функционала качества L i Ч \
Е
9=1
J И = tf + Е ||As; (t)||2 + ||Asj (t)||2 + /£ (С (t)) dt
=4 0 У
—min, (3.9)
где
( . Ч) I 1, если R2 - 11As;(t)||2 ^ 0, dfc (t)) = ^ ' o 11 12 (3.10)
I 0 иначе .
Здесь t f = max {tfii : i = 1, 2} - максимальное ограниченное время процесса управления, которое может быть задано или определяться по достижении терминальных условий.
Для поиска оптимальных весовых коэффициентов аппроксиматора используем метод эволюционных стратегий [142]. На каждой эпохе e генерируем множество случайных, нормально распределенных векторов возмущения
Ф = (е1... еЛ), ек = [Xi,...,Xa]1 , (3.11)
где
Xw = N (0,I), Xw G Rlxq. (3.12)
Здесь к = 1, Л, ш = 1,а.
Суммируем матрицы возмущения (3.12) из множества (3.11) с текущей матрицей весовых коэффициентов О6 и получаем матрицы возмущенных весовых коэффициентов
Щ = О6 + епек, (3.13)
где а^ - стандартное отклонение, е - номер текущей эпохи. Формируем множество возмущенных весовых коэффициентов
Т = (П«,..., П1) . (3.14)
Для множества возмущенных весовых коэффициентов (3.14) проводится оценка значений функционала (3.9) на множестве сценариев (3.8) и получаем множество
А = (71 ,...,Зл ). (3.15)
Проводим упорядочивание функционалов (3.15) по возрастанию:
А = (Л ^ ... ^ Зс). (3.16)
Далее, осуществляем ранговое преобразование значений функционала (3.9), подставляя порядковые номера функционалов в функцию полезности
F = (/ < ... < /л), (3.17)
где
, ч max (ü, ln(Л + 1) - ln z)
f (z) = - , л -. (3.18)
ЕЛ=1 max (ü, ln (Л + 1) - ln к)
Здесь z - номер вектора возмущения, упорядоченного в соответствии с (3.16).
График применяемой функции полезности изображен на Рис. 3.13. Переход
Рис. 3.13. Функция полезности (3.18)
от значений оценок функционала к значениям функции полезности позволяет уменьшить влияние некачественных векторов в популяции и устраняет проблему раннего схождения алгоритма в точке локального минимума [142]. Как видно на Рис. 3.13, функция полезности (3.18) отсеивает половину векторов возмущения. Отсеянные вектора не участвуют в процессе обновления весовых коэффициентов 0,е, благодаря чему на итоговую корректировку весовых коэффициентов влияют только качественные вектора возмущения.
Получаем новые весовые коэффициенты
^ ^ _ «о £ д^) (3.19)
где а^ - шаг (скорость) обучения.
По завершении обучения получаем НС, реализующую замкнутую функцию управления
и* = Ь (С | ) , (3.20)
где О0 - обученные весовые коэффициенты нейронной сети.
3.4.1 Вычислительный эксперимент
В качестве объектов управления гомогенной группы используется гусеничный мобильный робот (3.14), где г = {1, 2}.
Определим множество начальных условий
^ = ) : Я е{1,...,Ь}} , (3.21)
терминальных состояний
% = {/, ) : Я е{1,...,Ь}} , (3.22)
пар роботов, приводящих роботов к коллизиям и взаимодействиям без коллизий в пропорции 1 : 1, где
^ = [Х0,гд У0,гд ©ОТ ,
'3 = [хо з Уоз бо,зя]Т ,
= [/ Уя /я] , = [Х1,3я У3 Т .
Здесь Ь = 200, величины 6 е [0, 2п], х,у е [-10,10] равномерно случайно распределены в указанных интервалах.
Из (3.21) и (3.22) формируем множество сценариев обучения
У = {Ьч : я е{1,...,Ь}} , (3.23)
где Ьд = { (э0'г, эО'3) , (8/'г, в/'3) }. Вектор
Двг (Ь) = 8} - 8г (Ь) = / - хг (Ь) уи - уг (Ь) 6/, - 6г (Ь)]Т (3.24)
определяет отклонение текущего состояния г-го робота от его терминального состояния 8}. Вектор
Д8г (Ь) = 8г - 83 (Ь) = [хг (Ь) - х3 (Ь) уг (Ь) - У3 (Ь) 6г (Ь) - 63 (Ь)]Т (3.25)
задает отклонение состояния г-го робота от состояния объекта-помехи ] в момент времени Ь е [0,/]. Вектор
двг (гр) = 8г - в3 (гр) = х (гр) - х3 (гр) уг (гр) - у3 (гр) бг (гр) - (гр)]т (3.26)
задает отклонение ¿-го робота от состояния объекта-помехи ] в предшествующий момент времени гр £ [0,£/].
Из совокупности векторов (3.24), (3.25) и (3.26) формируется результирующий входной вектор
В (г) = [Д8г (г) Д8 (г) Д8г (гр)]т, (3.27)
который будем подавать на вход системы разрешения коллизий.
Подлежащий минимизации функционал на множестве сценариев (3.23) имеет вид
J = / + £ (||Двг (г)||2 + ||Д83 (г)||2 + £ £ (в (г)) ¿г] , (3.28)
9=1 \ *=0 )
где
ь (г)) = 11, если я2 - (х (г) - X, (г))2 - (у (г) - у, (г))2 > о, I 0 иначе
- функция Хэвисайда, накладывающая на функционал (3.28) штраф за столкновение объектов,
л I г, если шах{г/^}'2=1 < г+, г'/ = 1
г+ иначе,
где г £ [0, / , г+ = 20 с - максимальное время симуляции движения пары роботов, г,^ = 1, 2, г = ]. Если выполняется условие
||8/ - 8г (г)||2 < 6, (3.29)
т
где 8г (г) = [х{ (г) у (г) Qi (г)] , 6 = 0,01 - допустимая ошибка, то полагаем, что г-ый робот (3.14) достиг терминального состояния.
В качестве аппроксиматора используем многослойный персептрон с двумя скрытыми слоями (3.13) - (3.15) по 100 нейронов в каждом. На вход первого слоя (3.13) будем подавать вектор Процедура обучения весовых коэффициентов отражена в алгоритме 7.
После завершения процесса обучения получаем оптимальные весовые коэффициенты НС, реализующей УСРК. Параметры поиска оптимальных весовых коэффициентов методом эволюционных стратегий представлены в Таблице
Алгоритм 7 Поиск оптимальных весовых коэффициентов НС методом эволюционных стратегий.
Ввод: Начальные весовые коэффициенты О0. Вывод: Оптимальные весовые коэффициенты О0. 1: Генерируются множества тестовых сценариев с коллизиями
D ^ {ф : I е {1,..., т}} и взаимодействия роботов без коллизий Ъ ^
{ц : I е {1,...,т}}; 2: Йг е ^ 1 to Е do
3: Генерируется смешанное множество обучающих сценариев
Ye Му : I е{1,...,с}};
4: Случайно нормально генерируются возмущения Ф = (е1,..., еЛ) ,
Я(0,ап) ••• N(0,ап)'
£к =
, k = 1, Л;
Я(0,ап) ••• Я(0,ап).
5: Вычисляются значения функционала (3.9) с учетом возмущенных весовых коэффициентов О6к = О6 + а^ек,
A = JY [щ) ,---,jyA [щ)) , k = 1,Л; ^ 6: Упорядочиваются значения функционалов A = JY ^ • • • ^ Jy) ; 7: Вычисляются значения функции полезности F = ( ф1 ^ • • • ^ фЛ),
где ф1 = f (Л), фЛ = f (Z); _
8: Оставляются у лучших возмущений Ф = (е1,..., eY);
9: Корректируются весовые коэффициенты ^e+1 ^ Qe — c^ Ф9 .
10: end for
П.7 приложения П.1. Программный код, реализованный на языке программирования Python, представлен в приложении П.2.
На Рис. 3.14 и 3.15 изображена стагнирующая динамика функционала (3.28). Рис. 3.14 отражает зависимость функционала качества от количества эпох на обучающей выборке из 100 сценариев, сгенерированных в начале каждой эпохи. Среди 100 сценариев одну половину составляют сценарии с коллизиями, вторую - взаимодействия без коллизий. Более ярко выраженный характер обучения можно увидеть на Рис. 3.15, на котором отражены усредненные значения функционалов тестовых выборок.
На Рис. 3.15 изображены усредненные значения функционалов 80-ти сценариев взаимодействия роботов без коллизий и 80-ти сценариев с коллизиями. Пунктирной линией отражена динамика функционала на тестовом множестве
Рис. 3.14. Зависимость значений функционала (3.28) от количества эпох на
обучающем множестве Ye
сценариев взаимодействия Ъ, сплошной - динамика на тестовом множестве сценариев с коллизиями D
Рис. 3.15. Зависимость значений функционала от количества эпох на тестовых
множествах D, Ъ
Во время обучения на каждой эпохе сохраняются текущие весовые коэффициенты, за счет чего по истечении заданного количества эпох есть возможность выбора весовых коэффициентов. В данном эксперименте сделан выбор в пользу весов, соответствующих минимальному значению функционала, так как в данном случае общее число коллизий на тестовых множествах минимально.
Для тестирования синтезированной системы разрешения коллизий были выбраны тестовые сценарии, начальные и конечные состояния которых не принадлежат обучающему множеству Уе. На Рис. 3.16, 3.19 представлены тестовые сценарии взаимодействий пар роботов с коллизиями, на Рис. 3.22 - тестовый сценарий взаимодействия пары роботов без коллизий. Пункты а) и б) отражают траектории роботов для одного набора начальных и терминальных условий без применения синтезированной системы разрешения коллизий и с ее применением соответственно. Пунктирной линией обозначены участки траекторий, на которых были зафиксированы коллизии. Сплошной линией отмечены участки траекторий без коллизий. Начальные состояния роботов обозначены цифрами, которые соответствуют их порядковым номерам. Терминальные состояния обозначены крестами.
Функции управления первого и второго роботов изображены на Рис. 3.17, 3.20, 3.23 и 3.18, 3.21, 3.24 соответственно.
-2 --4 -
У -б --8 --10 -
-2 --4 -
У-6--8 --10 -
0 2 4 6 8
X
б)
Рис. 3.16. Сценарий с коллизиями № 1. Траектории роботов: а) без применения
УСРК; б) с применением УСРК
Из Рис. 3.16, 3.19 и 3.22 можно сделать вывод, что синтезированная ней-росетевая система управления успешно разрешает коллизии. Наличие скачков в функциях управления, изображенных на Рис. 3.17, 3.18, 3.20, 3.21, 3.23 и 3.24 обусловлено переключениями между системами стабилизации и разрешения коллизий при помощи ступенчатой функции. Однако, как можно видеть из сценария № 3, эти скачки не привели к изменению траекторий роботов и не привели к их столкновениям, о чем свидетельствуют Рис. 3.23 и 3.24.
а)
0.00 -
0.00-
а)
и2
20
40
б)
Рис. 3.17. Управления на гусеницах первого робота, соответствующие сценарию № 1: а) без применения УСРК; б) с применением УСРК
и2
а)
и2
20
40
б)
Рис. 3.18. Управления на гусеницах второго робота, соответствующие сценарию № 1: а) без применения УСРК; б) с применением УСРК
Для применения полученной системы разрешения коллизий на группе, состоящей из N > 2 роботов, необходимо перенести синтезированную УСРК на борт каждого робота. При одновременном нахождении в локальной окрестности рассматриваемого ДО (3.1) нескольких объектов-помех, определяется расстояние до ближайшего из них и его номер:
у, (Ь) =шт {| (Ь) - 83 (Ь)||2 : г,] = {1,... N}} , в (Ь) = е^шт { | |вг (Ь) - 83 (Ь) 112 : г] = {1,... N}} ,
а)
б)
Рис. 3.19. Сценарий с коллизиями № 2. Траектории роботов: а) без применения
УСРК; б) с применением УСРК
1110.50 -
\ и2-
\
"V
а)
Л и2-
\
-
20
40
20
40
б)
Рис. 3.20. Управления на гусеницах первого робота, соответствующие сценарию № 2: а) без применения УСРК; б) с применением УСРК
где N - число ДО в группе, г = ]. Если несколько объектов-помех находятся на одном расстоянии от рассматриваемого объекта, то учитываем состояние объекта, идущего первым в списке рассматриваемых объектов-помех. В результате объединения системы стабилизации и системы разрешения коллизий получаем систему управления группой роботов. На Рис. 3.25 изображены состояния группы, осуществляющей перемещение из формы буквы "А" в форму буквы "Ю", в начальный и конечный момент времени. Цветными точками изображены роботы, черными квадратами - их терминальные состояния. До начала моделирования
0.00 --0.25 -
их
-0.50-0.75 -
0.00-0.25 -
-0.75 -1.00
б)
Рис. 3.21. Управления на гусеницах второго робота, соответствующие сценарию № 2: а) без применения УСРК; б) с применением УСРК
У5
У 5
4 б 8 10
X б)
Рис. 3.22. Сценарий взаимодействия роботов без коллизий № 3. Траектории роботов: а) без применения УСРК; б) с применением УСРК
каждому мобильному роботу присваивается терминальное состояние, которое не меняется в ходе моделирования. Подразумевается, что каждому роботу назначается уникальное терминальное состояние, которое не займет другой робот. Как можно видеть из Рис. 3.25, все роботы переместились в терминальные состояния в пределах допустимой погрешности (3.29).
На Рис. 3.26, 3.27, а), б) изображены промежуточные состояния группы в процессе перестроения без применения системы разрешения коллизий и с ее применением соответственно.
а)
а)
Щ
1.0-г
0.5-
0.0-
1.0 Н
и2
а)
0 20 40 0 20 40
б)
Рис. 3.23. Управления на гусеницах первого робота, соответствующие сценарию № 3: а) без применения УСРК; б) с применением УСРК
и2
а)
20 40
б)
Рис. 3.24. Управления на гусеницах второго робота, соответствующие сценарию № 3: а) без применения УСРК; б) с применением УСРК
6 3
Уо -3 -6
-6 -3 0 3 6
X
У ■
I- й
у
-6 -3 0 3 6
X
а) б)
Рис. 3.25. Состояние группы роботов: а) начальное; б) конечное
Как видно на Рис. 3.26, синтезированную систему управления на базе двух нейросетевых блоков можно использовать в группах, состоящих из N > 2 робо-
72
X к '
■ ■/ • ■ • •
X X X
а)
■ •• ■ # ■ ■ • •
■6 -3 0 3 6 6-3 0 3 6 ■6 -3 0 3 6
X X X
б)
Рис. 3.26. Состояние группы роботов в разные моменты времени: а) с применением УСРК; б) без применения УСРК
■ • к* ♦ ■ ■ . ■ ■
X X X
а)
X
X"
-6 -3 0 3 6 -6-3 0 3 6 -6 -3 0 3 6
X X X
б)
Рис. 3.27. Состояние группы роботов в разные моменты времени: а) с применением УСРК; б) без применения УСРК
тов. Однако, стоит заметить, что при сближении большого количества роботов, полученная система разрешения коллизий не всегда способна разрешить коллизии, о чем свидетельствует Рис. 3.27. Некоторые роботы могут блокировать друг друга, в результате чего роботы могут нарушить фазовые ограничения. Более то-
го, в таком случае не все роботы могут успеть попасть в терминальные состояния за отведенное время моделирования.
3.5 Синтез универсальной вероятностной системы разрешения коллизий
(УВСРК)
Для двух ДО, функционирующих в ограниченном пространстве, возможно существование нескольких маршрутов объезда препятствия, а иногда эти маршруты могут быть равно оптимальными. Например, подобная ситуация может возникнуть для двух гусеничных роботов, движущихся навстречу друг другу, задача которых состоит в том, чтобы попасть в начальное состояние движущегося навстречу робота.
Чтобы система разрешения коллизий была способна учитывать оптимальность альтернативных маршрутов объезда препятствий в реальном масштабе времени, в диссертации предлагается синтезировать функцию смешанного вероятностного распределения [143; 144] управляющих воздействий. Для этого используем специальную НС, которая будет выдавать на выходе параметры отдельных распределений. Особенность этой НС состоит в том, что она позволяет моделировать любую функцию плотности вероятностей.
Функция плотности вероятности формируется на основе линейной комбинации ядерных функций
к
р (и | *) = £ а, (В) ф, (и | В), (3.1)
9=1
где к - количество ядерных функций (функций распределения), составляющих смешанное распределение, и - вектор управления, В - вектор невязок, д = 1, к. Параметры ад (В) представляют коэффициенты смешивания и являются априорными вероятностями управления и. Функция ф9 (и | В) обозначает условную плотность вероятностей, где в качестве случайной величины выступает управление и. Ядерные функции задаются в виде нормальных распределений
1
\\u-Vg (Е,)\\1
ф9(и 1 = (а^ад (£)"' (32)
где вектор ц9 (В) - математическое ожидание д-го ядра, т - размерность вектора управления.
Функция (3.1) способна генерировать оптимальную плотность вероятностей (3.2) для любого подаваемого на вход вектора невязок Для этого необходимо задать следующие параметры смешанной модели: априорные коэффициенты смешивания ад (£,), математические ожидания цд (£,) и среднеквадратические отклонения ад (£) как функции от Эти зависимости можно получить на выходе многослойного персептрона, принимающего на вход вектор Достаточное число ядерных функций и многослойных персептрон с достаточным числом нейронов в скрытых слоях формируют вычислительную модель, которая может сколь угодно точно аппроксимировать любую функцию плотности вероятностей [145].
Априорные коэффициенты смешивания ад (£) должны удовлетворять равенству
(3.3)
д=1
Соблюдение условия (3.3) достигается за счет нормализации соответствующих выходов персептрона при помощи softmax-слоя [146].
в*9
ад =
Ее в*
(3.4)
где - с-ый выход персептрона.
3.5.1 Вычислительный эксперимент
В вычислительном эксперименте используется постановка задачи из разд. 3.4.1 и описанный в нем алгоритм поиска оптимальных весовых коэффициентов ап-проксиматора.
Алгоритм функционирования двух скрытых слоев НС соответствует (3.13) и (3.14) за тем исключением, что на вход первого слоя в данном эксперименте подается вектор Функционирование последнего слоя (3.15) отличается тем, что компоненты выходного вектора подаются на вход различных функций активации. В результате скалярного произведения матрицы весовых коэффициентов (3.15) на вектор, полученный на выходе слоя (3.14), получаем выходной вектор
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.