Некоторые задачи игрового управления тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Ладейщиков, Александр Николаевич

  • Ладейщиков, Александр Николаевич
  • кандидат науккандидат наук
  • 2013, Екатеринбург
  • Специальность ВАК РФ05.13.18
  • Количество страниц 125
Ладейщиков, Александр Николаевич. Некоторые задачи игрового управления: дис. кандидат наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Екатеринбург. 2013. 125 с.

Оглавление диссертации кандидат наук Ладейщиков, Александр Николаевич

Оглавление

Введение

1. Задача конфликтного управления при неполной запаздывающей информации

1.1. Движение объекта

1.2. Критерий качества процесса управления

1.3. Информационный образ

1.4. Стратегия и закон управления. Движение, порожденное законом управления

1.5. Движение информационной У-системы

1.6. Запаздывание информации

1.7. Вспомогательный критерий качества

1.8. Постановка задачи для у*

1.9. Программный стохастический синтез

1.9.1. Движение виртуальной 1 -модели

1.9.2. Программный экстремум

1.10. Оптимальная стратегия. Экстремальный сдвиг

2. Задача игрового управления при дефиците информации

2.1. Движение нелинейного объекта

2.2. Показатель качества

2.3. Постановка задачи для первого игрока

2.4. Постановка задачи для второго игрока

2.5. Седловая точка. Цена игры

2.6. Дифференциальная игра - 2

2.6.1. Позиционный функционал. Существование

решения в дифференциальной игре - 2

2.6.2. Виртуальная w-модель-лидер

2.6.3. Сопутствующие точки. Экстремальные стратегии üe(-),Öe(')

2.7. Дифференциальная игра - 3

2.7.1. Экстремальные стратегии ие (•) , Vе (•)

2.7.2. Существование решения в дифференциальной

игре-3

2.8. Существование решения исходной дифференциальной

игры

3. Моделирование одной задачи игрового управления

3.1. Модельный пример

3.2. Численный эксперимент

3.3. Алгоритм управления

3.3.1. Алгоритм для м(-) = м°(-) и v(-) = u°(-)

3.3.2. Алгоритм для и(-) = и°(-) и

3.3.3. Алгоритм для и и(-) = и°(-)

3.4. Программа реализации алгоритма управления

3.4.1. Программа для и(-) = и°(-) и и(-) = о°(-)

3.4.2. Программа для и(-) = и°(0 и

3.4.3. Программадля и и(-) = и°(-)

Список литературы

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Некоторые задачи игрового управления»

Введение

Задачи игрового управления, вызванные в свое время практическими задачами, обрели в последние годы форму строгой теории, развивающейся в рамках общей математической теории управления движением. В настоящее время эти задачи рассматриваются в теории дифференциальных игр. При этом усилия многих исследователей в этой области направлены не только на выяснение формальной структуры дифференциальной игры как математически идеализированного предмета, ной на поиски таких подходов к решению задач, которые могли бы привести к результатам, отвечающим возможным запросам практики. Такому становлению и развитию дифференциальных игр способствовали работы Р. Айзекса [1], Л.С. Понтрягина [36, 43 - 46], H.H. Красовского [20 -26, 79], В.Д. Батухтина [67], В.Г. Болтянского [3, 45], Р.В. Гамкрелидзе [45, 76], Н. Калтона [72], А.Н. Красовского [7-9, 78, 79], A.B. Кряжимского [27, 80], A.B. Куржанского [28], Н.Ю. Лукоянова [33], A.A. Меликяна [60], З.Ф. Мищенко [35, 36, 45, 46], М.С. Никольского [37, 38], Ю.С. Осипова [39, 80], H.H. Петрова [41], Л.А. Петросяна [42], Б.Н. Пшеничного [47 - 49], И. Роксина [81], А.И. Субботина [23, 51, 52], H.H. Субботиной [51, 53], В.Е: Третьякова [19, 24, 25, 26, 55], В.И. Ухоботова [56, 82]В.Н. Ушакова [57], В. Флеминга [73], А. Фридмана [74, 75], Ю.Хо [77], А.Г. Ченцова [52, 58], Ф.Л. Черноусько [59, 60], A.A. Чикрия [61], А.Ф.Шорикова [65], Р. Эллиота [72], и других авторов.

Математическая модель дифференциальной игры складывается, как известно, из уравнения движения объекта, ограничений, накладываемых на управления игроков и, возможно, на фазовые координаты, а также из цели игры, характеризуемой обычно некоторым критерием

качества процесса управления У и вида информации (информационного образа) используемого при построении оптимального алгоритма (стратегии) управления. Он задается функционалом от движений объекта -решений соответствующих дифференциальных уравнений. При этом вид целевого функционала определяет подчас степень трудности решения игры и характер той информации (достаточного информационного образа), на которую целесообразно опираться игрокам при построении стратегий ведения игры.

В связи с этим в теории дифференциальных игр остается еще ряд невыясненных вопросов принципиального характера о существовании оптимальных решений в той или иной форме синтеза управляемой системы по принципу обратной связи. Известны трудности, связанные с непосредственной формализацией дифференциальных игр на основе отождествления стратегий с такими управлениями - функциями от текущих позиций, которые удовлетворяли бы стандартным теоремам о существовании решений соответствующих дифференциальных уравнений. Эти трудности вызвали к жизни обобщенные формализации дифференциальных игр, которые рассматривались в ряде работ [1, 7, 23, 41, 42, 60, 62, 67, 72-74, 79] упомянутых выше авторов. Были развиты

формальные процедуры, доставляющие некоторые величины р°, которые можно было бы назвать по определению ценой игры. Большинство таких конструкций базируется на предельном переходе по величине У от подходящих многошаговых процедур или от подходящих стохастических игр для систем с исчезающим шумом. В работах [27, 52, 58, 72] развиты конструкции, где стратегии (квазистратегии) формализуются как операторы, которые определяют отклик в текущий момент I одного из игроков на историю действий его противника вплоть до этого момента

времени t. В работах [21, 81] предложены аксиоматические определения стратегий, движений и соответствующих игровых задач управления. В работах [37, 39, 59, 64] рассматривались задачи игрового управления, в которых один из игроков получает информацию о положении системы с постоянным запаздыванием. В работах [3, 21, 23, 35, 36, 39, 43, 46, 48, 59, 76, 79] разработана стройная формальная модель игрового управления, делающая акцент на одну из двух противоположных задач, из которых можно составить дифференциальную игру. Эта модель позволила выяснить принципиальные вопросы строения дифференциальных игр. В то же время на основе этой модели оказалось возможным разработать методы построения разрешающих управлений для важных игровых задач сближения и уклонения.

Основой для формализации позиционной теории антагонистических дифференциальных игр послужила известная теорема об альтернативе H.H. Красовского и А.И. Суботина [23].

Среди существенных задач позиционной теории дифференциальных игр можно назвать выяснение условий, при которых возможно формирование управляющих воздействий на основе информации только о достаточном информационном образе и притом о возможности формирования управлений на основе этой информации так, чтобы одна и та же такая универсальная стратегия работала как оптимальная, начиная с любой возможной позиции. Этот вопрос и составляет предмет исследования в данной работе.

Структура и объем работы. Диссертация состоит из введения, трех глав основного содержания и списка литература. Общий объем диссертации составляет 125 страниц, включая 8 рисунков. Список цитируемой литературы включает 83 наименования.

Краткое содержание работы. Перейдем к рассмотрению основных результатов, полученных в диссертации.

В первой главе для конфликтно управляемой динамической системы, описываемой обыкновенным векторным линейным уравнением, в игровой постановке, рассматривается задача об оптимальном управлении по принципу обратной связи, при неполной информации о динамической помехе и при запаздывающей неточной информации о значениях фазовой переменной, характеризующей текущее состояние системы. Критерий качества процесса управления у задается в виде функционала от движения объекта и реализации управляющих воздействий и помех. Задача на минимакс критерия качества решается в классе чистых стратегий в рамках концепции дифференциальных игр, разработанной в Свердловске (ныне Екатеринбурге). При решении рассматриваемой в первой главе задачи используется метод программного стохастического синтеза [19, 26, 55] и метод экстремального сдвига на сопутствующие точки [8, 79]. Устанавливается оптимальная стратегия управления.

Основным результатом первой главы является следующая

Теорема 1.2 Построенная чистая стратегия управления и°(■) = и0(?,У,£) является оптимальной универсальной стратегией для задачи конфликтного управления для линейной динамической системы с рассматриваемым критерием качества процесса управления УПри этом стратегия и°{-) = и0(/,У,б) строится как экстремальная к функции оптимального гарантированного результата Ри (') = Ри (*> гДе У = ~ информационный элемент (образ),

зависящий от параметров управляемой системы и вида критерия качества процесса управления (функционала) у. Фигурирующая в выражении

стратегии и°((,У,е) величина б > О есть некоторый параметр точности [7, 66]. Он не является информационной переменной, выбирается и фиксируется нами до или в момент начала решения задачи, участвует в построении оптимальной стратегии методом экстремального сдвига [8, 9] на элементы (точки), сопутствующие информационному образу У = / и влияет на точность решения задачи.

Считаем, что решение задачи об оптимальном управлении в рассмотренной в первой главе постановке, то есть при условиях одновременного дефицита информации о действующих помехах, времени запаздывания поступления информации и неполной информации, является новым элементом теории конфликтного управления динамическими системами.

Результаты первой главы опубликованы в работе [11].

Во второй главе рассматривается задача об оптимальном управлении по принципу обратной связи нелинейной динамической системой при дефиците информации о действующих помехах. Рассматривается случай, когда правая часть дифференциального уравнения движения системы удовлетворяет так называемому условию седловой точки для маленькой игры [34]. Критерий качества процесса управления у так же, как и в первой главе, зависит от движения и управляющих воздействий, но имеет более общий вид. Задача на минимакс-максимин гарантированного результата для заданного критерия качества у формализуется в антагонистическую дифференциальную игру двух лиц. Задача решается в классе чистых позиционных стратегий

и(-) = и(-) = и^,х,е), соответственно, первого и второго

игроков. То есть в данном случае в качестве информационного образа используется текущая позиция х), т.е. пара - момент времени t и значение х = хУ\ фазового вектора конфликтно-управляемого х-объекта. Фигурирующая в выражениях для стратегий игроков величина 8 > 0, выбирается здесь самостоятельно, каждым из игроков, то есть £ = £и для стратегии и^,х,е) первого игрока, вообще говоря, не совпадает с параметром точности £ = £0 для стратегии и^,х,е). Эти параметры, как и в задаче из первой главы, не являются информационными переменными, участвуют в конструировании оптимальных стратегий и°(-) = и°^,х,£) и и°(•) = о®(1,х,б) , и влияют только на точность решения задачи первым и вторым игроком. Устанавливается существование цены р°^,х) и позиционной седловой

точки {и0(-) = и0У,х,£), и°(-) = *,£■)} рассматриваемой антагонистической дифференциальной игры. Основным новым элементом предложенным в диссертационной работе и рассматриваемым в этой главе является оригинальное доказательство теоремы существования оптимальных решений. А именно, в рассмотрение вводятся две вспомогательные дифференциальные игры-2 и 3. В дифференциальной игре-2 рассматривается вспомогательный критерий качества у, который является позиционным [8, 9]. Тогда для некоторого вспомогательного х -объекта устанавливается существование цены игры седловой

точки {и°(-) = и°((,х,£), и°(-) = и°(г,х,£)}. Переходя к

дифференциальной игре -3 с критерием качества у и расширенного х -объекта решается задача уже в классе исходных чистых позиционных

стратегий и°(-) = и°^,х,е) и и0(•) = и°^,х,е). Устанавливается существование седловой точки

{и°(') = и°(1,х = {х,хп+1=0},8), и°(-) = и°^,х = {х,хп+1=0},£)} и

цены игры р1^,х) = р\(¿,х). Далее доказывается, что цена

дифференциальной игры-3: Рз((,х = {х, хп+х = 0}) равна цене исходной дифференциальной игры для х - объекта с критерием качества у .

Решение задачи базируется на методе экстремального сдвига на сопутствующие точки. Существенную роль при решении поставленной задачи играют некоторые виртуальные (компьютерные) модели, играющие роль поводыря (лидера) [78] для реального конфликтно управляемого объекта.

Основным результатом второй главы является следующая Теорема 2.3. Дифференциальная игра для рассматриваемой нелинейной конфликтно-управляемой динамической системы с заданным критерием качества У имеет цену

р (/, *) = х = {х, х{

п+1) 0}) и седловую точку

{и0 (•) = и0 и°(-) = , складывающуюся из

экстремальных стратегий ие(-) = ие(1,х = {х,хп+1= 0},£г) и

ие{-) = Vе{$, х = {х, хп+1 = 0}, ё).

Результаты первой главы опубликованы в работе [12].

Подчеркнем, что все стратегии, построенные в первой и второй главе, являются универсальными [23], то есть работают по одному и тому же правилу, начиная с любого текущего момента времени I = 1 ,...,к в схеме управления по принципу обратной связи.

В третьей главе разработан универсальный алгоритм для построения оптимального позиционного управления и вычисления цены антагонистической дифференциальной игры в рассматриваемых в диссертации задачах игрового управления. Разработан комплекс (пакет) программ реализации разработанного алгоритма на языке Pascal. Результаты работы алгоритма и работоспособность программ иллюстрируются при решении модельного механического примера. Приводятся результаты численной симуляции решения рассматриваемого примера на ЭВМ при различных способах выбора управлений и помех. Приводится алгоритм решения примера и подробное описание программы, реализующей этот алгоритм.

Результаты третьей главы опубликованы в работе [12]. На разработанный комплекс (пакет) программ для ЭВМ для реализации алгоритма оптимального позиционного управления и вычисления цены антагонистической дифференциальной игры получено авторское свидетельство [13].

Теоретические результаты, приведенные в диссертации, базируются на работах авторов [7- 19, 78, 79].

Апробация работы. Основные результаты диссертации докладывались на конференциях: 14-ой, 15-ой отчетной научно-практической конференции молодых ученых УГТУ - УПИ (Екатеринбург, 2008, 2009), 4-ой научно-практической конференции молодых специалистов, аспирантов и студентов "Информационно-математические технологии и экономическое моделирование" (Екатеринбург, 2010), 19-ой Международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов-2012» (Москва, 2012), 5-ой Всероссийской научно-технической конференции «Безопасность критичных инфраструктур и

территорий», 20-ой Международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов-2013» (Москва, 2013), на научных семинарах кафедры вычислительной математики ФГАОУ ВПО «УрФУ имени первого Президента России Б.Н.Ельцина» и отдела управляемых систем ФГБУН «Институт математики и механики имени H.H. Красовского».

Публикации. Материал диссертации опубликован в 2 статьях в рецензируемых научных журналах, определенных ВАК [11-12], в монографии [14], в тезисах докладов. На разработанный комплекс программ имеется свидетельство о государственной регистрации программ для ЭВМ [13].

В указанных работах, выполненных совместно с А.Н. Красовским, последнему принадлежат постановки и методы решения задач, а автору диссертации разработка оптимальных алгоритмов управления, доказательства теорем существования решений для рассматриваемых классов задач игрового управления, разработка программ для реализации алгоритмов и доведение их до численных экспериментов на ЭВМ.

Глава 1

ЗАДАЧА КОНФЛИКТНОГО УПРАВЛЕНИЯ ПРИ НЕПОЛНОЙ ЗАПАЗДЫВАЮЩЕЙ ИНФОРМАЦИИ

1.1 Движение объекта

Рассматривается объект, движение которого описывается обыкновенным векторным дифференциальным уравнением

х = А (*)* + В (/)и + С (О у, tQ (1.1)

Здесь х - п -мерный фазовый вектор управляемого объекта; t-время, моменты времени t(> \л & зафиксированы; и - г -мерный вектор управления, и - £ -мерный вектор помехи. Все векторы трактуются как векторы-столбцы, т. е.

"х, их

X 2 и2 и 2

X = , и = и _ Г _ О =

Вектор управления и и вектор помехи и стеснены условиями,

и е Р, и е (), (1.3)

где Р и (2 - ограниченные замкнутые множества векторов, т.е. -компакты. Они определяют ресурсы соответственно управляющего органа и и органа V , вырабатывающего помехи.

В (1.1) А(/), В (О, С (О - матрицы-функции

аи(0. . .а1пЦ)Л

А(0 =

МО- • - я*, (О

Л1 (О - • -МО

в( о =

АЛО- • -МО

(1.4)

С„(0- • -МО

С(0 =

С», (0- ■ -МО

МО, / = р = 1.....Г,

МО, У = д = 1,...,^

- суть кусочно-непрерывные функции времени t, допускающие разрывы первого рода и непрерывные справа.

Кроме того, матрицы-функции В({), С (7) такие, что

|А(0|.<М,, |В(0|,<М5, \С (7)|*< мс, (1.5)

где М А, М в, М с - константы, символ |2)(/)|„, означает евклидову норму матрицы О (7), то есть число, удовлетворяющее условию

Здесь и ниже символ \х\ означает евклидову норму для вектора

л: то есть число /

1*1= (х? + ... + х2пУА. (1.6)

Уравнение (1.1), с учетом (1.2), (1.4), в подробной записи принимает

вид

Чдо. • "х, "

Л. ,««1(0- • •апп (0,

'МО- • -Мо

+

МО - • -МО

и,

+

+

МО- . - МО

У,

Движение объекта (1.1) на произвольном промежутке времени

с [/0, .9 ] порождается некоторыми управлениями и помехами, которые определим следующим образом. Будем называть управлением (допустимым) «[**[•]О на полуинтервале [¿,,0, tQ^^t^f<t*<3 кусочно-непрерывную функцию = {u[í]e Р, </</*}.

Помехой (допустимой) на полуинтервале [¿*,0 будем

называть измеримую по времени £ функцию

В соответствии с общепринятым введем следующее

Определение 1.1. Позицией х = х{1) -объекта (1.1) называется пара х}, состоящая из момента времени ^ и значения фазового вектора х = .

Из данной исходной позиции управление и^^-^*) и

порождают движение = ¿„<¿<,9} -

абсолютно непрерывное решения управления (1.1), то есть

х = А (/)х[/] + В (0«1>]+ С (О^И, < * < *[/.] = х,.

(1.8)

Согласно формуле Коши [12], имеем

/

х[г] = Х(М*К + {х(?,г)(В(г)м[т] + С(г)и[г])£/г,

к

(1.9)

Здесь X(t,т)- фундаментальная матрица решений однородного дифференциального уравнения х = А (?) х .

Итак, будем использовать следующее

Определение_1^2. Движением х -объекта

] = ]> описываемого обыкновенным

векторным дифференциальным уравнением (1.1.), порожденным на отрезке времени из исходной позиции управлением

иУЛ'У*) и помехой называется решение (1.9)

дифференциального уравнения (1.8).

По построению движения функция *[/,[•]/* ] = {*[?], <t < является абсолютно непрерывной функцией времени ?.

1.2 Критерий качества процесса управления

Для процесса, включающего в себя на отрезке времени 19]:

1. Движение

2. Реализацию управления и[а-]&]={и[ПеР, и<1<&}

3. Реализацию помехи

будем рассматривать критерий качества процесса управления У следующего вида

9 9 Ц 10)

'о 'о

Здесь х - некоторый фиксированный я-мерный вектор. В (1.10) ^(0 и у/ (О суть заданные кусочно-непрерывные функции времени (р^)> а, ц/ (г) > р,, где а > О, Р > 0 - заданные числа.

1.3 Информационный образ

Будем рассматривать такой случай, когда информация о состояниях идет с запаздыванием и с искажением. Текущую информацию при

t > t0 + к, где к > О величина запаздывания, будем использовать в виде «-мерного вектора х*[7],где

х*|>] = х|>-/г] + Ах*[/], 1>И0 + к. (1.11)

Начальное фазовое состояние *1А] = хо объекта также сообщается с искажением. Обозначим

х^=х0+Дх^. (1.12)

Целевое конечное фазовое состояние х также сообщается с искажением. Обозначим

х* = х + Ах*. (1.13)

При этом величины х^ (1.12) и х* (1.13) сообщаются нам заранее. Полагаем, что они известны уже в некоторый момент < ¿0/ который уточним ниже. От момента времени до момента времени + ^ управление + к) = {и[1]е Р, ¿0 < Г < г0 + Л }

определяется лишь информацией об и х*. Начиная с момента времени io + k, управление м[/0 + А[-]/) = {м[г]е/>, t0 + h<т<t} определяется еще и информацией об х*[?] (1.11). При этом, несмотря на содержательный смысл величин х*0 и х*[/], вытекающий из (1.11), (1.12), не будем требовать, чтобы обязательно выполнялось равенство

х*^0 + к] = х^.

Определение 1.3. Информационным образом (элементом) в начальный момент времени t = t0 называется пара

Определение 1.4. Информационным образом (элементом) при + к назовем совокупность компонент

При этом при t е [¿0 + к, .9] предполагается возможным запоминание истории + /*[•]*] = {х*[т], tQ + h<т<t} и реализации выработанного управления = {и[т]е Р, t0<т<t}.

В (1.15) уи0[-]1] = {у[т1 (0<г<1) - (и + 1)- мерная вектор-функция, такая, что у[т] = {у[т],уп+,[?"]}, где п- мерный вектор у складывается из первых п координат вектора у .

У[*0] = {х*0,х*}.

(1.14)

(1.15)

Л'оН']}, 1, + к<1<3.

Положим

г

(1.16)

г 'о

(1.17)

Согласно (1.16), (1.17), изменение во времени t переменных У[1] = {Ух^Ъ-чУп^]) и ЯиЛО описывается дифференциальными уравнениями

Я*] = Х(,9,ОВ(Ои[0,

(1.18)

(1.19)

с начальными условиями

Я*о] = {0,...,0}, о] = 0.

(1.20)

Определение 1.5. Назовем допустимыми в (1.15) кусочно-непрерывные функции **[•] ив (1.16)-(1.19) - измеримые, ограниченные (каждая своей постоянной) функции и[-].

Итак, информационные элементы (1.14) и (1.15) определяют

информационную У - систему.

Определение 1.6. Назовем пару состоящую из

момента времени t и информационного образа информационной

позицией У - системы.

1.4 Стратегия и закон управления. Движение, порожденное законом управления

Определение 1.7. Назовем стратегией и{-) функцию

и(-) = У, е), tQ<t<3, £ > 0},

(1.21)

определенную для всех возможных значений информационного элемента

Здесь б > 0 - параметр точности [8, 79]. Он не является информационной переменной, а влияет на точность решения задачи. Он выбирается нами в момент времени í0 и фиксируется на все время решения задачи.

Определение 1.8. Назовем разбиением А{/(} отрезка времени [¿0,19] точками г = 0,...,/

У .

(1.22)

/ = 0,...,/-1, = 3}.

Определение 1.9. Законом управления и называется

совокупность трех компонент

(1.23)

При фиксированных значении е > 0 и разбиении (1.21)

закон управления и (1.23) формирует управление = Р, ¿о - * < ^ } следующим образом.

При t0 < t < = + к имеем

иКМ',) = {"['] = ОеЛ 'о (1.24)

где и(/,У[^0],е) при фиксированных (1.14) и £ есть некоторая

измеримая по ^ функция.

Далее при < ¿< / = 1,...,/-1 полагаем

«['/И*,= =

(1.25)

где есть информационный элемент (1.15).

Повторим, что в качестве неизвестной помехи будем

допускать любую измеримую по времени ? функцию

= (1.26)

Определение 1.10. Движением ] = {*[/], ^^¿<,9},

порожденным законом управления II (1.23) в паре с неизвестной нам помехой при неизвестном нам исходном состоянии

х[/0] = х0/ называется решение

(1.27)

дифференциального уравнения

х[1] = A(t)x[í] + B(t)u(t,Y[t0 ], е) + С(/)ф], < г < + к, *[/0] = х0,

склеенное непрерывно с непрерывным решением

хУ,+к[-}$] = {х^1[-]1м} = {х{(}, íi<t<íм}, 1 = 1,...,/-1} пошагового дифференциального уравнения

x[t] = A(t)x[t] + B(t)u(ti,Y[ii], €) + С (i)u[t],

tt<t< tM,i = 1,..., / - 1, x[tx] = x[t0 + h]. (1.28)

1.5 Движение информационной У - системы

Параллельно с действительным движением закон

управления U (1.23) формирует в информационной У - системе (1.14), (1.15) воображаемое движение. Это движение есть эволюция информационного образа (элемента) У[*]} t = t0, tx<t<3

(Определение 1.4.). Его компоненты и х* остаются неизменными. Функция y[t0[-]$] = {y[t] = {y[t],yn+l[t]}, t0 <&} формируется нами как решение следующих дифференциальных уравнений

уп+1[^0] = 0,

(1.29)

(1.30)

Яг] = х(^ОВ(Ом(/,Л[г.], ¿г), ti<t<tм, / = !,...,/-!, Ж^Л'о + Н

(1.31)

(1.32)

Будем трактовать ситуацию так, что сообщаемая нам компонента Л*„ + Л№] ~ информационная история + в составе

г = 1, 2,..., / формируется некоторым вторым игроком независимо от нашей воли. В этой «картине» берем на себя роль первого игрока, формирующего управление и[(0[-]3) = {и[1] е Р, ¿0</<«9}. Динамическая помеха (1-26), действующая на х-объект,

полагается неизвестной в течение всего процесса управления. Она также формируется вторым игроком. Также вторым игроком определяются и

известные нам величины Хд, х* и неизвестные нам в течение всего процесса величины х0 и х .

1.6 Запаздывание информации

Поясним более подробно содержательный смысл запаздывания использования информации. Величина h не есть, вообще говоря, только время запаздывания подачи информации о состояниях х[г] в орган управления. Величина h - это суммарное время, которое складывается из времени h* запаздывания подачи информации в ЭВМ в органе управления, из времени /г* на подсчет в ЭВМ значения u[t]

управляющего воздействия и из времени h передачи и [7] на х-объект. Итак,

h = h*+hm+h. (1.33)

При этом полагаем

tM-ti>h„ i = l,...,l-\, (1.34)

где tj и ti+x -моменты из разбиения A{i(.} (1.22).

Полагаем, что и х* известны уже при tQ = tQ - h - h*. По постановке задачи полагаем, что в моменты времени T*(t) = t - h - h*, t0<t<t0 + h по информации начинается подсчет величины

u[t] = u(t, х*0, x*, б), t0 <t < t0 + h = tx,

и эта величина вычисляется в течение времени T.(t) < v < г,(/) + . Таким образом, в частности, величина u[tx] уже будет сосчитана в момент t„(íx) + h, = tx - h - + h„ = tx - h = t0. Полагаем, что в течение времени

г,(0 + h <r¡ < Tt(t) + h* + (/z+ + h*) вычисленное значение u[i] хранится в памяти. Затем за время

тДО + 2 h* + h<% < + 2АФ + h* + h -t вычисленное значение u[t] преобразуется в усилие u[t], t0 < t < íx на х-объект. Разумеется, практически функция u[t], t0<t<tx полагается кусочно-постоянной u[t] = u[t*], t* <t <t*+l, j = l,...,m с весьма малым шагом тах j(t*J+l -1*) < S*, и, стало быть, практически вычисляются лишь значения u[t*].

В момент г.! = tx - h + h* в ЭВМ поступает новая информация

YW = {х*0, Г, x*[tx =t0 + h], y[t0[-]tx]}. (1-35)

Заметим при этом, что в момент времени = tx- h + h* функцию У мы полагаем уже известной, т.к., согласно предыдущему,

подсчет определяющей ее функции u[t0[-]tx) = {u[t], í0<í<tx} заканчивается в момент t0, который наступает раньше, чем момент тtX = tx - h + h * = tQ + h *.

По информации Y[/J (1.35) за время т,х <vx < +/г, ЭВМ подсчитывает значение u{tx, Y[í,], s) = u[t], < í < ¿2, где íx и t2 -моменты из разбиения A{í,} (1.22), (1.34). Таким образом, вычисление величины u[t2] заканчивается в момент т.х + h* = tx - h + h* + . Затем

в течение времени + к* < < + к* + ? - ^ сосчитанное значение м[/], < / < ¿2 хранится в памяти, и далее за время тФl+hm+t-tl < ^ = г сосчитанное значение

tl<í<t2 преобразуется в управление на х-объект.

В момент г,2 = ¿2 - /г + к* поступает новая информация

У[г2] = {х0%Г,х^0 + А[.]?2], Л'оИУ}- (1-36)

При этом в момент т*2=(2-к + к* функция 0[']гг]

полагается уже известной, т.к. подсчет в ЭВМ функции и заканчивается в момент + =- А + А* + А, и с учетом (1.34), - к + А* + А, < - А + к*.

Процесс продолжается по индукции по /. Пусть в момент г„г. =/г-- А + А*, г = 3, —, / — 1 поступила информация

У(Л] = {*;, г, х*[г0 + Л[. ]/,], ?[*<>[•]'/]}• (1-37)

При этом предполагаем, что к моменту функция З^оЫ*/] уже сосчитана, т.е. уже сосчитана функция в момент г». по

информации (1-37) начинается подсчет величины

< £ < ¿/+1, который длится в течение времени < у! < хн + к,. Таким образом, в момент тн + А* = - к + к* + А, заканчивается подсчет функции и [ЛЫ^-и) = {и [/], /,.<*<}. Далее в течение времени + А„ < Т7г-< + А, + ? - = / - А сосчитанное значение

и[1], < / < /(+1 хранится в памяти, и затем за время ¿-И < < / оно преобразуется в управление на х-объект. При этом в момент

= ¿,+1 - к + к* можно снова начинать считать величину tм<t<t¡+2. Для этого в момент г,;+1 необходимо иметь следующую информацию

Такая информация

в момент ^»,+1 имеется. В самом деле, величина + становится известной в этот самый момент

т*м> а функция у становится известной в момент окончания

вычисления функции " [¿о['К+1) / те- в момент тч + к, = - к + к* + /г,, а с учетом (1.34) имеем - А + Л* + А, < тф/+1 - к + к*.

1.7 Вспомогательный критерий качества

Наряду с критерием качества у (1.10) рассмотрим некоторый вспомогательный критерий (показатель) качества

1?

У* = |*[«9]-Зс |+ -

с ¿у

ж -

/п + а

(1.38)

2

х0 х0 -ч х - X *

где ¿г(0 - заданная кусочно-непрерывная g(t)> с, с> 0, р > 0 и <7>0 заданные константы. С учетом (1.10) получаем, что

функция,

'Л +

(1.39)

+ Р

х0 х0

+ д

х - х

I

Выражение в квадратных скобках в (1.39) может быть истолковано как сумма штрафов, налагаемых на второго игрока за искажение информации о начальном, текущих и целевом состояниях х -объекта.

1.8 Постановка задачи для У*

Рассмотрим теперь задачу для х -объекта (1.1) о выборе управлений и и помех и соответственно, минимизирующих и максимизирующих критерий качества у* (1.39).

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Список литературы диссертационного исследования кандидат наук Ладейщиков, Александр Николаевич, 2013 год

Список литературы

1. Айзеке Р. Дифференциальные игры. - М.: Мир, 1967.

2. Балакришнан А. Введение в теорию оптимизации в гильбертовом пространстве. -М.: Мир, 1974.

3. Болтянский В.Г. Математические методы оптимального управления. - М.: Наука, 1969.

4. Гусятников П.Б. Об одной проблеме I-убегания // Прикл. математика и механика. 1976. Т. 40. Вып. 1.

5. Ким A.B., Красовский А.Н. Математическое и компьютерное моделирование систем с последействием. - Екатеринбург: УГТУ-УПИ, 2010.

6. Ким A.B., Красовский А.Н., Глушенкова В.В., Ладейщиков А.Н. Управление ВИЧ моделями // Российский иммунологический журнал. 2013. Т. 7 (16). №. 2-3.

7. Красовский A.A., Красовский А.Н. Нелинейная позиционная дифференциальная игра в классе смешанных стратегий // Тр. МИ АН, 277, МАИК, - М., 2012.

8. Красовский А.Н. О позиционном минимаксном управлении // Прикл. математика и механика. 1980. Т. 44. Вып. 4.

9. Красовский А.Н. Дифференциальная игра для позиционного функционала //Докл. АН СССР. 1980. Т. 253. № 6.

10. Красовский А.Н. О формализации позиционной дифференциальной игры // Докл. АН СССР. 1981. Т. 257. № 4.

11. Красовский А.Н., Ладейщиков А.Н. Об одной задаче конфликтного управления при неполной запаздывающей информации // Математическая теория игр и ее приложения. 2011. Т. 3. Вып. 2.

12. Красовский А.Н., Ладейщиков А.Н. Задача игрового управления при дефиците информации // Математическая теория игр и ее приложения. 2012. Т. 4. вып. 2. С.57-70.

13. Красовский А.Н., Ладейщиков А.Н. Программа для реализации алгоритма оптимального позиционного управления и вычисления цены антагонистической дифференциальной игры // а. с. 2013618708 РФ 17.09.2013; заявитель и правообладатель ФГАОУ ВПО «УрФУ имени первого Президента России Б.Н.Ельцина». - № 2013616912; заявл. 01.08.2013.

14. Красовский А.Н., Ладейщиков А.Н. Некоторые задачи игрового управления. Екатеринбург: УрГСХА, 2012. С.128.

15. Красовский А.Н., Ладейщиков А.Н. Оптимизация гарантии в задачах управления механическими системами // Аграрный вестник Урала. 2012.N912 (104).С. 18-21.

16. Красовский А.Н., Ладейщиков А.Н. Об одной задаче отслеживания движений виртуальной динамической модели движениями реального динамического объекта // Тез.докл. 14-ой Всероссийской научно-практической конференции молодых ученых УГТУ - УПИ. Екатеринбург. 2008.

17. Красовский А.Н., Ладейщиков А.Н. Об отслеживании движения виртуальной модели движением реального движущегося объекта // Тез.докл. 15-ой Всероссийской научно-практической конференции молодых ученых УГТУ - УПИ. Екатеринбург.2009.

18. Красовский А.Н., Ладейщиков А.Н. Об одной задаче отслеживания движений динамического материального объекта и его виртуальной модели // Тез.докл. 4-ой научно-практической конференции молодых ученых "Информационно-математические технологии и экономическое моделирование". Екатеринбург. 2010.

19. Красовский А.Н. Третьяков В.Е. Программный синтез дифференциальной игры с интегральной платой // Прикл. математика и механика. 1982. Т. 46. Вып. 4.

20. Красовский H.H. Теория управления движением. - М.: Наука, 1968.

21. Красовский H.H. Дифференциальные игры. Аппроксимационные и формализованные модели // Мат. сборник. 1978. Т. 107. Вып. 4 (12).

22. Красовский H.H. Управление динамической системой. Задача о минимуме гарантированного результата. - М.: Наука, 1985.

23. Красовский H.H., Субботин А.И. Позиционные дифференциальные игры. - М.: Наука, 1974.

24. Красовский H.H., Тарасова СМ., Третьяков В.Е., Шишкин Г.И. Задача управления при неполной информации. Препринт. Свердловск: УНЦ АН СССР, 1984.

25. Красовский H.H., Третьяков В.Е. Одна задача оптимального управления на минимум гарантированного результата // Изв. АН СССР. Техническая кибернетика. 1983. N° 2.

26. Красовский H.H., Третьяков В.Е. О стохастическом программном синтезе стратегий в дифференциальной игре // Прикл. математика и механика. 1982. Т. 46, Вып. 6.

27. Кряжимский A.B. И теории позиционных дифференциальных игр сближения-уклонения //Докл. АН СССР. 1978. Т. 239. № 4.

28. Куржанский А.Б. Управление и наблюдение в условиях неопределенности. - М.: Наука, 1977.

29. Ладейщиков А.Н. Задача игрового управления при дефиците информации // Тез.докл. 19-ой Международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов-2012». Москва. 2012.

30. Ладейщиков А.Н. Некоторые задачи оптимального игрового управления!I Тез.докл. 5-ой Всероссийской научно-технической конференции «Безопасность критичных инфраструктур и территорий». Новоабзаково. 2012.

31. Ладейщиков А.Н. Задача игрового управления при неполной запаздывающей информации // Тез.докл. 20-ой Международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов-2013». Москва. 2013.

32. Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов. - М.: Наука, 1974.

33. Лукоянов Н.Ю. К вопросу вычисления цены дифференциальной игры для позиционного функционала // Прикл. математика и механика. 1998. Вып. 62. № 2.

34. Мак-Кинси Дж. Введение в теорию игр. - М.: Мир, 1960.

35. Мищенко Е.Ф. Задачи преследования и уклонения от встречи в теории дифференциальных игр // Изв. АН СССР. Техническая кибернетика. 1971. № 5.

36. Мищенко Е.Ф., Понтрягин Л.С. Линейные дифференциальные игры // Докл. АН СССР. 1967. Т. 174. № 1.

37. Никольский М.С. Линейные дифференциальные игры преследования при наличии запаздываний // Докл. АН СССР. 1971. Т. 197. № 5.

38. Никольский М.С. О некоторых дифференциальных играх с фиксированным временем //Докл. АН СССР. 1978. Т. 240. № 2.

39. Осипов Ю.С. Дифференциальные игры систем с последействием // Докл. АН СССР. 1971. Т. 196. № 4.

40. Пацко B.C. Дифференциальная игра второго порядка // Прикл. математика и механика. 1982. Т. 46. Вып. 4.

41. Петров H.H. О существовании значения игры преследования // Докл.

АН СССР. 1970. Т. 190. № 6.

42. Петросян Л.А. Дифференциальные игры преследования. - Л.: Изд-во ЛГУ, 1977.

43. Понтрягин Л.С. И теории дифференциальных игр // Успехи мат. наук. 1966. Т. 21. Вып. 4 (130).

44. Понтрягин Л.С. О линейных дифференциальных играх - 1, 2 // Докл. АН СССР. 1967. Т. 174. № 6. С. 1278-1280; Т. 175. № 4.

45. Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. - М.: Физматгиз, 1961.

46. Понтрягин Л.С, Мищенко Е.Ф. Задача об убегании одного управляемого объекта от другого //Докл. АН СССР. 1969. Т. 189. № 4.

47. Пшеничный Б.Н. Линейные дифференциальные игры // Автоматика и телемеханика. 1968. № 1.

48. Пшеничный Б.Н. Структура дифференциальных игр // Докл. АН СССР. 1969. Т. 184. № 2.

49. Пшеничный Б.Н. Выпуклый анализ и экстремальные задачи. - М.: Наука, 1980.

50. Сатимов Н. К задаче преследования в нелинейных дифференциальных играх И Кибернетика. 1973. № 3.

51. Субботин А.И, Субботина H.H. Необходимые и достаточные условия для кусочно-гладкой цены дифференциальной игры // Докл. АН СССР. 1978. Т. 243. № 4.

52. Субботин А.И., Ченцов А.Г. Оптимизация гарантии в задачах управления. - М.: Наука, 1981.

53. Субботина H.H. Универсальные оптимальные стратегии в позиционных дифференциальных играх // Дифференциальные уравнения. 1983. Т. 19. № 11.

54. Тарасьев A.M. Об одной нерегулярной дифференциальной игре // Прикл. математика и механика. 1985. Т. 49. Вып. 4.

55. Третьяков В.Е. Программный синтез в стохастической дифференциальной игре //Докл. АН СССР. 1983. Т. 270. № 2.

56. Ухоботов В.И. Линейная дифференциальная игра с ограничениями на импульсы управлений // Прикладная математика и механика. Т. 52. Вып. 3. 1988. С. 355-362

57. Ушаков В.Н. К задаче построения стабильных мостов в дифференциальной игре сближения // Изв. АН СССР. Техническая кибернетика. 1980. №4.

58. Ченцов А.Г. К игровой задаче наведения // Докл. АН СССР. 1976. Т. 226. № 1.

59. Черноусько Ф.Л. О дифференциальных играх с запаздыванием информации //Докл. АН СССР. 1969. Т. 188. № 4.

60. Черноусько Ф.Л., Меликян A.A. Игровые задачи управления и поиска. - М.: Наука, 1978.

61. Чикрий A.A. Квазилинейная задача сближения с участием нескольких лиц // Прикл. математика и механика. 1979. Т. 43. Вып. 3.

62. Чистяков С.В. К решению игровых задач преследования // Прикл. математика и механика. 1977. Т. 41. Вып. 5.

63. Ширяев А.Н. Вероятность. - М.: Наука, 1980.

64. Шишмаков B.C. Игровая задача уклонения при запаздывающей информации // Прикл. математика и механика. 1971. Т. 35. Вып. 4.

65. Шориков А.Ф. Об одном классе нелинейных многошаговых задач управления - наблюдения // Изв. АН СССР. Техническая кибернетика. 1983. №3.

66. Basar Т., Olsder J. Dynamic Nonkooperativ Game Theory . Academic Press. New York. 1982.

67. Batuhtin V.D. A programmed construction for the positional control // Lect. Notes Comput. Sci. 1975. V. 27.

68. Bellman R. Dynamic Programming. Princeton New Jersy: Univ. Press. 1957.

69. Blaquiere A., Gerard F., Leitman G. Quantitative and Qualitative Games. Academic Press. New York. 1969.

70. Clarke F. Methods of dynamic and nonsmooth optimization. SIAM. Philadelfia. 1989.

71. Dem'janov V.P., Malozemov V.N. Introduction to the Minimax. Halsted Press. New York. 1974.

72. Elliott R.J., Kalton N.J. The existence of value in differential games of pursuit and evasion // i. Different. Equat. 1972. V. 12. № 13.

73. Fleming W.H. The convergence problem for differential games // J. Math. Anal.&Appl. 1961. V. 3. № 1.

74. Friedman A. Existence of value and saddle points for differential games of survival // J. Different. Equat. 1970. V. 7. № 1.

75. Friedman A. Differential games with restricted phase coordinates // J. Different. Equat. 1970. V. 8. № 1.

76. Gamkrelidze R.V., Kharatishvili G.L. A differential game of evasion with nonlinear control // SIAM J. Control. 1974. V. 12. № 2.

77. Ho Y.C. Differential games, dynamic optimization, and generalized control theory 11 J. Optimiz. Theory & Appl. 1970. V. 6. № 3.

78. Krasovskii A.N., Choi Y.S Stochastic Control with the Leaders-Stabilizers. IMM Ural Branch of RAS. Ekaterinburg. Russia. 2001.

79. Krasovskii A.N., Krasovskii N.N. Control Under Lack of Information. Boston: Birkhauser, 1994.

80. Osipov Yu.S., Kryazhimskii A.V., Inverse Problem of Ordinary Differential Equation: Dynamical solutions. Gordon and Breach, 1995.

81. Roxin E. Axiomatic approach in differential games // J. Optimiz. Theory &

Appl. 1969. V. 3. № 3.

82. Ukhobotov V. I. Synthesis of Guaranteed Control Based on Approximating Scheme 11 Proceedings of the Steklov Institute of Mathematics, Suppl. 1. 2000. S254-S260.

83. Varaiya P., Lin J. Existence of saddle points in differential games 11SIAM J. Control. 1969. V. 7. № 1.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.