Практическое применение принципа максимума при математическом моделировании процессов. Принцип максимального значения

Принцип максимума определяет необходимые условия оптимальности управления в нелинейных управляющих системах. Он распространен и на случаи, когда на координаты состояния системы накладываются ограничения. Рассмотрим основную теорему принципа максимума и дадим более удобную формулировку оптимального управления.

Пусть оптимальное управление описывается системой нелинейных дифференциальных уравнений:

(1)

или в векторной форме:

--мерный вектор состояния объекта

--мерный вектор управляющих воздействий

- функция правой части уравнения (1)

Полагаем, что вектор управления принимает значения из некоторой замкнутой области Ur-мерного пространства управлений. Положим, что функции
непрерывны по всем аргументам и имеют непрерывные производны по переменным состояния. Назовем допустимыми управлениями те управления
, которые являются кусочно-непрерывными функциями времени и принимают значения из множестваU.

Основная задача оптимального управления формулируется следующим образом: среди всех допустимых управления, приводящих изображающую точку в фазовом пространстве Xиз начального положенияв конечное, если эти управления существуют. И нужно найти такие управления, для которых функционал:

(2)

достигает минимума.

Введем новую переменную , которая определяется следующим дифференциальным уравнениям:

(3)

Здесь
- подынтегральная функция функционала (2).

Присоединив уравнение (3) к системе уравнений (1), получим:


(4)

Запишем (4) в векторной форме. Для этого введем в рассмотрение (n+1)-ый вектор координат состояния:
, тогда в векторной форме записи это уравнение запишется следующим образом:

(5)

вектор правых частей системы (5).

Заметим, что вектор-функция
не зависит от координатывектора. Обозначим черезточку с координатами
в (n+1)-ом фазовом пространстве. Пусть
- некоторое допустимое управления, для которого соответствующая фазовая траектория (1) проходит при
через точку. А при выполнении равенства
через точку.

Из уравнения (2) следует, что координата определяется равенством:

Если
, то будем иметь:

Таким образом, в пространстве фазовая траектория системы (5), соответствующая тому же управлению
, проходит при
через точку
, а при
через точку
. Это иллюстрирует следующий рисунок:

Обозначим через П прямую в пространстве , проходящую через точку
и параллельную оси. Тогда основную задачу оптимально управления можно сформулировать следующим образом:

В (n+1)-мерном пространствезаданы начальная точка
и прямая П, параллельная осии проходящую через точку
. Среди всех допустимых управлений, обладающих тем свойством, что решение системы (5) с начальными условиями
проходит через точку прямой П, необходимо выбрать такое управления, для которого координата точкиимело бы минимальное значение.

Сформулированная задача представляет собой задачу Майера на условный экстремум. Однако в силу ограничений, накладываемых на допустимое управление методами классического вариационного исчисления, эта задача не решается.

Формулировка теоремы, дающей необходимое условие экстремума:

Введем в рассмотрение вспомогательные переменные
, которые удовлетворяю следующей системе уравнений:


(6)

Система (6) называется сопряженной по отношению к системе уравнений (5). Если выбрать некоторое допустимое управление
на отрезке
и найти соответствующее ему решение
с заданными начальными условиями
, то при подстановки в систему уравнений (6) управления
и решения
, получим линейную однородную систему уравнений:


(7)

Система (7) удовлетворяет условиям существования и единственности решения системы дифференциальных уравнений. Системы уравнений (5) и (6) можно объединить одной формой записи, для этого надо ввести в рассмотрение функцию H:

(8)

Тогда системы (5) и (6) запишутся следующим образом:


(9)


(10)

Отметим, что вектор функций
и
непрерывны всюду, кроме точек разрыва допустимого управления
. Эти вектор-функции имеют непрерывные производные. При фиксированных значениях
и
функцияHстановится функцией только управления
.

Пример

Рассмотрим случайные величины

  • X количество успехов в двенадцати независимых испытаний с распределением Бернулли с вероятностью успеха θ в каждом из них.
  • Y количество независимых испытаний с распределением Бернулли, необходимых для получения трех успехов. Вероятность успеха в каждом из испытаний θ.

Тогда рассмотрение X = 3 даст функцию правдоподобия

а рассмотрение Y = 12 даст функцию правдоподобия

Они равносильны, так как одна равняется произведению второй на скалярное значение. Принцип максимального правдоподобия в данном случае говорит, что выводы, сделанные о значении переменной θ должны быть одинаковы в обоих случаях.

Разница в наблюдении X = 3 и наблюдении Y = 12 исключительно в дизайне эксперимента: в одном случае изначально было решено делать двенадцать попыток, а в другом делать попытки, пока не будет трех успешных. Результат будет одинаковым в обоих случаях. Поэтому принцип максимального правдоподобия иногда выражают следующим образом:

Вывод должен зависеть только от исхода эксперимента, а не от дизайна эксперимента.

Закон максимального правдоподобия

Связанная с принципом максимального правдоподобия концепция - это закон максимального правдоподобия , говорящий, что отношение того, какое значение параметра более применимо, равняется отношению их функций правдоподобия. Тогда отношение

является мерой того, насколько величина x принимает параметр a в отношении к b . Таким образом, если отношение равняется 1, то разницы нет, а если больше 1, то a предпочтительней b , и наоборот.

Из принципа максимального правдоподобия и закона максимального правдоподобия следует, что параметр, который максимизирует функцию правдоподобия, является лучшим. Это и является основой широко известного метода максимального правдоподобия .

Историческая справка

Принцип максимального правдоподобия был впервые упомянут в печати в г. Однако основы принципа и применение его на практике были опубликованы ранее в работах Р. А. Фишера в г.

Аргументы за и против принципа максимального правдоподобия

Принцип максимального правдоподобия принимается не всеми. Некоторые широко используемые методы традиционной статистики, как например проверка статистических гипотез противоречат принципу максимального правдоподобия. Рассмотрим кратко некоторые за и против этого принципа.

Зависимость результата от организации эксперимента

Неосуществленные события действительно играют роль в некоторых общих статистических методах. Например результат проверки статистической гипотезы может зависеть от доверительной вероятности так же или даже более, чем распределение неизвестного параметра. А сама доверительная вероятность может зависеть организации эксперимента.

Некоторые классичекие методы проверки гипотез базируются не на правдоподобии. Часто приводимый пример это проблема оптимальной остановки. Предположим я сказал, что бросил монету 12 раз и получил 3 решки. Из этого вы сможете сделать некоторые выводы о вероятности выпадения решки у этой монеты. А теперь предположим, что я бросал монету пока решка не выпала 3 раза, и получилось 12 бросков. Сделаете ли вы теперь другие выводы?

Функция правдоподобия одинакова в обоих случаях и пропорциональна

.

В соответствии с принципом правдоподобия выводы должны быть одинаковы в обоих случаях.

Предположим некоторая группа ученых определяет вероятность некоторого исхода (который мы будем называть "успехом") серией экспериментов. Здравый смысл подсказывает нам, что если нет оснований считать что успех более вероятен, чем неудача, и наоборот, то следует положить вероятность успеха равной 0.5. Ученый Адам сделал 12 испытаний, в которых получил 3 успеха и 9 неудач, после чего умер.

Его коллега по лаборатории Билл продолжил работу Адама и опубликовал результат проверки гипотезы. Он проверил гипотезу что вероятность успеха p =0.5 против p < 0.5. Вероятность того, что в 12 испытаниях наступит не более 3 успехов, равна

что есть 299/4096 = 7.3 %. Таким образом гипотеза не отвергается при 5 % уровне доверия.

Шарлотта, прочитав статью Билла, пишет письмо. Она считает, что Адам, возможно, продолжал испытания пока не умер, успев получить к этому моменту 3 успеха. Вероятность того, что для трех успехов потребуется 12 или более испытаний равна

что есть 134/4096 = 3.27 %. И теперь результат отвергается при уровне в 5 %.

Для этих ученых зависимость результата испытаний зависит от организации эксперимента, а не только от правдоподобия результата.

Очевидно, парадоксы такого рода некоторые считают аргументом против принципа правдоподобия, для других они же иллюстрирует значимость принципа.

Литература

См. также

Ссылки

  • Anthony W.F. Edwards. «Likelihood». http://www.cimat.mx/reportes/enlinea/D-99-10.html
  • Jeff Miller. Earliest Known Uses of Some of the Words of Mathematics (L)
  • John Aldrich. Likelihood and Probability in R. A. Fisher’s Statistical Methods for Research Workers

Wikimedia Foundation . 2010 .

ПРИНЦИП МАКСИМУМА

В ряде практических задач оптимизации объектов управления экстремум функционала (3.91) при заданных уравнениях объекта (3.92) обеспечивается при управлении u (t ), имеющем разрывы первого рода. При этом координаты также имеют разрывы, положение и число которых заранее неизвестны. Эти обстоятельства затрудняют применение классического вариационного исчисления для некоторых задач оптимизации, которые могут быть решены методом, разработанным акад. Л.С.Понтрягин и названным принципом, максимума.

Задачей оптимизации является определение оптимальных управлений u °(t ) и траектории Х °(t ) из условия минимума функционала (3.91) для заданных уравнений объекта (3.92) при начальных X (t 0) и конечных X (t к) значениях, заданном интервале времени t 0 t t к с учетом ограничений вида X (t ) x , u (t ) u .

Функции управления u (t ) допускают разрывы первого рода (см. кривую 1 на рис. 3.6). Так как координаты выхода x i (t ) не являются гладкими, то канонические уравнения (3.78) и (3.80) при введенных множителях Лагранжа (3.76) и функции Гамильтона (3.77) не могут быть непосредственно применены для определения оптимальных управлений. Объясняется это тем, что из-за разрывов первого рода вариация функции u (t ) может быть большой, следовательно, большой будет и вариация функционала. В результате этого в выражении (3.56) уже нельзя ограничиваться только линейными относительно вариаций функций u (t ) и х (t ) членами, а следует учитывать также нелинейные члены. В связи с этим было введено понятие игольчатой вариации .

Игольчатая вариация представляет собой приращение варьируемой функции оптимального управления u °(t ) на бесконечно малом отрезке времени в виде импульса ограниченной величины (см. кривую 4 на рис. 3.6) с учетом u (t ) u . Влияние такой вариации на последующее движение объекта управления в интервале < t < t к бесконечно мало, поскольку влияние любого импульса оценивается величиной его площади (u - u °) е, которая в данном случае бесконечно мала. Следовательно, приращение функционала при игольчатой вариации управления будет бесконечно малым. Оно обращается в нуль, т. е. выполняется условие экстремума (3.58) функционала (3.54), когда игольчатая вариация производится относительно оптимального управления u °(t ).

Основные уравнения и их применение для синтеза оптимальных систем. Рассмотрим кратко сущность принципа максимума. Пусть математическая модель объекта оптимизации задана в виде уравнений состояния

где i = 1, 2, ..., n ; r - количество координат управления. Уравнение (3.113) можно представить в векторной форме

Сигналы управления могут иметь ограничения для всех координат

Зададимся некоторой функцией f 0 (Х , u ) и будем считать, что цель управления объектом будет достигнута, если изображающая точка из начального положения Х 0 с координатами (х 10 , х 20 , ..., х n 0) в n -мерном фазовом пространстве переместится в положение Х 1 с координатами (x 11 , x 21 , …, x n 1).

При оптимизации объекта требуется найти вектор управляющего воздействия u (t ) с учетом указанных ограничений из условия минимума функционала

Сначала рассмотрим задачу при одной координате управления (r =1) в пространстве (n +1) координат, введя дополнительную переменную х 0 , определяемую уравнением оптимизация принцип максимум

При этом для вывода принципа максимума используем игольчатую вариацию.

Если управляющему воздействию u °(t ) соответствует оптимальное движение объекта Х °(t ), то после игольчатой вариации дальнейшее движение X (t ) будет отличаться от оптимального. Разность между ними в момент t = , определяется разностью скоростей

Эта разность бесконечно мала, так как - бесконечно малая величина. Поэтому для интервала t T введем вектор вариации траектории

Закон изменения вариации, являющейся бесконечно малой величиной, может быть найден из уравнений, записанных для малых изменений X (t ), которые называют уравнениями в вариациях. Эти уравнения можно получить из (3.113) или (3.114), если заменить x i на x i + х i а затем после разложения f i в ряд по степеням x i отбросить члены высших порядков малости. Далее вычтем уравнение вида (3.113) и получим линейное уравнение в вариациях

где j = 0, 1, 2..., n .

Вектор вариаций X при t = Т характеризует изменение критерия оптимальности J . Для любых неоптимальных управлений u (t ) эта величина определяется скалярным произведением вектора вариаций X (T ) и вспомогательного вектора (Т ) и является отрицательной:

Уравнение (3.119) позволяет найти X (T ) в зависимости от начального условия X (), определяемого значением u ().

Если подобрать такой (n +1)-мерный вектор (t ), который при < t T удовлетворяет условию

где (t ) = [ 0 (t) 1 (t) … n (t)] T , то вместо принятой в классическом вариационном исчислении функции Гамильтона (3.77) можно составить функцию Гамильтона для неклассических вариационных задач:

Эта функция достигает максимума при оптимальном управлении u °(t ), откуда следует принцип максимума: нужно так подобрать u (t ) u , чтобы величина Н * достигала максимального значения. При этом можно записать (для открытого множества u )

Н * /u = 0. (3.122)

Используя выражение (3.121) и уравнения объекта управления (3.113) с учетом (3.116), можно составить аналогично уравнениям (3.81) канонические уравнения Гамильтона для неклассических вариационных задач:

где i = 0, 1, 2, ..., n .

Уравнения (3.123) при r координатах управления дополняются уравнениями

Пусть существует допустимое управление u (t ) u , то соответствующая ему фазовая траектория проходит через фиксированные начальную X (t 0) и конечную X (Т ) точки. Тогда u °(t ) определяется по теореме Л. С. Понтрягина :

для того чтобы управление u (t ) было оптимальным, необходимо существование такой ненулевой вектор-функции (t ), соответствующей в силу уравнений (3.123) функциям u (t ) и X (t ), чтобы:

1) при t 0 t Т функция H * достигла максимума при u °(t )

2) в конечный момент времени t = Т выполнялись бы соотношения

В большинстве случаев в (3.126) можно принять 0 (Т ) = - 1.


Специфика задач на максимальное быстродействие начинает сказываться при записи критерия качества. Для этих задач критерием качества является следующий функционал (5.1)

Таким образом, требуется найти такое управление, при котором перевод объекта управления из начального состояния в конечное выполняется за минимально возможное время.

Последовательность решения рассматриваемых задач не отличается от процедуры решения других задач, решаемых на основе принципа максимума:

Составление Гамильтониана;

Определение зависимости оптимального управляющего воздействия от сопряженных переменных на основе максимизации Гамильтониана;

Составление сопряженной системы дифференциальных уравнений;

Составление общей системы дифференциальных уравнений, среди решений которой и находится искомое управляющее воздействие.

При рассмотрении объектов управления, описываемых линейными уравнениями, задачи максимального быстродействия имеют некоторую особенность. Дело в том, что соответствующая этим задачам функция Гамильтона содержит управление в степени не выше первой и, следовательно, определение максимального значения гамильтониана не может быть выполнено путем приравнивания нулю его первой производной по управлению. Поиск максимального значения гамильтониана в этом случае производится путем анализа возможных комбинаций между управлением и переменными сопряженной системы уравнений. При этом оказывается, что оптимальное управление должно быть максимально по модулю внутри интервала управления и в некоторых его точках мгновенно менять знак в соответствии со знаком некоторой функции от сопряженных переменных. В условиях такого слабого влияния сопряженной системы уравнений на управляющее воздействие возникает возможность вообще отказаться от решения сопряженной системы уравнений и рассматривать моменты смены знака управления (моменты переключения) как самостоятельные переменные.

Более подробно рассмотрим решение задачи максимального быстродействия на следующем примере.

Объект управления:

Критерий качества:

Гамильтониан:

Анализируя возможные комбинации значений и можно сделать вывод о том, что для обеспечения максимальной величины Гамильтониана в зависимости от управления необходимо выполнение следующего соотношения:

Сопряженная система уравнений:

Общая система уравнений:

Поскольку в системе уравнений (5.1) уравнения для сопряженных переменных не зависят от состояний объекта управления, то выражения для можно найти только из системы сопряженных уравнений не обращая внимания на уравнения для состояний объекта управления.

В данном случае:

Анализируя полученные выражения можно сделать вывод о том, что искомое управляющее воздействие имеет вид прямоугольной волны, которая меняет знак не более одного раза. Очевидно, что момент смены знака управления (момент переключения) должен выбираться из условия обеспечения заданных граничных условий для состояний объекта управления. для определения моментов переключения может быть использовано несколько способов.

Первый способ определения моментов переключения – аналитический. При использовании этого способа необходимо получить аналитическое выражение для реакции объекта управления на управляющее воздействие, имеющее вид прямоугольной волны. Используем для этой цели преобразование Лапласа. Момент переключения обозначим через .

Преобразованная по Лапласу система уравнений объекта управления, учитывающая воздействие прямоугольной волны имеет вид:

Из этой системы уравнений можно получить следующие выражения для L-изображений состояний объекта управления:

или, после выполнения обратного преобразования Лапласа, собственно аналитические выражения для переходных процессов во времени:

Последние выражения позволяют найти как значение момента переключения , так и момента времени перевода объекта управления в требуемое состояние .

Второй способ определения моментов переключения – поиск минимума.

Для возможности применения для решения задачи оптимального управления алгоритмов поиска минимума задачу максимального быстродействия сформулируем следующим образом:

Допустим, что управляющее воздействие является кусочнопостоянной функцией времени, которая меняет знак в момент времени , а перевод объекта управления в конечное состояние происходит в момент времени . Требуется определить такие значения параметров и при которых достигается минимальное значение невязки между фактическими и требуемыми значениями состояний объекта управления в момент . Значение невязки вычисляется как сумма квадратов разностей между фактическими и заданными значениями состояний объекта управления в момент времени .

Вычисление параметров оптимального управления методом поиска минимума может быть выполнено с помощью следующей MATLAB-программы:

Файл Main5.m

%вектор начальных приближений для момента переключения и

%момента завершения интервала управления

T=fminsearch("fms5",ti0)

function f=fms5(T)

%численное решение дифф. ур-ний объекта управления при действии

%на него прямоугольной волны управления

Ode45("odefun5",,);

%вычисление невязки

f=x(length(t),1)^2+x(length(t),2)^2;

%генерация массива значений управления для построения графика

for i=1:length(t)

plot(t,x(:,1),t,u)

Файл odefun5.m

function f=odefun5(t,x)

Третий способ определения моментов переключения – графическое построение линии переключения.

Этот способ отличается большой наглядностью, но применим к объектам управления второго порядка, т.к. поведение только таких объектов полностью описывается фазовым портретом. При использовании этого способа задача оптимального управления решается путем построения линии переключения, геометрического места точек фазового пространства объекта управления, из которых перевод объекта в конечное состояние возможен без переключения знака управления. В том случае, когда линия переключения найдена, процедура управления объектом заключается в следующем:

К объекту прикладывается управление некоторого знака и под действием этого управления объект движется до тех пор, пока его изображающая точка не окажется на линии переключения

При попадании изображающей точки на линию переключения выполняется смена знака управляющего воздействия и его изображающая точка начинает двигаться по линии переключения к целевому состоянию. Таким образом, гарантия попадания изображающей точки в целевое состояние обеспечивается по определению линии переключения.

Очевидным способом построения линии переключения является сканирование всей фазовой плоскости и запоминание тех ее точек, из которых целевое состояние достигается путем применения постоянного по величине и знаку управления.

Однако существует способ построения всей линии переключения за один прием. Дело в том, что фазовая траектория движения объекта в обратном времени из целевой точки под действием постоянного по величине и знаку управлении обладает всеми свойствами линии переключения. Следовательно, линия переключения может быть построена путем решения дифференциальных уравнений объекта управления записанных в обратном времени. Математически переход к обратному времени выполняется заменой на в уравнениях объекта. Следует учитывать. что линия переключения имеет две ветви: одна из них соответствует положительному значению управляющего воздействия, а другая – отрицательному.

Программное обеспечение решения задачи максимального быстродействия состоит из двух частей:

Скрипт, выполняющий построение фазовой траектории объекта путем численного решения его уравнений записанных в обратном времени из начальной точки, соответствующей целевому состоянию (построение линии переключения);

Скрипт, выполняющий построение фазовой траектории объекта путем численного решения его уравнений записанных в обычном времени из начальной точки, соответствующей начальному состоянию (знак управляющего воздействия противоположен знаку, использованному при построении линии переключения).

Длительность фазовой траектории, порождаемой вторым скриптом должна быть достаточной для ее пересечения с линией переключения. Момент пересечения и является искомым моментом переключения.