Студопедия  
Главная страница | Контакты | Случайная страница

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Динамическое программирование. Принцип Беллмана. Основное рекуррентное соотношение Беллмана. Общие принципы решения задач динамического программирования.

Читайте также:
  1. I. ОБЩИЕ ПОЛОЖЕНИЯ
  2. I. ОБЩИЕ ПОЛОЖЕНИЯ
  3. I. ОБЩИЕ ПОЛОЖЕНИЯ
  4. I. ОБЩИЕ ПОЛОЖЕНИЯ.
  5. I. Общие сведения
  6. I. Общие сведения
  7. I. Общие требования охраны труда
  8. I.1. Объяснение выбора темы. Цели и задачи работы
  9. II. Общие требования к выпускной квалификационной работе
  10. II. ЦЕЛИ И ЗАДАЧИ

1.Динамическое программирование в теории управления и теории вычислительных систем — способ решения сложных задач путём разбиения их на более простые подзадачи. Он применим к задачам с оптимальной подструктурой (англ.), выглядящим как набор перекрывающихся подзадач, сложность которых чуть меньше исходной. В этом случае время вычислений, по сравнению с «наивными» методами, можно значительно сократить.

Ключевая идея в динамическом программировании достаточно проста. Как правило, чтобы решить поставленную задачу, требуется решить отдельные части задачи (подзадачи), после чего объединить решения подзадач в одно общее решение. Часто многие из этих подзадач одинаковы. Подход динамического программирования состоит в том, чтобы решить каждую подзадачу только один раз, сократив тем самым количество вычислений. Это особенно полезно в случаях, когда число повторяющихся подзадач экспоненциально велико.

Метод динамического программирования сверху — это простое запоминание результатов решения тех подзадач, которые могут повторно встретиться в дальнейшем. Динамическое программирование снизу включает в себя переформулирование сложной задачи в виде рекурсивной последовательности более простых подзадач.

Оптимальная подструктура в динамическом программировании означает, что оптимальное решение подзадач меньшего размера может быть использовано для решения исходной задачи. К примеру, кратчайший путь в графе из одной вершины (обозначим s) в другую (обозначим t) может быть найден так: сначала считаем кратчайший путь из всех вершин, смежных с s, до t, а затем, учитывая веса ребер, которыми s соединена со смежными вершинами, выбираем лучший путь до t (через какую вершину лучше всего пойти). В общем случае мы можем решить задачу, в которой присутствует оптимальная подструктура, проделывая следующие три шага.

Разбиение задачи на подзадачи меньшего размера.

Нахождение оптимального решения подзадач рекурсивно, проделывая такой же трехшаговый алгоритм.

Использование полученного решения подзадач для конструирования решения исходной задачи.

Подзадачи решаются делением их на подзадачи ещё меньшего размера и т. д., пока не приходят к тривиальному случаю задачи, решаемой за константное время (ответ можно сказать сразу). К примеру, если нам нужно найти n!, то тривиальной задачей будет 1! = 1 (или 0! = 1).

Перекрывающиеся подзадачи в динамическом программировании означают подзадачи, которые используются для решения некоторого количества задач (не одной) большего размера (то есть мы несколько раз проделываем одно и то же). Ярким примером является вычисление последовательности Фибоначчи, и — даже в таком тривиальном случае вычисления всего двух чисел Фибоначчи мы уже посчитали дважды. Если продолжать дальше и посчитать, то посчитается ещё два раза, так как для вычисления будут нужны опять и. Получается следующее: простой рекурсивный подход будет расходовать время на вычисление решение для задач, которые он уже решал.

Чтобы избежать такого хода событий мы будем сохранять решения подзадач, которые мы уже решали, и когда нам снова потребуется решение подзадачи, мы вместо того, чтобы вычислять его заново, просто достанем его из памяти. Этот подход называется кэширование. Можно проделывать и дальнейшие оптимизации — например, если мы точно уверены, что решение подзадачи нам больше не потребуется, можно выкинуть его из памяти, освободив её для других нужд, или если процессор простаивает и мы знаем, что решение некоторых, ещё не посчитанных подзадач, нам понадобится в дальнейшем, мы можем решить их заранее.

Подводя итоги вышесказанного можно сказать, что динамическое программирование пользуется следующими свойствами задачи:

перекрывающиеся подзадачи;

оптимальная подструктура;

возможность запоминания решения часто встречающихся подзадач.

Динамическое программирование обычно придерживается двух подходов к решению задач:

нисходящее динамическое программирование: задача разбивается на подзадачи меньшего размера, они решаются и затем комбинируются для решения исходной задачи. Используется запоминание для решений часто встречающихся подзадач.

восходящее динамическое программирование: все подзадачи, которые впоследствии понадобятся для решения исходной задачи просчитываются заранее и затем используются для построения решения исходной задачи. Этот способ лучше нисходящего программирования в смысле размера необходимого стека и количества вызова функций, но иногда бывает нелегко заранее выяснить, решение каких подзадач нам потребуется в дальнейшем.

Языки программирования могут запоминать результат вызова функции с определенным набором аргументов (мемоизация), чтобы ускорить «вычисление по имени». В некоторых языках такая возможность встроена (например, Scheme, Common Lisp, Perl), а в некоторых требует дополнительных расширений (C++).

Известны сериальное динамическое программирование, включённое во все учебники по исследованию операций, и несериальное динамическое программирование (НСДП), которое в настоящее время слабо известно, хотя было открыто в 1960-х годах.

Обычное динамическое программирование является частным случаем несериального динамического программирования, когда граф взаимосвязей переменных — просто путь. НСДП, являясь естественным и общим методом для учета структуры задачи оптимизации, рассматривает множество ограничений и/или целевую функцию как рекурсивно вычислимую функцию. Это позволяет находить решение поэтапно, на каждом из этапов используя информацию, полученную на предыдущих этапах, причём эффективность этого алгоритма прямо зависит от структуры графа взаимосвязей переменных. Если этот граф достаточно разрежен, то объём вычислений на каждом этапе может сохраняться в разумных пределах.

Одним из основных свойств задач, решаемых с помощью динамического программирования, является аддитивность. Неаддитивные задачи решаются другими методами. Например, многие задачи по оптимизации инвестиций компании являются неаддитивными и решаются с помощью сравнения стоимости компании при проведении инвестиций и без них.

2. Принцип Беллмана

Принцип оптимальности Беллмана (также известный как принцип динамического программирования), названный в честь Ричарда Эрнста Беллмана, описывает действие математического метода оптимизации, называемого динамическим программированием. Он заключается в том, что на каждом шаге следует стремиться не к изолированной оптимизации функции fk(хk, ξk), а выбирать оптимальное управление хk* в предположении об оптимальности всех последующих шагов.

Принцип оптимальности: оптимальная стратегия имеет свойство, что какими бы ни были начальное состояние и начальное решение, последующие решения должны составлять оптимальный курс действий по отношению к состоянию, полученному в результате первого решения.

Беллмана принцип оптимальности

БЕЛЛМАНА ПРИНЦИП ОПТИМАЛЬНОСТИ [Bellman’s optimality principle] — важнейшее положение динамического программирования, которое гласит: оптимальное поведение в задачах динамического программирования обладает тем свойством, что каковы бы ни были первоначальное состояние и решение (т. е. “управление”), последующие решения должны составлять оптимальное поведение относительно состояния, получающегося в результате первого решения. Этот принцип можно выразить и рассуждая от противного: если не использовать наилучшим образом то, чем мы располагаем сейчас, то и в дальнейшем не удастся наилучшим образом распорядиться тем, что мы могли бы иметь.

Следовательно, если имеется оптимальная траектория, то и любой ее участок представляет собой оптимальную траекторию. Этот принцип позволяет сформулировать эффективный метод решения широкого класса многошаговых задач. (Подробнее см. Динамическое программирование.)

Принцип назван по имени крупного американского математика Р. Беллмана, одного из основоположников динамического программирования.

Еще

Принцип Беллмана позволяет упростить нахождение оптимальных стратегий. [1]

Принцип Беллмана для задачи управления со многими критериями формулируется в виде следующей теоремы. [2]

Уравнение (55) выражает принцип Беллмана в задаче об оптимальной остановке. [3]

 

В § 2 сформулирован многокритериальный аналог принципа Беллмана. В § 3 рассмотрена задача независимого выбора; в § 4 - задача конструирования. [4]

Так как по условию на всех уровнях дихотомические деления выполняются оптимально и оптимизируемые параметры аддитивны, при построении конечного сечения обеспечивается выполнение принципа Беллмана, поэтому достигнутое сечение является оптимальным и все КТС, приписанные этим узлам, составляют оптимальный типаж обслуживающей системы. [5]

Так как задача оптимизации типажа аддитивна и затраты на построение оптимального типажа состоят из суммы затрат на серии отдельных оптимальных типоразмеров, к решению может быть применен принцип Беллмана. По определению, каждый узел, через который проходит оптимальное сечение, является также оптимальным сечением соответствующего субграфа, приписанного данному узлу. При этом оптимальное сечение субграфа, подчиненного узлу, лежащему на оптимальном сечении полного графа, проходит через его вершину. Таким образом, геометрическое место вершин оптимальных субграфов является оптимальным сечением графа альтернативных решений. Следовательно, типаж, представленный оптимальным сечением графа альтернативных решений, может обслужить весь портфель заявок при минимальных затратах на обслуживание. [6]

Вывод необходимых условий оптимальности производится на. Предварительно заметим, что по принципу Беллмана [2] любой участок оптимальной траектории также должен быть оптимальной траекторией. [7]

Для выбора критериев при использовании концепции оптимизации применяют различные принципы оптимальности. Например, при исследовании систем в определенных условиях часто используют принцип Беллмана или принцип максимума Понтря-гина. При наличии случайных факторов используют принцип наибольшего среднего результата или принцип наибольшего гарантированного результата. Принцип наибольшего гарантированного результата при учете неопределенностей, связанных с наличием несовпадающих интересов (например, в конфликтных ситуациях), приводит, в частности, к принципу максимина. [8]

Каждое из этих управлений по формуле (4) приводит к доходу Jn (x0, и): 0, 3, 2, 1, 1, 2, 3, 0 соответственно. Доход 3, 0 при управлении (ы2, [ и4) мажорирует остальные доходы. В силу задания единственным (х0, R, 2) - оптимальным является управление (2, J. Таким образом, в рассмотренной задаче со специально выбранным отношением R принцип Беллмана не выполняется. [9]

Достроенный таким образом граф снизу до верха можно сопоставить с графом, полученным методом сверху вниз путем дихотомии, и произвести коррекцию обоих вариантов с целью исключения ошибки (см. гл. Напомним, что при практическом использовании метода оптимальных дихотомий возможна ошибка за счет неточной аналитической аппроксимации интегральных стоимостных характеристик. Коррекция позволяет исключить и эти ошибки. В этом случае, оптимальное сечение полного графа предлагается искать в соответствии с принципом Беллмана, для чего доказывается следующая теорема




Дата добавления: 2015-09-10; просмотров: 156 | Поможем написать вашу работу | Нарушение авторских прав

Простые проценты | Потребительский кредит. Ломбардный кредит. Дисконтирование по простым процентам. | Ломбардный кредит. | Дисконтирование по простым процентам. | Дисконтирование по сложной процентной ставк. | Функции налогов | Инфляция | Основные принципы и правила составления математических моделей | Метод потенциалов | Задача линейного программирования: общая формулировка. Основные идеи и алгоритм симплекс-метода. |


lektsii.net - Лекции.Нет - 2014-2024 год. (0.009 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав