Введение
В современной теории управления и вычислительной математике достаточно большое внимание уделяется задаче синтеза (и численного построения) оптимального управления динамическими системами, функционирующими при наличии неопределённостей и неполноты информации. Прикладная значимость подобных постановок особенно высока в задачах авиационной и ракетно-космической техники, где требуется строить управления, обеспечивающие стабилизацию, наведение, минимизацию времени/расхода ресурса и выполнение терминальных ограничений при сложной динамике и жёстких ограничениях на исполнительные органы. На этом фоне заметный интерес в последние годы вызывает применение методов обучения с подкреплением (reinforcement learning, RL) как альтернативы (или дополнения) к классическим подходам оптимального управления, прежде всего в ситуациях, когда математическая модель известна неполно, либо вычислительная стоимость решения слишком высока.
Обучение с подкреплением представляет собой класс методов машинного обучения, в которых агент, взаимодействуя со средой, последовательно выбирает действия и по наблюдаемым состояниям и скалярному сигналу вознаграждения обучается стратегии (политике) поведения, максимизирующей математическое ожидание накопленного (дисконтированного либо конечно горизонтного) выигрыша. Каноническая формализация опирается на марковский процесс принятия решений и тесно связана с идеями динамического программирования Беллмана, где оптимальная политика выражается через оптимальную функцию ценности (Bellman, 1957). Исторически становление RL как самостоятельного направления связывают с работами 1980-х годов по обучающемуся управлению и адаптивным элементам (Barto–Sutton–Anderson), далее - с развитием методов обучения по значениям (в частности, Q-learning) и градиентных методов поиска политики (семейство REINFORCE) (Barto, Sutton, Anderson, 1983). Новый этап начался с «глубокого» обучения с подкреплением, когда аппроксимация функций ценности/политики нейросетями позволила перейти к высокоразмерным наблюдениям и сложным нелинейным объектам; характерным ориентиром здесь стала работа по DQN, показавшая возможность обучения управлению непосредственно по сенсорным данным (Mnih et al., 2015).
Для задач непрерывного управления (типичных для динамических систем) в качестве де-факто стандартов вычислительного эксперимента и практической настройки часто рассматриваются методы семейства actor–critic: TRPO (Trust Region Policy Optimization) и PPO (Proximal Policy Optimization) как устойчивые on-policy схемы оптимизации политики и SAC (Soft Actor Critic) / TD3 (Twin Delayed DDPG) / DDPG (Deep Deterministic Policy Gradients) как off-policy методы, обеспечивающие более высокую выборочную эффективность на непрерывных действиях (Schulman et al., 2015). При этом значительная часть прикладных постановок задач оптимального управления естественным образом является ограниченной (по состояниям, управлениям, ресурсам, безопасным областям), что стимулировало развитие constrained RL (например, подход CPO (Constrained Policy Optimization) и дальнейшие вариации), ориентированных на явное соблюдение ограничений в процессе обучения и применения политики (Achiam et al., 2017). Важно подчеркнуть, что термин «State of the Art» в RL носит прикладной характер: в зависимости от класса задач (on-policy/off-policy, дискретные/непрерывные действия, наличие модели, требования к робастности и безопасности) «лучшие» методы различаются, однако перечисленные семейства составляют основу современных прикладных решений и служат базой для многочисленных модификаций.
Перенос методов RL на задачи оптимального управления обычно выполняется через следующую концептуальную схему: динамическая система рассматривается как среда, вектор состояния (или наблюдения) формирует вход агента, управление интерпретируется как действие, а функционал качества - как суммарное вознаграждение. Таким образом, задача минимизации функционала оптимального управления приводится к задаче максимизации ожидаемой суммарной награды. При наличии точной модели и возможности генерировать траектории ключевым становится вопрос выбора:
- модель-свободное обучение (политика/ценность напрямую по данным),
- модель-ориентированные методы (обучение/уточнение модели и планирование по ней),
- гибридные схемы, где RL используется для адаптации параметров/стоимостей/приближений в связке с MPC (Model predictive control).
В частности, современная линия работ рассматривает RL как часть общего аппарата приближённого динамического программирования и связывает его с методами MPC и итеративной оптимизации в единой концептуальной рамке (Bertsekas, 2024). Отдельное направление составляют подходы, «встраивающие» физические априорные знания и ограничения (модели, инварианты, законы сохранения) в процесс обучения - как способ повысить выборочную эффективность и переносимость решений на реальный объект.
Практическая привлекательность RL для задач поиска оптимального управления особенно заметна на примерах сложных аэрокосмических постановок, где требуется строить управление в условиях неопределённостей и ограничений. Так, для задач стабилизации спутника и интеллектуального управления системой ориентации предложены различные варианты глубокого RL, демонстрирующие возможность формирования стабилизирующих стратегий при внешних возмущениях и неполной параметрической информации (Ma et al., 2018). Для задач оптимального по времени управления солнечным парусом (включая робастные постановки с неопределённостями оптических параметров и возмущениями) показано применение PPO-подобных алгоритмов для синтеза политики, сопоставляющей оптимальную ориентацию паруса текущему динамическому состоянию (Пантелеев, Пановский, 2016; Bianchi et al., 2025). Подобные результаты иллюстрируют общий тренд: RL используется либо как прямой генератор управления (политика как регулятор), либо как механизм ускорения/аппроксимации решения вложенной задачи оптимизации, возникающей в классических схемах планирования и управления (Bertsekas, 2024).
Одновременно с этим необходимо отметить ряд принципиальных вызовов, которые в значительной степени определяют текущую повестку исследований и практики применения RL к оптимальному управлению:
- для реальных динамических объектов сбор траекторий дорог и ограничен требованиями безопасности; следовательно, «чисто» модель-свободные методы нередко оказываются неприемлемыми без симуляции, переноса обучения и/или использования модели (Haarnoja et al., 2018)
- в классическом управлении устойчивость и ограничения задаются явно; в RL эти свойства не «появляются автоматически» и требуют специальных постановок (constrained RL, safe exploration, барьерные/штрафные функции, shield-подходы, комбинирование с MPC) (Achiam et al., 2017)
- политика, обученная в модели, может деградировать при несовпадении динамики, шумов и ограничений; практические решения используют доменную рандомизацию, робастные критерии, адаптацию и физически информированные ограничения
- для задач оптимального управления (особенно задач быстродействия с терминальными множествами) некорректная форма награды приводит к «нецелевому» поведению и трудной настройке; это одна из основных прикладных проблем при переходе от функционала к reward-сигналу
- глубокие RL-алгоритмы чувствительны к гиперпараметрам, распределениям начальных условий и случайности; устойчивые схемы (PPO/SAC и др.) нивелируют это зависимость, но не устраняют её полностью (Schulman et al., 2017).
Несмотря на описанные сложности, направление RL всё прочнее входит кибернетику и показывает отличные результаты, что делает это направление крайне перспективным для дальнейшего изучения. Далее в статье будут рассмотрены основные классы алгоритмов на базе обучения с подкреплением.
Модель-свободные методы по функциям ценности
Достоинства:
- off-policy обучение позволяет многократно переиспользовать накопленные данные, что критично при дорогой симуляции,
- решение формируется через -функцию, что удобно при наличии дискретных режимов и переключений (гибридные системы),
- при умеренной квантизации управления метод даёт прямой механизм получения регулятора.
Недостатки:
- квантизация управления быстро становится вычислительно неприемлемой и ухудшает точность,
- устойчивость обучения чувствительна к масштабу вознаграждений и распределению стартовых состояний,
- ограничительные условия (на состояние и управление) не соблюдаются автоматически и требуют дополнительных средств контроля.
С практической точки зрения value-based методы целесообразно рассматривать прежде всего в задачах, где действие естественно дискретно (выбор режима, конфигурации, последовательности операций), либо когда допускается ограниченная квантизация управляющего воздействия. В непрерывных задачах оптимального управления они чаще выступают как компонент комбинированных схем, дополняющих непрерывный регулятор дискретным модулем принятия решений.
Градиентные методы оптимизации политики
Среди современных on-policy методов наиболее распространены TRPO и PPO. TRPO определяет шаг обновления как задачу максимизации суррогатной цели при ограничении на KL-расхождение (дивергенция Кульбака-Лейблера) между новой и старой политикой, тем самым контролируя «размер» обновления и снижая риск деградации. PPO заменяет жёсткое ограничение на более простую клиппированную суррогатную функцию, что делает алгоритм существенно проще в реализации и, как правило, достаточно устойчивым на широком классе задач непрерывного управления (Schulman et al., 2017). Для инженерных постановок это означает наличие относительно «надёжной» базовой процедуры, которую можно использовать как для обучения регулятора с нуля, так и для доводки политики, полученной иным способом.
Достоинства:
-
естественная работа с непрерывными управлениями и параметрическими ограничениями на ,
-
относительно высокая устойчивость современных on-policy схем (особенно PPO) при корректной нормировке сигналов,
-
возможность прямого обучения «регулятора» без явного решения уравнений, следующих из условий оптимальности.
Недостатки:
-
низкая выборочная эффективность: данные, полученные старой политикой, ограниченно пригодны для обучения новой,
-
чувствительность к форме вознаграждения и к распределению стартовых состояний,
-
отсутствие встроенных гарантий соблюдения ограничений и устойчивости без специальных модификаций.
В результате on-policy policy gradient методы целесообразно использовать либо при наличии быстрого и достоверного симулятора, либо как этап «дошлифовки» политики, предварительно полученной иным способом (модель-ориентированным планированием или имитационным обучением) (Sutton, Barto, 2018).
Actor–Critic для непрерывного управления
Достоинства:
-
высокая выборочная эффективность за счёт off-policy данных и replay-буфера,
-
естественная работа с непрерывным управлением без дискретизации ,
-
возможность обучения на смешанных наборах траекторий, полученных при разных возмущениях и начальных условиях, что полезно при построении робастных стратегий.
Недостатки:
-
качество политики тесно связано с качеством критика; при ошибках аппроксимации возможны переоценка и деградация обучения,
-
чувствительность к нормировкам, масштабу вознаграждений, параметрам исследовательского шума и распределению стартовых состояний,
-
ограничения на состояние/управление не обеспечиваются автоматически и требуют специальных средств (проекции, барьерные конструкции, constrained RL).
Стохастические методы (SAC) обычно демонстрируют более корректное исследование и большую устойчивость к разреженным наградам (терминальные условия, минимальное время), поскольку энтропийная регуляризация препятствует преждевременному «схлопыванию» политики в узкую область управлений.
В результате off-policy actor–critic методы представляют собой один из наиболее практичных инструментов синтеза управления в высокоразмерных системах при наличии симулятора и возможности накопления данных.
Модель-ориентированное обучение с подкреплением
Ранним примером data-efficient model-based поиска политики служит подход PILCO, использующий вероятностную модель динамики и оптимизацию политики по ожидаемой стоимости (Sutton, Barto, 2018).
На практике распространены два типовых сценария:
-
Обучение модели + MPC/планирование. Сначала по данным строится прогнозная модель переходов (часто нейросетевая или ансамблевая), затем на каждом шаге решается короткогоризонтная задача оптимизации (shooting, CEM (Cross-Entropy Method), iLQR (iterative Linear Quadratic Regulator) и др.), а в контуре управления используется «уходящий горизонт» (receding horizon). Характерные представители этой линии - PETS (Probabilistic Ensembles with Trajectory Sampling) и родственные ансамблевые схемы, где неопределённость модели учитывается при планировании (Chua et al., 2018)
-
Обучение политики по синтетическим траекториям. Модель используется для генерации «мнимых» переходов (Dyna-подобная идея), после чего политика обучается как в model-free RL, но на расширенном датасете. Важный практический момент - ограничение длины синтетических роллаутов (симуляций), чтобы не накапливать ошибку модели.
Достоинства:
-
высокая выборочная эффективность и возможность обучения при малом числе реальных траекторий,
-
более прямое включение ограничений и терминальных условий через планировщик/MPC,
-
естественная возможность использовать структурные знания о физике (параметрические модели + обучаемые поправки).
Недостатки:
-
риск смещения из-за ошибки модели и деградации при переносе,
-
необходимость решать вложенную задачу оптимизации в реальном времени, что повышает вычислительную сложность,
-
чувствительность к параметризации модели и к качеству датасета.
Обучение по фиксированному датасету
В ряде инженерных приложений (и особенно в аэрокосмических задачах) онлайн-эксплорация недопустима: ошибки управления могут приводить к выходу из допустимой области, повреждению аппарата или срыву миссии. В таких условиях естественным становится offline (batch) RL, где обучение выполняется по фиксированному набору траекторий, а взаимодействие со средой в процессе обучения отсутствует. Датасет может быть получен либо по результатам эксплуатации, либо в симуляции, либо с помощью классических методов оптимального управления (например, методами прямой дискретизации, принципом максимума, MPC), что позволяет получить богатый набор квазиоптимальных траекторий.
Отдельного упоминания требует проблема оценки качества политики без запуска в реальной среде (off-policy evaluation). Классические оценки на основе важностного взвешивания теоретически корректны, но на длинных горизонтах обладают большой дисперсией; на практике применяются смешанные (doubly-robust) оценки и модельные аппроксимации. Для задач оптимального управления это означает необходимость иметь отдельный стенд валидации (симулятор/цифровой двойник) и контролировать «область применимости» обучаемой политики
Достоинства:
- отсутствие необходимости опасной онлайн-эксплорации,
- возможность использовать «наследованные» данные: траектории, полученные классическими оптимальными регуляторами, демонстрации экспертов, результаты численного решения задач оптимального управления,
- удобная интеграция с инженерным жизненным циклом: обучение → верификация на тестовых сценариях → внедрение.
Недостатки:
- высокая зависимость результата от полноты и качества датасета,
- сложность корректной оценки качества без дополнительных предположений,
- риск деградации при выходе за область, покрытую данными, особенно при сильных нелинейностях и разреженных терминальных наградах.
В задачах поиска оптимального управления offline RL часто выступает как «мост» между классическими методами и глубоким RL: сначала формируется датасет траекторий (например, методами оптимального управления или MPC), затем обучается политика обратной связи, обеспечивающая быстрый онлайн-расчёт управления и допускающая формальную верификацию на ансамбле тестовых сценариев.
Робастное RL и работа с неопределённостями
Даже при корректном алгоритме обучения возникает типичная инженерная проблема: политика, обученная в одном наборе условий, деградирует при изменении параметров объекта, возмущений и шумов измерений. Для задач оптимального управления это критично, поскольку реальная динамика почти всегда отличается от расчётной. Робастное RL рассматривает различные модели неопределённости и стремится синтезировать политику, устойчивую к вариациям среды.
С теоретической точки зрения естественной рамкой является robust MDP (Markov Decision Process), где переходы принадлежат неопределённому множеству, а оптимизация проводится по «наихудшему случаю» или по заданному распределению неопределённостей. Для непрерывных динамических систем аналогичная идея реализуется через случайные параметры модели (масса, моменты инерции, коэффициенты сопротивления и т.п.) и внешние возмущения. На практике наиболее распространена domain randomization: в процессе обучения параметры среды рандомизируются в заданном диапазоне, а политика оптимизируется по среднему качеству, что повышает переносимость на реальные условия (Tobin et al., 2017).
Более «жёсткие» варианты робастификации используют minimax-постановки и адверсариальные (намеренные) возмущения. В EPOpt обучение проводится на подмножестве наиболее «тяжёлых» сценариев (нижний квантиль по награде), что приближает критерий плохого случая и повышает надёжность. В адверсариальном RL вводится внешний агент-возмущатель, ухудшающий динамику, а обучаемая политика должна компенсировать худшие воздействия (Pinto et al., 2017). Отдельный класс составляют риско-чувствительные критерии, позволяющие управлять «хвостами» распределения качества, что важно для миссий с высокой ценой редких отказов.
С инженерной точки зрения полезны и более прикладные приёмы:
-
обучение ансамбля политик и выбор управления по принципу «согласия» (или с учётом дисперсии),
-
совмещение робастного обучения с идентификацией параметров «в контуре» и адаптацией,
-
введение в наблюдения явных оценок параметров (масса, момент инерции) или скрытых переменных, что переводит часть неопределённости в задачу оценивания состояния.
Эти приёмы не дают строгих гарантий, но часто существенно уменьшают деградацию качества.
Достоинства:
-
повышение переносимости и устойчивости к дрейфам параметров,
-
возможность учёта неопределённостей без явного вывода робастных условий устойчивости,
-
совместимость с базовыми RL-алгоритмами (PPO/SAC/TD3) как «надстройка».
Недостатки:
- рост вычислительных затрат: для покрытия диапазона параметров требуется существенно больше траекторий,
- риск излишней консервативности, когда политика теряет качество на номинальной модели,
- отсутствие гарантий, если реальные неопределённости выходят за обучающий диапазон.
В целом, робастные надстройки следует рассматривать как обязательный элемент практического применения RL в управлении сложными объектами, где модель неизбежно является приближённой.
Гибридные схемы RL
Практика применения RL к задачам оптимального управления показывает, что «чистые» схемы обучения редко используются в изоляции. Гораздо чаще эффективными оказываются гибридные подходы, в которых RL-модуль встраивается в классическую архитектуру управления и решает одну из вспомогательных задач: уточнение модели, настройка критерия, формирование опорного управления, компенсация немоделируемых эффектов. Такая гибридизация снижает риски обучения и упрощает верификацию.
Один из наиболее распространённых вариантов - связка RL и MPC. Здесь MPC обеспечивает явный учёт ограничений и предсказуемое поведение, а RL используется для
-
обучения модели динамики,
-
приближённого вычисления стоимости-к-идти/терминального функционала,
-
настройки весов в критерии,
-
ускорения решения вложенной оптимизационной задачи (например, через тёплый старт или параметризацию управляющего профиля) (Mayne, 2014).
В прикладном смысле MPC выступает «страховкой», ограничивающей действия обучаемого модуля внутри допустимой области по состояниям и управлениям.
Третья важная линия - связка имитационного обучения и RL. При наличии траекторий оптимального управления (полученных численным решением или экспертом) можно обучить политику методом поведенческого клонирования, а затем улучшить её RL-алгоритмом. Для снижения накопления ошибок используется DAgger-подобная схема агрегирования данных (Ross, Gordon, Bagnell, 2011), а для обучения по демонстрациям без явной модели поведения - методы типа GAIL (Generative Adversarial Imitation Learning) (Ho, Ermon, 2016). Для задач оптимального управления это особенно удобно: демонстрации позволяют быстро «подвести» политику к области приемлемого поведения, после чего RL уже оптимизирует тонкие характеристики (минимизация времени, расхода ресурса и т.п.).
Достоинства:
- повышение надёжности и предсказуемости за счёт базового регулятора/MPC,
- снижение требований к данным и ускорение обучения,
- более простая инженерная валидация (можно тестировать RL-модуль как надстройку).
Недостатки:
-
необходимость аккуратного согласования уровней (чтобы RL-поправка не разрушала свойства базовой системы),
-
рост сложности программной реализации,
-
риск «замыкания» на узкой области, заданной базовым регулятором, если требуется принципиально иное поведение.
В результате гибридные схемы представляются наиболее перспективными для реальных задач оптимального управления, поскольку позволяют сочетать вычислительную гибкость RL с формальными и проверяемыми элементами классической теории управления.
Заключение
Рассмотренные классы методов обучения с подкреплением формируют достаточно целостный инструментарий для решения прикладных задач поиска оптимального управления динамическими системами - от синтеза регуляторов с обратной связью до построения стратегий планирования при сложных терминальных условиях и жёстких ограничениях. Модель-свободные подходы (value-based, on-policy и off-policy actor–critic) позволяют получать управляющие политики без явного решения уравнений, следующих из условий оптимальности и потому особенно привлекательны при труднодоступных градиентах и сложной нелинейной динамике. Вместе с тем практика показывает, что ключевые инженерные ограничения - безопасность, робастность и переносимость - требуют специальных надстроек (constrained/safe RL, робастное обучение, offline-схемы) и тщательной верификации на ансамбле сценариев. Наиболее перспективным направлением для реальных систем управления представляются гибридные архитектуры, сочетающие RL с MPC и классическими регуляторами и подходами (Пантелеев, Бортаковский, 2016): они позволяют сохранить проверяемые элементы теории управления и одновременно использовать преимущества обучения по данным при наличии неопределённостей и немоделируемых эффектов.