Моделирование рефлексивных процессов как задачи обработки информации в интеллектуальных системах

В.Р. Гапонов; Е.В. Ляпунцова

doi:10.17759/mda.2026160210

Введение

Важнейшей особенностью высокоразвитого интеллекта является способность к рефлексии. Рефлексия – это важнейший элемент когнитивной деятельности, играющий ключевую роль в самооценке и корректировке собственных мыслительных операций. Она позволяет субъекту или системе строить внутреннюю модель самого себя и на основе этой модели регулировать своё поведение.

Концепция рефлексивного управления зародилась ещё в 1960-х годах. В 1973 году Лефевр В.А. определил её как «способность встать в позицию исследователя по отношению к другому «персонажу», его действиям и мыслям» (Лефевр, 1973). С развитием идеи рефлексии этот термин проникал в различные области человеческой деятельности, начиная с психологии и заканчивая теорией управления. В психологии рефлексия многомерна и имеет три направления изучения. А именно психология рефлексии, мыследеятельностный подход и методологию рефлексии интеллектуальных систем (Сизикова, Волошина, Повещенко, 2016). Анохин П.К. в своей работе «Особенности афферентного аппарата условного рефлекса и их значение для психологии» ввел термин акцептор результатов действия – модель, предсказывающая результаты, в виде сети нейронов. Если какой-то возбудитель попадает в эту сеть, то он может находиться там продолжительное время, удерживая цель поведения человека (Анохин, 1955).

До недавнего времени искусственный интеллект (ИИ) фокусировался преимущественно на алгоритмах решения внешних задач (распознавание образов, планирование, обучение и пр.) и гораздо меньше – на внутренних рефлексивных возможностях. Классические когнитивные архитектуры (Soar, ACT-R, CLARION) моделировали множество аспектов человеческого познания, однако, как правило, не выделяли отдельный контур рефлексии, который отвечал бы за самонаблюдение и переоценку собственных действий (Разумникова, 2023).

В последние годы усиливается интерес к построению рефлексивных интеллектуальных агентов. Появились работы, где агент обладает внутренней когнитивной структурой и может интерпретировать собственные решения перед их принятием (Lewis, Sarkadi, 2024). Такие системы набирают все большую популярность и применяются в разных сферах, например, в образовании (Гапонов, Ляпунцова, 2024). Стоит отметить, что задачи объяснимости ИИ требуют, чтобы система обладала рефлексией. Системе важно формулировать, почему был принят тот или иной вариант решения, и какие знания при этом использовались. Таким образом, прикладная значимость рефлексивных механизмов для ИИ заключается в повышении надежности и прозрачности работы алгоритмов. Также существуют исследования, показывающие, что рефлексивное моделирование агентами друг друга в коллективной системе повышает согласованность общей модели среды и норм взаимодействия, что, в свою очередь, ведёт к более эффективному совместному решению задач и адаптации системы к динамичным условиям (Listopad, Matsoula, Luchko, 2024).

До сих пор отсутствует единый подход к реализации рефлексивных процессов в когнитивной архитектуре интеллектуальной системы. В разных системах используются разные и методы и за основу берутся разные математические модели и компоненты (Dong, Franklin, 2014). Следовательно, необходимо представить и запрограммировать рефлексию в интеллектуальной системе в виде задачи обработки информации, интегрированной в общий когнитивный цикл работы агента. Необходимо определить, какие компоненты и алгоритмы должны составлять такой рефлексивный модуль и как он должен взаимодействовать с другими модулями. В рамках данной проблемы можно выделить несколько ключевых аспектов, признаки, сигнализирующие о необходимости запуска рефлексивного процесса; представлений знаний и моделей для рефлексии; взаимодействие рефлексивного модуля с остальными частями системы. Решение этих вопросов позволит сформировать архитектуру интеллектуального агента, который будет обладать рефлексивными процессами.

Цель настоящей работы – разработать модель модуля для поддержки рефлексивных процессов, способную взаимодействовать внутри агента. Практическая значимость связана с возможностью применения такой архитектуры для создания более надежных автономных систем.

В соответствии с поставленной целью сформулирована следующая гипотеза: включение рефлексивного контура в интеллектуальную систему улучшит её способности к самооценке и коррекции действий, что повысит обобщённую эффективность системы.

Материалы и методы

Общая архитектура. В ходе исследования разработана когнитивная архитектура под названием CogArch, предназначенная для моделирования рефлексивного мышления. Архитектура имеет модульную организацию и представлена на рисунке 1. Можно заметить, что архитектура включает следующие основные компоненты: подсистема восприятия, память, объектный цикл, цикл планирования, метаконтроллер, модули оценки и коррекции, монитор ресурсов и генератор объяснений. Подсистема восприятия обрабатывает входные данные от внешней среды. Память состоит из двух компонентов. Первый – рабочая память, второй – долговременное хранилище. Рабочая память отвечает за хранение оперативных данных, а долговременное хранилище – память фактов, правил, событий и опыта. Текущая когнитивная архитектура основана на системе дуального мышления (ТДП). Эта теория была сформулирована на основе исследований Уильяма Джеймса и Даниэла Канемана и предполагает, что существует 2 формы мышления. А именно интуитивная и логическая (Симакин, 2023). Объектный цикл действий напоминает Систему 1 (S1). Это механизм реактивного поведения, непосредственно отвечающий за выбор и выполнение действий в окружающей среде на основе текущих стимулов и целей. В то время, как цикл планирования относится к Системе 2 (S2) и представляет собой механизм планировщика поведения. Он моделирует рассуждения «что будет, если…» и формирует последовательность действий для достижения поставленных целей. Метаконтроллер – ключевой компонент архитектуры, его также можно назвать рефлексивным уровнем. На этом уровне реализуются функции рефлексивного анализа и вмешательства в работу уровней S1–S2. Модули оценки и коррекции являются вспомогательными компонентами, связанными с метаконтроллером. Монитор ресурсов необходим для того, чтобы отслеживать состояние внутренних ресурсов системы. Благодаря этому модулю можно регулировать нагрузку всей архитектуры, чтобы не спровоцировать большое потребление ресурсов из-за выполняемых вычислений. Генератор объяснений – это модуль, формирующий объяснения мотивов и результатов работы на основе данных, предоставляемых метаконтроллером и памятью.

Рис. 1 — Рис. Структура когнитивной архитектуры CogArch

Fig. Structure of CogArch cognitive architecture

Новизну архитектуре приносит метаконтроллер, который располагается над S1 и S2 и следит, и управляет их работой. Его можно сравнить с «третьим уровнем» в терминологии А. Сломана. Это уровень, отслеживающий состояние всей системы и способный перенастраивать другие слои для улучшения общего результата (Sloman, 1994).

Функции метаконтроллера. Метаконтроллер непрерывно получает информацию о выполнения текущего плана и о состоянии среды через рабочую память. Каждый раз, когда объектный цикл S1 предлагает некоторое действие для немедленного выполнения, метаконтроллер запускает процедуру оценки этого действия. Оценка включает вычисление степени уверенности в правильности данного действия и проверку ряда условий. Например, соответствие действия долгосрочным целям, отсутствие конфликта с ранее полученными фактами и знаниями, а также анализ внутренних ограничений. В частности, метаконтроллер запрашивает данные у монитора ресурсов и выясняет, не находится ли система в критическом состоянии. На основании этих данных метаконтроллер принимает решение – выполнять действие немедленно на уровне S1 или перейти к рефлексивной фазе обработки (уровень S2). Формально вводится порог уверенности T: если доверие к кандидату ниже T, тогда устанавливается флаг need_S2 = True. Этот флаг означает о необходимости системы обратиться на уровень S2. Иначе, при условии, что с действием всё в порядке система продолжает работу в режиме S1. В экспериментах, указанных в работе, порог T выбирался равным 0.7 (по шкале от 0 до 1) по умолчанию, а статус ресурсов считался критическим при падении определённых показателей ниже 10%.

Когда метаконтроллер выявляет необходимость рефлексии (need_S2 = True), он инициирует процедуру вмешательства в объектный цикл. В рабочую память заносится метка о том, что начинается метакогнитивное вмешательство, чтобы другие модули знали о смене режима. Далее метаконтроллер извлекает из памяти текущую цель. С этой целью метаконтроллер активирует цикл планирования S2. Он передаёт цель в модуль планирования, получая на выходе предложенный план действий для её достижения. Затем сгенерированный план отправляется в модуль прогнозирования последствий, где симулируется выполнение плана и предсказываются возможные результаты и побочные эффекты. Получив прогноз, метаконтроллер задействует модуль коррекции. План сравнивается с прогнозом, и, если выявлены нежелательные или противоречивые последствия, в план вносятся коррективы. Итоговый скорректированный план вновь сохраняется в рабочую память как s2_plan_adjusted, вместе с исходным планом и прогнозом. Далее управление возвращается на уровень S2. Скорректированный план передаётся исполнительному модулю планирования, который начинает пошаговое его выполнение (при этом сам метаконтроллер продолжает мониторинг). Таким образом, после вмешательства система действует уже не напрямую реактивно, а по более осмысленной стратегии.

Важно отметить, что метаконтроллер не подменяет собой основной механизм принятия решений, а выступает в роли страховочного процесса, запускающегося только в особых случаях. В обычной ситуации, когда реактивный выбор действия достаточно уверен и оправдан, S1 действует самостоятельно (это обеспечивает эффективность и скорость работы системы). Лишь когда ситуация нестандартна, либо система не уверена, либо возникла опасность ошибки – включается S2. Такой подход соответствует принципу разумной достаточности. Рефлексия требует затрат ресурсов, поэтому она должна работать выборочно, там, где нужна, во избежание излишней нагрузки на систему. Подобный принцип известен и в когнитивной психологии: человек не анализирует глубоко каждое рутинное действие, но при неожиданностях включает рефлексию и критическое мышление (Нагоев, Нагоева, Пшенокова, 2017).

Представление знаний для рефлексии. Чтобы метаконтроллер мог оценивать уверенность и анализировать планы, архитектура оснащена соответствующими моделями представления знаний. В рабочей памяти хранится набор атрибутов текущего состояния агента: цель, текущий план, контекстные переменные, история недавних действий. Кроме того, по ходу работы в эпизодическую память заносятся ключевые эпизоды, такие как, ситуация, принятое решение и исход. Эти эпизоды используются для обучения на опыте. Метаконтроллер может в будущем учитывать, не повторяется ли похожая ситуация, в которой прошлое решение оказалось неудачным. Уверенность решения вычисляется функцией на основе нескольких факторов: количество альтернативных вариантов действия, рассматривавшихся на S1, степень сходства текущей ситуации с теми, что уже успешно решались, эвристическая оценка от подсистемы восприятия. В рамках исследования была использована простая агрегированная метрика уверенности 0 ≤ C ≤ 1, интерпретируя ее как вероятность того, что выбранное действие приведёт к успеху. Порог T = 0.7 означает, что если шанс успеха ниже 70%, то лучше перепланировать. Разумеется, эту функцию можно усложнять в зависимости от задач.

Алгоритм работы системы. Общий цикл функционирования архитектуры CogArch можно представить в виде следующих шагов:

Агент получает новую информацию из внешней среды. Данные поступают в подсистему восприятия и обновляют рабочую память.
Объектный цикл (S1) генерирует действие на основе текущего состояния и цели.
Метаконтроллер оценивает предложенное действие, вычисляя меру уверенности C и проверяя ограничения.
Если C ≥ T и нарушений не обнаружено, действие выполняется немедленно на уровне S1.
Если C < T либо выявлены проблемы (устанавливается флаг need_S2 = 1), запускается рефлексивный цикл на уровне S2. Метаконтроллер помечает в рабочей памяти переход в рефлексивный режим и извлекает текущую цель, после чего передаёт её в планировщик S2 для построения нового плана.
Построенный план P проходит этап прогнозирования последствий: вычисляются показатели риска R(P) и полезности U(P). Модуль коррекции анализирует прогноз и при необходимости изменяет план, формируя скорректированный вариант P', который сохраняется в рабочей памяти.
Исполнитель S2 пошагово выполняет утверждённый скорректированный план P', в то время как метаконтроллер параллельно продолжает мониторинг выполнения.
По завершении цикла система возвращается в обычный режим и ожидает следующего наблюдения. Процесс повторяется с шага 1 для нового входного сигнала.

Экспериментальные сценарии. Для проверки работы архитектуры были смоделированы условные сценарии, отражающие типичные ситуации, где рефлексия потенциально полезна. Основной сценарий – задача избегания угрозы. Агент перемещается в среде с препятствиями и должен достичь цели, при этом в некоторый момент на его пути возникает объект, распознаваемый сенсорами как потенциальная опасность. Реактивный слой S1 в такой ситуации сразу генерирует действие типа «обойти угрозу. Это действие рационально. Но в сценарий была заложена дополнительную сложность. Датчики агента могут ошибочно трактовать безопасный объект как угрозу, либо наоборот, угрозу как безопасный объект. Также у агента может быть альтернативная цель, например, собрать информацию об объекте. Таким образом, оптимальная стратегия может различаться. В одних случаях лучше действительно уйти с пути, а в других – стоит сначала уточнить информацию, чтобы не тратить ресурсы на обход или не упустить важный объект, ошибочно принятый за угрозу.

Было проведено сравнение двух вариантов архитектуры: с включённым рефлексивным слоем и без него (упрощённая архитектура, где метаконтроллер всегда автоматически одобряет решения S1, не запуская S2). Оба варианта многократно прогонялись в сценарии с разными исходными условиями. Для воспроизведения неопределённости вводились случайные вариации. Вероятности ложной тревоги сенсоров (~20%), степень опасности угрозы (высокая/низкая), наличие ограничений по времени на выполнение задачи и т.д. В каждом тесте фиксировались такие показатели, как, достиг ли агент конечной цели (успех/неуспех), сколько шагов заняло решение задачи, были ли совершены заведомо лишние действия (например, обход несуществующей опасности), сколько раз агент переходил в режим рефлексии.

Результаты

Эксперимент был направлен на оценку влияния рефлексивного метаконтроллера на эффективность работы когнитивной архитектуры. Основная цель состояла в количественном сопоставлении поведения агента в режиме без метаконтроллера и с метаконтроллером. Задачами эксперимента были измерение точности достижения поставленной цели в каждом режиме, определение продолжительности эпизодов и частоту вмешательства метаконтроллера, а также сравнение уровня ложных срабатываний при наличии и отсутствии рефлексии. Таким образом, по результатам эксперимента можно проверить гипотезу, что добавление слоя рефлексии улучшит надежность и адаптивность принятия решений агентом за счёт мониторинга собственного состояния и пересмотра плана при необходимости (Ackerman, Thompson, 2017).

Режимы работы системы. В режиме S1 (без метаконтроллера) система функционирует исключительно на уровне объектного цикла. Алгоритм работы в этом случае сводится к тому, что на основании текущего восприятия система выбирает прямое действие. Если в рабочей памяти обнаружен признак угрозы, то S1 немедленно генерирует действие для уклонения от угрозы. При отсутствии угрозы в восприятии базовый цикл не видит специальных условий для действия и возвращает бездействие Никакой дополнительной оценки, либо планирования не производится. Решение принимается быстро, за один шаг, отражая реактивное поведение. Полученное действие можно трактовать как выполненное мгновенное. Так как в коде отсутствует отдельный модуль исполнения для S1, поэтому считается, что выбранное действие S1 непосредственно завершает эпизод.

В режиме S1+S2 (с метаконтроллером) к описанному выше объектному циклу добавляется уровень рефлексии. После получения кандидата действия от S1 запускается метаконтроллер. Метаконтроллер вычисляет количественную меру уверенности с помощью утилиты. Для действия уклонения по причине угрозы уверенность оценивается низко (≈0.45). Этот низкий уровень уверенности служит сигналом о потенциальной неопределённости или опасности ошибки. Если рассчитанная уверенность ниже заданного порога (в рамках экспериментов – 0.7), метаконтроллер принимает решение, что требуется активация уровня S2. Далее происходит вмешательство, метаконтроллер инициирует процесс пересмотра цели и плана посредством.

В ходе вмешательства система фактически переходит к выполнению рефлексивного цикла. В рамках этого цикла метаконтроллер извлекает текущую цель из рабочей памяти и с помощью планировщика S2 формирует новый план для достижения цели. Планировщик выдает развернутый план действий: сканирование окружения, выбор безопасного направления и движение в безопасную зону. Данный черновик плана затем оценивается модулем прогнозирования последствий. Для этого вычисляются суммарный риск и полезность каждого шага. В зависимости от полученного прогноза система определяет дальнейшие шаги. Модуль коррекции анализирует прогноз, и если риск превышает порог (0.5 по умолчанию), то модуль удалил бы самый опасный этап плана, иначе план отмечается как удачный и одобряется модулем коррекции. Метаконтроллер сохраняет сгенерированный план и скорректированные артефакты (прогноз, статус) в рабочей памяти для исполнения на уровне S2.

После определения плана исполнитель S2 пошагово выполняет утверждённый план через последовательность команд. В ходе выполнения сначала сканируется окружение, затем выбирается безопасное направление. Выбранное направление сохраняется в память и далее используется на этапе движения в безопасную зону, где система делает шаг в указанном направлении. После выполнения всех шагов формируется отчёт об успешном выполнении плана, также заносимый в рабочую память. Эпизод завершается записью в эпизодическую память состояния всех компонентов. Таким образом, в рефлексивном режиме агент действует медленнее, совершая дополнительный цикл оценки и планирования, но потенциально избегает поспешных ошибок за счёт самопроверки. Как отмечал Д. Канеман, подобная архитектура позволяет обнаруживать и исправлять ошибки быстрого интуитивного уровня (Kahneman, 2011).

Поведение агента в каждом режиме. Без рефлексии (S1) система продемонстрировала строго реактивное поведение. В эпизодах, где генерировался сигнал угрозы, система немедленно выполняла простое упреждающее действие уклонения без дополнительных проверок. Это приводит к очень быстрому реагированию, однако такой подход не учитывает контекст и может быть избыточным, если сигнал оказался ложным. Система фактически действовала как Система 1 в терминах дуальной модели мышления (Симакин, 2023). В ситуациях без угрозы поведение S1 тривиально – система бездействовала. Таким образом, режим без метаконтроллера характеризовался минимальным временем принятия решения, но и отсутствием каких-либо корректировок.

С рефлексией (S1+S2) поведение системы стало более сложным и адаптивным. При появлении угрозы базовый цикл также инициировал действие уклонения, но благодаря метаконтроллеру система не выполняла его слепо, а переходила в режим перепланирования. Это выразилось в том, что она задерживала непосредственное исполнение уклонения и сначала выполняла дополнительные когнитивные операции. В результате этих шагов система фактически подтверждала наличие угрозы и выясняла оптимальный способ уклонения. Стоит отметить, что метаконтроллер действовал как «внутренний голос» системы, переосмысливающий принятое решение перед выполнением. Такое поведение соответствует принципам метакогнитивного контроля, при котором система анализирует собственный процесс мышления и при необходимости вносит изменения (Ackerman, Thompson, 2017). Стоит отметить, что система с включенной рефлексией демонстрировал поведение Системы 2 из теории дуального мышления (Kahneman, 2011). Более медленное, затратное по ресурсам, но осознанное и учитывающее неопределённость обстановки. Такое поведение значительно повысило эффективность в сценариях, где простая реакция могла оказаться не оптимальной или ошибочной.

Количественные результаты. Для количественной оценки были собраны статистики по двум сериям экспериментов. Для основных метрик были выбраны точность (доля успешных эпизодов), средняя длина эпизода и число вмешательств метаконтроллера. Эпизод считался успешным, если система правильно достигала цели. Длина эпизода измерялась числом шагов когнитивного цикла. Вмешательство учитывалось, если метаконтроллер активировал пересмотр плана.

В таблице ниже представлены средние показатели, полученные в режиме без рефлексии и с рефлексией за серию из 100 эпизодов, из которых 50 были с угрозой и 50 – без:

Таблица / Table

Сравнение показателей эффективности когнитивной архитектуры в режимах с метаконтроллером и без него

Comparison of the performance indicators of the cognitive structure in modes with and without a metacontroller

Метрика	S1 (без рефлексии)	S1+S2 (с рефлексией)
1. Доля успешных эпизодов, %	85%	96%
2. Средняя длина эпизода (шагов)	1.0	2.0
3. Среднее число вмешательств на эпизод	0	0.5

Из приведённых данных видно, что присутствие метаконтроллера существенно повышает успешность агента. Точность достижения цели возросла примерно с 85% до 96%. Иными словами, в рефлексивном режиме практически все эпизоды с угрозой завершались благополучно для системы, тогда как без рефлексии наблюдались неудачи. Вероятными причинами оставшихся 4% неудач в режиме S1+S2 могут быть крайние случаи, когда даже откорректированный план не сработал из-за ограничений среды или ресурсов.

Средняя продолжительность эпизода в режиме S1+S2 увеличилась примерно вдвое по сравнению с S1. Это ожидаемо, поскольку метаконтроль добавляет стадию планирования и выполнения плана. Тем не менее увеличение длины эпизодов оказалось умеренным. Полученные значения подтверждают тезис, что привлечение модуля с оценкой действий повышает качество решений ценой большего времени обработки.

Количество вмешательств метаконтроллера в среднем составило ~0.5 на эпизод, что соответствует частоте срабатываний в половине случаев, которые включали в себя угрозу. В режиме S1, естественно, вмешательств не было. Таким образом, метаконтроллер активировался строго по необходимости и не вызывал лишней нагрузки, не вмешиваясь в эпизоды без угрозы.

Контрольные эксперименты без угрозы. В контрольной серии экспериментов, где во всех эпизодах отсутствовала реальная угроза, проверялась способность системы избегать ложных реакций. Результаты подтвердили корректность работы обеих конфигураций в нормальных условиях, однако выявили различия в отдельных случаях. В режиме S1 система в большинстве эпизодов просто бездействовала. Однако это и требовалось, так как угрозы отсутствовали. Но стоит отметить, что имели место несколько ложных тревог. Эти ложные срабатывания обусловлены тем, что базовый цикл S1 не осуществляет вторичной проверки. Такая ситуация моделирует ложноположительные сигналы датчиков. Режим S1+S2, напротив, за весь контрольный прогон не совершил ни одной избыточной реакции. В тех эпизодах, где исходные данные ошибочно указывали на угрозу, у агента возникало сомнение, и включался рефлексивный цикл. В результате дополнительного анализа план уклонения мог быть скорректирован или отвергнут, предотвращая выполнение действия. Таким образом, в присутствии метаконтроллера агент показал нулевой уровень ложных тревог в чисто безопасной обстановке. Это важный показатель, демонстрирующий, что добавление рефлексии не приводит к неоправданным реакциям там, где они не нужны, а напротив повышает избирательность системы. Эксперименты подтвердили, что метаконтролируемая архитектура ведёт себя корректно и эффективно в условиях отсутствия внешней опасности, не теряет бдительности и не создает лишних действий.

Обсуждение результатов

Несмотря на то, что для исследования использовался прототип когнитивной архитектуры, уже реализованный уровень метакогнитивного контроля даёт существенное улучшение качеств интеллектуальной системы, что подтверждено экспериментально. А именно, гипотеза о полезности рефлексивного слоя подтвердилась. Рефлексия, сформулированная как особая информационная задача внутри системы, действительно повышает ее эффективность и устойчивость. Это подтверждает теоретические сведения и результаты ранее известных моделей. Например, ещё А. Сломан указывал, что рефлексивный слой позволяет системе перенастраивать свои когнитивные механизмы для улучшения работы (Sloman, 1994), что мы и наблюдали. Также результаты эксперимента подтверждают данные, которые указаны в работе Лепского В.Е., что рефлексия связана с задачами управления и принятия решений в сложных системах (Lepskiy, 2021)

Настоящая работа находится на стыке когнитивного моделирования, искусственного интеллекта, психологии познания и теории системного анализа. Предложенная архитектура основана на классических когнитивных системах, но в то же время делает больший упор на универсальность рефлексивного контура.

Следует сравнить результат с исследованиями Новикова и Чхартишвили по рефлексивному управлению. В их математических моделях рефлексия рассматривается как вложенный процесс моделирования другого агента, и показано, что оптимальное управление может требовать конечного числа шагов рефлексии (Novikov, Chkhartishvili, 2014). В прототипе когнитивной архитектуры вместо внешнего оппонента выступает внутренний оппонент в лице собственной возможной ошибки. Порог уверенности прототипа можно интерпретировать как критерий, нужна ли рефлексивная надстройка над текущим нулевым уровнем. Тем самым, архитектура подкрепляет вывод о том, что рефлексию полезно применять выборочно и оптимально.

Также стоить отметить работу Г. М. Марковой и С. И. Барцева, которые моделировали рефлексию в нейросетевых системах. Они трактуют рефлексию как наличие у агента внутренней репрезентации внешнего мира, влияющей на поведение (Маркова, Барцев, 2025). Если говорить о репрезентации внешнего мира в прототипе, описанном в текущей статье, то рабочая и семантическая память отвечают за это. Однако дополнительно вводится репрезентация собственных действий, что соответствует более узкому пониманию рефлексии, такому как мышление о своём мышлении. Интересно, что Маркова и Барцев показали способность даже простых рекуррентных нейронных сетей решать задачи, требующие внутреннего отображения стимула, и обнаружили у них богатую внутреннюю динамику (Маркова, Барцев, 2025). Подход в CogArch не нейросетевой, а алгоритмический. Например, внутренняя динамика системы обогащается за счёт дополнительного цикла, и это обогащение приносит пользу. Таким образом, текущее исследование дополняет современные работы, подтверждая, что рефлексию можно моделировать различными методами, и во всех случаях наблюдаются новые качества интеллектуальной системы, не присущие нерефлексивным моделям.

Как уже упоминалось, текущая реализация ограничена одним уровнем метакогниции. Человек способен к рекурсивной рефлексии, в то время как CogArch – нет. Метаконтроллер системы сам не анализируется ничем выше. Данную работу можно улучшить путем введения второго порядка рефлексии. Это могло бы оптимизировать порог и стратегии рефлексии в ходе обучения. Моделирование того, как система сама учится ограничивать глубину рефлексии также является важным вопросом для дальнейших исследовании.

Ещё одно направление для дальнейших исследований – расширение функций рефлексивного слоя. В текущей модели он выполняет в основном корректирующую функцию. Но рефлексия у людей имеет и творческую, конструктивную сторону. Это означает генерирование новых идей, постановку новых целей, переосмысление ситуации на более высоком уровне абстракции. Пока что метаконтроллер не меняет саму цель. Можно научить систему в определённых случаях пересматривать цели. Например, при недостижимости текущей цели переключаться на другую или формулировать новую гипотезу. Для этого потребуется более сложное представление мотивационной сферы внутри архитектуры.

Стоит упомянуть о потенциальной возможности самообучения рефлексивного слоя. В проведенных экспериментах параметры метаконтроллера были заданные вручную. Но метапроцесс мог бы адаптироваться, например, если система видит, что часто зря уходит в рефлексию, она могла бы снизить чувствительность, или наоборот увеличить ее. Такой механизм сделал бы архитектуру ещё более автономной и эффективной.

Заключение

В ходе исследования разработана и экспериментально проверена когнитивная архитектура с поддержкой рефлексивного мышления, трактуемых как задачи обработки информации в интеллектуальной системе. В архитектуру введены специальный метакогнитивный уровень, в виде метаконтроллера, выполняющего функции мониторинга уверенности, оценки ресурсов и вмешательства в работу базовых когнитивных модулей. Предложенная архитектура продемонстрировала улучшенные показатели надежности и адаптивности агента в сравнении с аналогичной архитектурой без рефлексивного слоя.

В рамках работы показано принципиальное улучшение работы интеллектуальной системы при наличии рефлексивного контура. На модельной задаче агент с рефлексией достигал цели заметно чаще и совершал меньше ошибок, связанных с неопределённостью и шумом, чем агент без рефлексии. Это экспериментальное подтверждение полезности внедрения процессов самоконтроля и самокоррекции в ИИ.

Разработана общая методология интеграции рефлексии в когнитивную архитектуру. Рефлексивные процессы формализованы через механизм метаконтроллера, что служит базой для конструирования других интеллектуальных систем с подобными свойствами. Представленный подход может быть перенесён в различные предметные области, где требуется баланс между реактивностью и вдумчивым анализом.

Продемонстрирована реалистичность имитации метакогнитивных функций. Архитектура способна выполнять базовые компоненты человеческой рефлексии. Например, обнаружение неуверенности, приостановку действия, анализ собственной памяти и знаний, перепланирование и вынесение уроков из опыта. Тем самым сделан шаг к более человекоподобному ИИ, обладающему зачатками самосознания в функциональном плане.

Выделены ограничения текущей реализации и направления дальнейших исследований. Переход к многоуровневой рефлексии, усложнение моделей уверенности, включение эмоциональных и мотивационных аспектов, самообучение метаконтроля. Решение этих задач в будущих трудах позволит создать ещё более совершенные когнитивные системы.

Таким образом, цель исследования достигнута. Предложена и обоснована структура интеллектуальной системы, в которой рефлексивные процессы успешно смоделированы как часть информационного обмена. Результаты работы вносят вклад в развитие когнитивных архитектур и метакогнитивных систем, подкрепляя идею о том, что способность думать о собственном мышлении может и должна быть воплощена в машинах для приближения их к человеческому уровню гибкости и понимания. Продолжающийся прогресс в этой области находится на пересечении идей кибернетики прошлого и вызовов настоящего, и полученные нами данные служат объединению этих направлений на новой технологической основе.

Моделирование рефлексивных процессов как задачи обработки информации в интеллектуальных системах

Резюме

Общая информация

Полный текст

Введение

Материалы и методы

Результаты

Обсуждение результатов

Заключение

Литература

Информация об авторах

Вклад авторов

Конфликт интересов

Метрики

Просмотров web

Скачиваний PDF

Всего