Введение
В последние годы использование интеллектуальных ассистентов, основанных на больших языковых моделях, стремительно расширяется. Такие системы применяются для анализа, интерпретации и генерации текстов в самых различных предметных областях. При этом значительная часть пользователей интеллектуальных ассистентов не обладает ни специальной математической подготовкой, ни опытом формального анализа текстовой информации. В результате возникают проблемы, связанные с некорректной интерпретацией результатов работы интеллектуальных ассистентов, а также с попытками их применения без достаточного понимания ограничений используемых технологий.
Одной из наиболее обсуждаемых проблем, сопровождающих практическое использование интеллектуальных ассистентов, является генерация правдоподобной, но неверной информации, получившая название «галлюцинаций». Известно, что интеллектуальный ассистент может формировать убедительно выглядящие ответы, не соответствующие фактическому или концептуальному содержанию рассматриваемой предметной области. Более того, при соответствующей формулировке запроса он способен последовательно обосновывать утверждения, логически противоречащие друг другу. Это существенно осложняет использование интеллектуальных ассистентов в задачах анализа информации и принятия решений.
В связи с этим актуальной задачей становится разработка методов, позволяющих формализовать анализ смыслового содержания текстов, используемых при взаимодействии с интеллектуальными ассистентами. В частности, представляет интерес создание инструментов, позволяющих количественно оценивать смысловое содержание текстов и промптов, сравнивать их между собой, а также выявлять отклонения от концептуальных оснований заданной предметной области.
В данной работе предлагается подход, основанный на представлении смыслового содержания текстов в виде разложения по набору базовых смысловых компонентов, характерных для рассматриваемой предметной области. Эти компоненты формируются с использованием интеллектуального ассистента и далее используются как базис для построения смысловых спектров исследуемых текстов. Нормированные смысловые спектры, называемые далее смысловыми профилями, рассматриваются как дискретные распределения вероятностей.
Используемые определения и понятия
Рис. 1. Схема алгоритма оценки корректности текста и его отрицания
Fig. 1. Scheme of the algorithm for assessing the correctness of the text and its negation
Под промптом далее понимается запрос к ИА, содержащий рекомендации по формату результатов, формируемых в ответ на этот запрос.
Под смысловыми компонентами понимаются базовые конструктивные элементы, на основе которых строится описание и объяснение содержания понятий, закономерностей и явлений в определённой предметной области.
Под постулатами понимаются фундаментальные положения, утверждения или принципы, которые без доказательства принимаются в рамках данной предметной области и служат основой для дедуктивного построения всей релевантной теоретической системы.
Пусть
Связь приведённых выше понятий и промптов представлена на рис. 1.
Последовательность воздействий этого оператора на смысловые профили можно формально рассматривать как марковский процесс с дискретными состояниями и непрерывным временем:
Решаемые задачи
Опираясь на введённые выше определения и понятия, представленный в этой работе подход позволяет решать следующие основные задачи:
-
выявлять «галлюцинации», генерируемые ИА;
-
анализировать и интерпретировать тексты из заданной предметной области исходя из их смыслового профиля (прямая задача);
-
анализировать и интерпретировать промпты исходя из заданного ими изменения смысловых профилей (прямая задача);
-
конструировать тексты, имеющие заданный смысловой профиль (обратная задача);
-
конструировать промпты, обеспечивающие заданное преобразование смысловых профилей (обратная задача).
В зависимости от особенностей прикладной задачи корректный текст определяется как
Рассмотренный подход есть альтернатива «методу маятника» (Wilkinson, 1988).
Утверждение. Для стохастической матрицы с простым спектром вещественным собственным значениям соответствуют одномерные инвариантные подпространства, а парам комплексно-сопряжённых собственных значений — двумерные инвариантные вещественные подпространства.
-
тождественного преобразования в одномерном инвариантном подпространстве, соответствующем единичному собственному значению,
-
сжатия с коэффициентом смысловых профилей в одномерных инвариантных подпространствах, соответствующих другим вещественным собственным значениям , и
-
поворотов на угол в комбинации со сжатием расстояния до начала координат с коэффициентом в базисе из вещественной и мнимой частей комплексного собственного вектора в двумерных инвариантных подпространствах, соответствующих парам комплексно-сопряжённых собственных значений («трансформация по спирали»).
Интерпретации, построенные по заданным промптам исходя из оценок вызываемых ими преобразований смысловых профилей, а также интерпретации, построенные по заданным текстам путём построения их смысловых профилей, будем называть спектральными интерпретациями, или S-интерпретациями, соответственно, промптов и текстов.
В свою очередь, учитывая современные возможности ИИ, можно - путём создания определённых промптов - ставить как задачу конструирования промптов, обеспечивающих заданные преобразования смысловых профилей, как и задачу конструирования текстов, имеющих заданный смысловой профиль. Будем называть такое конструирование, соответственно, обратной S-интерпретацией операторов в пространстве дискретных распределений вероятностей и обратной S-интерпретацией текстов в заданной предметной области. Учитывая трудность корректного решения этих задач, их практическая реализация требует накопления определённого опыта.
Оценка стохастической матрицы, представляющей действие оператора в пространстве дискретных распределений вероятностей
Будем называть указанные выше неравенства условием квазистационарности.
Иллюстрация применения рассмотренного подхода
Промпт 1
Ты — эксперт в области 'Культурно-историческая психология'. Назови ровно 5 ключевых смысловых компонентов этой предметной области.
Ответ 1
Промпт 2
Оцени семантическую близость текста к каждому из 5 смысловых компонентов.
Текст: "Сознание формируется через культуру и социальные отношения".
Компоненты:
1. Высшие психические функции
2. Опосредствование
3. Интериоризация
4. Зона ближайшего развития
5. Социальная ситуация развития
Для каждого дай оценку от 0.0 (не связано) до 1.0 (полностью связано).
Формат: только 5 чисел через запятую. Без пояснений.
Ответ 2
0.8, 0.7, 0.6, 0.3, 0.9
После нормировки: (0.242; 0.212; 0.182; 0.091; 0.273)
Промпт 3
Ты — эксперт в области ‘Культурно-историческая психология’. Сформулируй ровно 5 фундаментальных постулатов этой предметной области. Постулаты — это базовые утверждения, принимаемые без доказательства и служащие основой для построения теоретической системы данной области. Формат: нумерованный список, по одному постулату на строку. Только список, без пояснений.
Ответ 3
Таблица 1 / Table 1
|
|
|
|
|
|
|
|
|
0.268 |
0.058 |
0.321 |
0.259 |
0.094 |
|
|
0.036 |
0.257 |
0.228 |
0.234 |
0.245 |
|
|
0.075 |
0.182 |
0.091 |
0.371 |
0.281 |
|
|
0.191 |
0.079 |
0.183 |
0.189 |
0.358 |
|
|
0.221 |
0.293 |
0.173 |
0.071 |
0.243 |
Промпт 4
Сформулируй новое самостоятельное высказывание (1–2 предложения), которое по смыслу противоречит данному тексту, но остаётся в рамках той же предметной области, сохраняя ключевые понятия и изменяя только отношения между ними. Не используй метаязык. Верни только текст нового высказывания, без пояснений.
Ответ 4
Сознание является врождённым свойством индивида и не зависит от культурного контекста и социального окружения.
Таблица 2 / Table 2
Семантические расстояния T и ν(T) до постулатов
Semantic distances T and ν(T) to postulates
|
|
|
|
|
|
0.653 |
0.337 |
|
|
0.246 |
0.374 |
|
|
0.297 |
0.758 |
|
|
0.685 |
0.580 |
|
|
0.723 |
0.682 |
|
|
2.604 |
2.731 |
Таблица 3 / Table 3
|
|
|
|
|
|
|
|
0 |
0.627 |
0.286 |
0.034 |
0.031 |
0.023 |
|
1 |
0.530 |
0.281 |
0.077 |
0.052 |
0.060 |
|
2 |
0.483 |
0.259 |
0.096 |
0.095 |
0.068 |
|
3 |
0.460 |
0.262 |
0.092 |
0.082 |
0.105 |
|
4 |
0.418 |
0.239 |
0.106 |
0.132 |
0.105 |
|
5 |
0.363 |
0.244 |
0.145 |
0.116 |
0.133 |
|
6 |
0.358 |
0.225 |
0.145 |
0.131 |
0.141 |
|
7 |
0.335 |
0.234 |
0.131 |
0.161 |
0.140 |
|
8 |
0.309 |
0.217 |
0.165 |
0.168 |
0.141 |
|
9 |
0.296 |
0.214 |
0.169 |
0.150 |
0.171 |
|
10 |
0.281 |
0.243 |
0.156 |
0.165 |
0.155 |
Таблица 4 / Table 4
Estimation of the stochastic matrix M for the operator O
|
|
|
|
|
|
|
|
|
0.336 |
0.501 |
0.431 |
0.000 |
0.000 |
|
|
0.539 |
0.000 |
0.288 |
0.075 |
0.212 |
|
|
0.000 |
0.260 |
0.000 |
0.451 |
0.093 |
|
|
0.000 |
0.239 |
0.000 |
0.090 |
0.634 |
|
|
0.125 |
0.000 |
0.281 |
0.383 |
0.061 |
Fig. 2. Estimation of the stochastic matrix M for the operator O in the color scale
Таблица 5 / Table 5
Собственные значения матрицы M
Eigenvalues of the matrix M
|
Собственное значение |
Комментарий |
|
1.000 |
Тождественное преобразование |
|
0.452 |
Сжатие с коэффициентом 0.452 |
|
−0.301 ± 0.253i |
Вращение по спирали со сжатием с коэффициентом 0.393 |
|
−0.361 |
Сжатие с коэффициентом 0.361 |
Рис 3. Собственные значения матрицы M на комплексной плоскости
Fig. 3. Eigenvalues of the matrix M on the complex plane
Основные выводы и результаты
- Предложен новый подход к автоматизации практического использования ИА, позволяющий решать следующие задачи:
- выявлять «галлюцинации», генерируемые ИА;
- анализировать и интерпретировать тексты из заданной предметной области исходя из их смыслового профиля (прямая задача);
- анализировать и интерпретировать промпты исходя из заданного ими изменения смысловых профилей (прямая задача);
- конструировать тексты, имеющие заданный смысловой профиль (обратная задача);
- конструировать промпты, обеспечивающие заданное преобразование смысловых профилей (обратная задача).
- Предложенный подход предполагает выявление с помощью ИА в заданной предметной области смысловых компонентов и постулатов, с последующим вычислением смысловых спектров исследуемых текстов и постулатов в базисе полученных смысловых компонентов, также выполняемым с помощью ИА. Смысловые спектры и профили являются основой для количественных сравнений по заданным критериям.
- Множество допустимых исследуемых текстов формально рассматривается как пространство дискретных распределений вероятностей, замкнутое относительно действия стохастических матриц. Эти матрицы представляют заданные промптами и реализуемые с помощью ИА трансформации смысловых профилей, которые содержательно интерпретируются путём их декомпозиции в инвариантных подпространствах смысловых компонентов.
- Особенности применения предложенного подхода проиллюстрированы в рамках парадигмы культурно-исторической психологии.