Введение
Стремительное развитие нейронных сетей и больших языковых моделей (LLM) происходит с 2022 года. Мир переживает новую волну всплеска интереса к искусственному интеллекту (ИИ). Так, в 2023 году словами года по разным версиям становились слова «нейросеть», «галлюцинировать» (в значении, в котором это слово используется в исследованиях ИИ), а также «промпт» (запрос, адресованный к нейросети) и «джипити» (транслитерация GPT — Generative Pre-trained Transformer)1.
В период с 2022 по 2024 годы человечество поставлено перед фактом: теперь компьютеры умеют разговаривать. Разговаривать на естественном языке, причем умеют поддерживать диалог, «входить в роль» (как, например, нейросеть Character AI2 и даже отыгрывать простые сюжеты.
Экспериментальная парадигма CASA (Computers Are Social Actors), разработанная в 1994 (Nass, Steuer, Tauber, 1994) и расширенная в 2020 году (Gambino, Fox, Ratan, 2020), постулирует, что человек воспринимает компьютер как социального актора (субъекта, способного к социальным взаимодействиям): применяет к нему понятие «другой», следовательно, наделяет его определенной субъектностью, присваивает ему гендерную идентичность, применяет к нему социальные нормы. Для достижения этого эффекта необходимо, чтобы компьютер отвечал четырем условиям:
- обладал системой языкового ввода;
- мог отвечать, основываясь на множественных входных данных;
- выполнял роль, которая традиционно выполняется человеком;
- мог создавать звучащий по-человечески голос.
При соблюдении этих условий мы можем применять методики, предназначенные для исследования социальных взаимодействий между людьми, к социальным взаимодействиям между компьютером и человеком.
Большие языковые модели представляют из себя модели, которые предсказывают следующее слово или символ в тексте на основе статистической вероятности того, что в данном месте в данном контексте встретится именно это слово (Creswell et al., 2018). Подобный принцип работы, гипотетически, может приводить к тому, что текст, генерируемый нейронной сетью, будет более «статистически средним», нежели речь реального человека.
Материалы и методы
Основной целью исследования являлся сбор данных о свойствах диалогов между человеком и нейронной сетью. Для этого была разработана виртуальная среда, позволяющая испытуемому разговаривать с нейронной сетью.
Среда представлена пространством в виртуальной реальности (Барабанщиков, Селиванов, 2023; 2022; Селиванов, Майтнекр, Грибер, 2021; Селиванов, Побокин, 2024), изображающим кофейню, декорированную в стиле «киберпанк». Напротив испытуемого сидит аватар девушки, управляемый нейронной сетью ChatGPT3.5, прошедшей процедуру fine-tuning (Hilliard et al., 2024; Latif, Zhai, 2023; Zhang et al., 2023), для более «очеловеченного» общения. Программа была создана специально для исследования под шлемы виртуальной реальности HTC Vive с использованием «движка» Unity (мультиплатформенный инструмент для создания ЗD моделей).
В качестве «донора личности» для fine-tuning выступила девушка, 21 год, не являвшаяся испытуемой в дальнейшем исследовании, студентка психологического факультета. Ей было предложено в свободной форме ответить на двадцать вопросов о ее жизни и личности.
Ответы были взяты устно и транскрибированы без дополнительной обработки. Нейросеть была дообучена на двадцати парах вида «вопрос-ответ».
В ходе исследования было проведено шесть диалогов между испытуемыми (n = 6) и нейросетью. В исследовании задействовано шесть человек (четверо испытуемых были девушками, двое — юношами) в возрасте от 21 до 28 лет, студенты и аспиранты психологического университета.
В качестве диалогов между людьми для сравнения были взяты два диалога, записанные в другом исследовании. Эти диалоги проводились в двух парах (далее пара 1 и пара 2), в каждой из пар один собеседник был юноша, а второй — девушка, в возрасте от 21 до 23 лет.
Из диалогов было получено 80 смежных пар реплик. При рассмотрении диалогов использовалась сокращенная версия рабочей модели конверсационного анализа, использованная при анализе быстрых свиданий А.М. Улановским и Л.А. Ерохиной (табл. 1) (Улановский, Ерохина, Ян, 2017).
Таблица 1 / Table 1
Рабочая модель конверсационного анализа
Working Model of Conversational Analysis
|
Сцена разговора / Conversation Scene |
Обстановка разговора, ситуация, время, место, дополнительные характеристики. / Setting, context, time, place, additional characteristics. |
|
Дизайн разговора / Conversation Design |
Общая структурная организация разговора, общие характеристики разговора. / Overall structural organization and general characteristics of the conversation. |
|
Переходы очереди / Tutn-taking transitions |
Специфика организации переходов очереди от участника к участнику, перехваты инициативы, способы передачи очереди. / Specifics of turn transitions between participants, initiative shifts, and methods of turn allocation. |
|
Коммуникативные затруднения / Communicative Difficulties |
Сложности и сбои, возникающие в разговоре, способы их преодоления участниками. / Difficulties and breakdowns in conversation, and participants' methods of resolving them. |
Результаты
Диалоги между человеком и нейросетью отличаются от диалогов между людьми по нескольким факторам, в первую очередь — факторам, сопряженным с распределением длин реплик.
Для быстрых свиданий между людьми характерно возрастание длины реплик по мере диалога. Реплики же нейросети на протяжении всего диалога практически не варьируются по длине (рис. 1). Так, 33 из 80 (41%) реплик нейросети состоят из одного слова. Это сильно отличает эти диалоги от диалогов между людьми. На рис. 2 и 3 приведены графики распределения слов в диалогах между людьми. Разнообразие длин реплик в них значительно больше, хотя реплики длиной от 1 до 5 слов преобладают во всех диалогах.
Fig. 1. Distribution of Neural Network Utterance Lengths
Fig. 2. Distribution of Utterance Lengths (Pair 1)
Fig. 3. Distribution of Utterance Lengths (Pair 2)
Длины реплик нейросети значительно более монотонны. Так, 75% всех реплик нейросети короче семи слов (включительно), в то время как для пары 1 и пары 2 разброс значительно больше — 48 и 19 слов соответственно (табл. 2).
Таблица 2 / Table 2
Распределение длин реплик по процентилям
Distribution of Utterance Lengths by Percentiles
|
|
|
Нейросеть / Neural Network |
Пара 1 / Pair 1 |
Пара 2 / Pair 2 |
|
Процентиль / Percentile |
25 |
1 |
3 |
3 |
|
|
50 |
2 |
10 |
9 |
|
|
75 |
7 |
48 |
19 |
Выбросами можно считать данные, превышающие верхнюю границу третьего квартиля более чем на 1,5 межквартильного размаха (Sullivan, Warkentin, Wallace, 2021). Фактически можно утверждать, что все длинные реплики нейросети – это статистические выбросы (рис. 4).
Fig. 4. Distribution of Utterance Lengths (Box Plot)
Границы выбросов будут следующими:
- реплики длиннее 10 слов для нейросети;
- реплики длиннее 116 слов для пары 1;
- реплики длиннее 43 слов для пары 2.
При очистке данных от выбросов на оставшихся данных у нейросети будет наблюдаться крайне низкая (относительно диалогов между людьми) дисперсия (табл. 3).
Таблица 3 / Table 3
Описательная статистика длин реплик нейросети и пар людей
Descriptive statistics of the lengths of neural network replicas and pairs of people
|
|
N |
Минимум / Min |
Максимум / Max |
Среднее / Mean |
Стандартное отклонение / Std. Dev. |
Дисперсия / Variance |
|
Нейросеть без выбросов / Neural Network (no outliers) |
59 |
1 |
8 |
2,3390 |
1,8533 |
3,4350 |
|
Пара 1 без выбросов / Pair 1 (no outliers) |
66 |
1 |
107 |
23,6970 |
26,9147 |
724,3990 |
|
Пара 2 без выбросов / Pair 2 (no outliers) |
153 |
1 |
40 |
11,1830 |
9,8852 |
97,7160 |
Переходы очереди
Способ передачи очереди в диалоге характеризуется сильной асимметрией участников. Так, основным способом передачи очереди от человека к нейросети является передача очереди через вопрос. Из 80 реплик, произнесенных испытуемыми, 53 (66,2%) были прямыми вопросами, предполагавшими ответ.
В некоторых случаях смежные пары формата «Вопрос-ответ» шли одна за другой. В одном из диалогов продолжительность такой цепочки составила 8 смежных пар (16 реплик).
При этом в диалогах было только три (3,75%) смежные пары, в которых очередь передавалась от нейросети к человеку через прямой вопрос.
Абсолютное большинство переходов очереди от нейросети к испытуемому происходило через длительную паузу. При этом длительность паузы приближалась к трем секундам, что в диалогах между людьми обычно приводит к возникновению неловкости (McLaughlin, Cody, 1982).
Коммуникативные затруднения
Коммуникативные затруднения в основном были связаны с продолжительностью паузы между репликами. Из-за технических ограничений нейронной сети ее ответ зачастую был отделен от окончания реплики испытуемого несколькими секундами.
В некоторых случаях это приводило к попытке испытуемого восстановить ход диалога, снова взяв очередность реплики. В таких случаях нейросеть и испытуемый начинали говорить одновременно. Все эти затруднения разрешались прекращением реплики испытуемого, поскольку нейросеть технически лишена возможности прервать свою реплику.
Обсуждение результатов
В диалогах наблюдается асимметрия говорящих. Люди значительно чаще задают вопросы: 66% реплик со стороны испытуемых и 3% реплик со стороны нейросети были вопросами. Это позволяет сделать вывод, что при диалоге человека и нейронной сети роли вопрошающего и ответчика задаются строго, однозначно и понятны субъекту.
Асимметрия, вероятно, вызвана конфигурацией экспериментальной системы и природой нейросетей как программ, реагирующих на запрос, но не имеющих инициативы в целом.
Диалоги между людьми и нейронными сетями значительно более монотонны, чем диалоги между реальными людьми. Нейросеть использует в основном короткие реплики из 1—2 слов и лишь изредка использует крайне длинные реплики, иногда превышающие 100 слов.
В диалогах между человеком и нейросетью значительно меньше как паттернов диалога, так и возможных коммуникативных затруднений и методов их разрешения. Фактически все затруднения, не связанные с длительностью паузы, разрешались одним методом — сменой темы со стороны человека. Однако диалог с ИИ для личности выступает в качестве интеллектуального события (интеллектуальный строй, схема, план), в котором осуществляется проблематизация субъектом высказываний машины и своих собственных.
Следует отметить технические трудности, изменившие ход исследования по мере его реализации. В начале работы ожидалось, что диалоги получатся более реалистичными, быстрыми. Предполагалось, что в них практически не будет затруднений, поскольку нейросеть будет всегда давать релевантные ответы. Однако нейросеть зачастую давала ответы, никак не связанные с предыдущими репликами и абсолютно выбивающиеся из контекста. См. пример из диалога на рис. 5.
|
Нейросеть: Нирвана. NikPeg: Прикольно. Это часть группы? Нейросеть: Подкаст. NikPeg: Какой подкаст? Нейросеть: О киберпанке. NikPeg: Подкаст. Нейросеть: Не знаю, рядом с какими другими организациями он находится, но следующий вопрос покажет, как тебе сложность. NikPeg: Сложность? Нейросеть: Как нарушенность ожиданий. NikPeg: Ну, это глубоко. Тебе надо написать про эту книгу. |
|
Нейросеть: Nirvana. NikPeg: Cool. Is that part of a band? Нейросеть: Podcast. NikPeg: What podcast? Нейросеть: About cyberpunk. NikPeg: Podcast. Нейросеть: I don’t know which other organizations it’s near, but the next question will show you the difficulty. NikPeg: Difficulty? Нейросеть: As a violation of expectations. NikPeg: Well, that’s deep. You should write about this book. |
Рис. 5. Распределение длин реплик в формате box-plot
Fig. 5. Example of Dialogue with Neural Network
Нейросети не обладают инициативой в диалоге, не стремятся углублять свои познания и расширять контекст диалога. В целом ИИ пока плохо распознает смыслы общающегося с ним человека, особенно индивидуализированные глубинные смысловые образования, которые продуцирует личность, и не строит свои высказывания в соответствии с ними.
Заключение
Проведенное исследование демонстрирует наличие существенных структурных различий между диалогами человека с нейросетью (ChatGPT 3.5) и диалогами между людьми. Исходная гипотеза опровергается: диалог с нейросетью не является структурно схожим с социальным диалогом между людьми. Ключевые различия включают:
- выраженную асимметрию ролей (человек преимущественно задает вопросы (66% реплик), нейросеть отвечает, редко проявляя инициативу (3% вопросов));
- монотонность и ограниченную вариативность длин реплик нейросети (преобладание коротких реплик в 1—2 слова, 41% — однословные, низкая дисперсия);
- ограниченный репертуар паттернов передачи очереди и преодоления коммуникативных затруднений (доминирование передачи через вопрос человеком и разрешение трудностей через паузу или смену темы человеком).
Перспективы исследования связаны с развитием технологий ИИ. Полученные результаты создают основу для:
1) разработки более точных метрик оценки «естественности» диалоговых ИИ;
2) совершенствования диалоговых систем для снижения асимметрии и повышения вариативности реплик;
3) изучения влияния этих структурных различий на пользовательский опыт и восприятие ИИ.
В качестве ближайшей перспективы исследования стоит выделить повторение эксперимента на более современных моделях (GPT-4o, GPT-o1 и последующих), где ограничения могут быть частично преодолены. Потенциально, развитие систем ИИ может привести к ситуации, при которой ограничения будут нивелированы в большой степени, и подобный ИИ сможет успешно замещать (кроме передачи глубинных смыслов) и дополнять человеческую деятельность, в том числе в социальных задачах.
Ограничения. Выводы, сделанные в работе, верны для моделей OpenAI GPT-3.5 Turbo и OpenAI GPT-4. Исследование не перепроводилось на моделях OpenAI GPT-4o и OpenAI GPT o1 и более современных; результаты, наблюдаемые при работе с этими моделями, могут отличаться.
Limitations. The conclusions drawn in the study are valid for the OpenAI GPT-3.5 Turbo and OpenAI GPT-4 models. The research was not reconducted on the OpenAI GPT-4o and OpenAI GPT o1 or more recent models; the results observed when working with these models may differ.
1 Институт Пушкина назвал главное слово года в русском языке. РБК. URL: https://www.rbc.ru/society/18/12/2023/657ffc1d9a79472cfba66e12 (дата обращения: 13.09.2024).
2 Character.AI. URL: https://character.ai/ (дата обращения: 13.09.2024).