«Эффект рыбки Дори» — как обнаружить текст, сгенерированный нейросетью?

104

Проблема создания научных текстов с помощью технологий искусственного интеллекта (ИИ) и использовании ИИ в образовании приобретает все большую актуальность. Результаты исследования отношения учащихся вузов к современным технологиям на базе ИИ, проведенного онлайн-кампусом НИУ ВШЭ показало, что более 40 % российских студентов используют технологии искусственного интеллекта (ИИ) в учебе. В список топ-инструментов среди студенческого сообщества вошли YandexGPT (54 %), боты в Telegram на основе нейросетей (47 %), Шедеврум (35 %). 

Редакции сайта Российского Союза ректоров спросила исполнительного директора «Антиплагиата» кандидата физико-математических наук Юрия Чеховича, как определить, что научный текст был сгенерирован  (ИИ). Предлагаем вам фрагмент интервью.

— Юрий Викторович, усугубило ли, на ваш взгляд, ситуацию с заимствованиями использование технологий ИИ при подготовке выпускных квалификационных или научных работ?

— Да, конечно, технологии искусственного интеллекта оказали существенное влияние на ситуацию с заимствованиями в научных работах. Год назад все образовательные системы в мире столкнулись с тем, что студенты начали использовать чат-боты для написания как просто домашних заданий, так и квалификационных работ и научных статей. Это стало серьезной проблемой, которую необходимо было быстро решить. 

Имеющиеся до этого способы выявления плагиата не работали, потому что они нацелены на поиск заимствований из уже существующих документов, а генераторы чаще всего обучены таким образом, чтобы создавать принципиально новый текст. Соответственно, понадобилось создание нового инструмента, который смог бы выявлять в документах машинно сгенерированные фрагменты текста. 

— А как определяется, что текст был сгенерирован искусственным интеллектом? 

— Компания «Антиплагиат» одна из первых в мире выпустила детектор текстов, написанных нейросетью. Сейчас он проверяет все документы подписчиков системы. Это инструмент, который проверяет тексты на наличие искусственно сгенерированных фрагментов и выносит в отчет информацию об этом. Таким образом он сообщает пользователю системы, что в тексте есть признаки искусственной генерации. 

Каким образом работают эти алгоритмы? Система делит каждый текст на части и выполняет классификацию каждой из них по отдельности. Она определяет, какая из них написана человеком, а какая — машиной. Это делается на основе анализа большого набора признаков. 

В основе алгоритма детекции тоже лежит искусственный интеллект, обученный для того, чтобы решать не задачу генерации текстов, а задачу классификации текстов на искусственные и естественные. Нам удалось быстро обучить этот алгоритм благодаря многолетнему опыту исследований по обработке естественного языка (Natural language processing, или NLP).

— Что делать, если система выделила фрагмент текста как потенциально сгенерированный нейросетью? 

— Когда система «Антиплагиат» обнаруживает, что в тексте много признаков того, что его написала нейросеть, она выделяет этот фрагмент текста как подозрительный. Однако сделать финальный вывод о том, что этот текст был написан нейросетью, пока нельзя. Наша система выступает лишь инструментом, подсвечивающим подозрительные фрагменты работы, а дальше дело за человеком. 

Есть несколько признаков, на которые стоит обратить внимание, чтобы понять, написан текст человеком или машиной. Проверяющему стоит насторожиться, если он видит частые повторы одного и того же смысла в тексте или противоречащие друг другу выводы. Мы называем это «эффект рыбки Дори*», потому что кажется, что автор либо забыл о том, что уже писал, и повторяет еще раз, либо противоречит сам себе, как будто неожиданно поменял точку зрения. Мы советуем всегда проверять работы через систему, а затем внимательно прочитывать подозрительные фрагменты.

— Если говорить о правильной терминологии, текст, сгенерированный нейросетью, — это плагиат? 

— Технически текст, сгенерированный нейросетью, плагиатом быть не может. Плагиат предполагает незаконное намеренное использование чужих идей или текстов, то есть чужой интеллектуальной собственности, в своей работе. Нейросеть не обладает сознанием, намерением и авторским правом, и с юридической точки зрения генерация текста с помощью ИИ плагиатом не является. Однако последующее использование сгенерированного текста может носить признаки плагиата или нарушений академической этики.

За рубежом принято называть плагиатом не только неправомерное заимствование, но и неэтичное использование текста, поэтому возникает определенная терминологическая путаница. Важно, что нарушение возникает в случае, если автор пытается скрыть использование искусственного интеллекта или не соблюдает правила выполнения задания.

— Что такое неэтичное использование ИИ в научных или учебных работах? 

—  Проверка текстов на плагиат проводится не только для того, чтобы избежать нарушения авторского права, но также для того, чтобы убедиться, что идеи автора оригинальные, а написанный текст — это результат проделанной научной работы. Нарушение этики возникает в том случае, когда автор не сообщает о том, что для написания текста использовал ИИ. Кроме того, бывают задания, которые предполагают самостоятельное выполнение. В таком случае использование машинно-сгенерированного текста будет считаться нарушением правил выполнения задания.

Есть еще одна проблема, которую многие упускают из виду, потому что мало кто читает пользовательское соглашение, когда начинает работать с чат-ботами. А между тем некоторые разработчики вносят туда пункт о том, что все тексты, сгенерированные их системой, являются интеллектуальной собственностью компании, которая разработала этот чат-бот. Получается, когда человек добавляет такой текст в свою работу, он нарушает права владельца сервиса.

[...]

_______

*Рыбка Дори — персонаж мультипликационного фильма «В поисках Немо» (2003 год) производства студии Уолта Диснея, особенностью рыбки было нарушение кратковременной памяти.

Полный текст интервью с исполнительным директором АО «Антиплагиат» Юрием Чеховичем «ИИ оказал существенное влияние на ситуацию с заимствованиями в научных работах» читайте на сайте Союза ректоров.