Моделирование и анализ данных
2023. Том 13. № 4. С. 45–58
doi:10.17759/mda.2023130403
ISSN: 2219-3758 / 2311-9454 (online)
Установление сходства текстовых документов
Аннотация
В настоящей статье рассматривается метод оценки сходства текстов, который основан на анализе сравнения предложений из различных текстов. Преимущества метода состоят в том, что учитывается покрытие предложения-эталона предложением из сравниваемого текста, общая оценка информационной значимости слов предложения-эталона в предложении сравниваемого текста, сходство синтаксических структур предложений, совпадение семантических значений и связей. Применение этого метода проиллюстрировано на примере решения задачи нахождения сходства двух текстов
Общая информация
Ключевые слова: сходство текстов, сравнение, понимание и употребление в устной речи слов и конструкций, естественный язык
Рубрика издания: Анализ данных
Тип материала: научная статья
DOI: https://doi.org/10.17759/mda.2023130403
Получена: 20.11.2023
Принята в печать:
Для цитаты: Хорошилов А.А., Кан А.В., Евдокимова Е.А., Пицхелаури С.Г. Установление сходства текстовых документов // Моделирование и анализ данных. 2023. Том 13. № 4. С. 45–58. DOI: 10.17759/mda.2023130403
Полный текст
Введение
Анализ сходства текстов на сегодняшний день является актуальной и значимой проблемой. С развитием цифровых технологий объем текстовой информации становится все больше и продолжает стремительно расти. В связи с этим увеличивается необходимость в инструментах, способных эффективно сравнивать и анализировать тексты в различных контекстах.
Актуальность данной проблемы обусловлена широким спектром ее практических применений. В образовании и научных исследованиях анализ сходства текстов становится незаменимым в выявлении плагиата, обеспечивая тем самым честность и достоверность научных работ. В области информационной безопасности этот вид анализа помогает в борьбе со спамом, фейковыми новостями и проверке подлинности документов. Кроме того, важную роль играет его применение в машинном обучении, анализе социальных медиа и других областях обработки естественного языка (ЕЯ).
Обзор существующих методов
Методы и способы сравнения текстов могут быть разными. Например, самый простой способ – подсчитать количество общих слов в обоих текстах. В этом методе каждый текст рассматривается как "мешок слов" (bag-of-words), порядок следования слов в предложении игнорируется, учитывается только факт их наличия [1]. Так как этот метод не учитывает порядок слов и не способен уловить семантическую связь между ними, он может привести к сильному завышению показателей сходства. Таким образом, при использовании метода подсчета вхождений слов важно также учитывать его ограничения в контексте конкретной задачи.
Метод TF-IDF (Term Frequency-Inverse Document Frequency) [4; 10] используется для оценки важности слова в документе относительно коллекции документов. Он учитывает, насколько слово часто встречается в конкретном документе (чем больше встречается, тем оно важнее) и уменьшает значимость слова, если оно встречается часто во всех документах коллекции. Этот метод помогает выделять ключевые слова и термины в документе, позволяя лучше понять его содержание и семантику. Минусом метода TF-IDF является недостаточный учет специфики контекста предложений, то есть метод не учитывает контекстуальные зависимости между словами. Он также не улавливает семантическую связь между словами, поскольку основывается на статистике встречаемости слов. И, наконец, метод TF-IDF имеет недостаток в отношении обработки синонимов и слов с похожими значениями, что может снизить точность оценки в некоторых случаях.
Метод векторного сходства [11] представляет собой способ оценки схожести между двумя текстами путем представления каждого текста в виде вектора в многомерном пространстве. Этот метод использует косинусное сходство для определения степени схожести между векторами текстов: чем ближе векторы в многомерном пространстве, тем выше их схожесть. Векторное сходство учитывает семантическую структуру текста, позволяя сравнивать не только конкретные слова, но и их контекст и значение в предложении, что делает его более гибким и точным способом оценки сходства текстов. Недостатки векторного сходства включают ограничения в работе с разреженными данными и большими текстовыми корпусами, поскольку он требует хранения и работы с векторами большой размерности. Также эта методика не всегда улавливает смысловую связь между словами, так как не всегда способна различать семантически близкие, но формально отличающиеся фразы. И, в конечном итоге, векторное сходство может столкнуться с проблемой переобучения при работе с небольшими объемами данных или при неоптимальном подборе параметров модели.
Сравнение текстов с использованием нейронных сетей включает преобразование каждого текста в числовое векторное представление, которое затем подается на вход нейронной сети для вычисления степени их сходства. Эмбеддинги слов или другие методы преобразования текста в числовые векторы позволяют учесть семантическую близость слов и контекст текста. Нейронная сеть может использовать различные архитектуры такие как: Siamese нейронные сети или архитектуры с использованием сверточных и рекуррентных слоев [6]. Обученная нейронная сеть затем может использоваться для сравнения новых текстов – предсказывать их сходство или различие на основе прошлых вычислений. При правильной настройке и обучении нейронные сети способны улавливать сложные зависимости между текстами, учитывая семантическую и контекстуальную информацию, что делает их мощным инструментом для сравнения текстовых данных. К недостаткам нейронных сетей можно отнести то, что они требуют большого объема данных для обучения, собирать которые может быть сложно и затратно. Также использование нейронных сетей для сравнения текстов требует значительных вычислительных ресурсов. Нейронные сети могут быть чувствительны к шуму или неправильной разметке данных.
Также следует рассмотреть модель фразеологического концептуального анализа текстов на естественном языке [7; 8]. Данная модель предназначена для выявления фразеологических единиц и анализа их концептуальной структуры в текстах. Она использует методы лингвистического анализа и компьютерной обработки текстов для идентификации и интерпретации фразеологизмов и их семантических связей. Модель фразеологического концептуального анализа текстов может быть использована для установления сходства текстовых документов путем анализа фразеологических единиц, их концептуальных связей и использования семантических моделей для определения степени сходства между текстами на основе общих фразеологических концептов. Таким образом, фразеологический анализ может быть важным инструментом для улучшения процессов сравнения и классификации текстовых документов на основе их семантического содержания.
В настоящей статье предлагается метод сходства текстов, основанный на сравнении предложений эталонного текста и сравниваемого с ним. Преимущество данного метода заключается в том, что он учитывает различные аспекты, такие как покрытие предложения-эталона предложением из сравниваемого текста, общую информационную значимость слов предложения-эталона в предложении сравниваемого текста, сходство синтаксических структур предложений, совпадение семантических значений и связей для оценки их сходства.
Постановка задачи
Будем использовать следующие определения.
-
Лемма – начальная, словарная форма слова. В русском языке для существительных и прилагательных это форма именительного падежа единственного числа, для глаголов и глагольных форм – форма инфинитива.
-
Лексема – совокупность всех значений и грамматических форм слова. Например, словарь, словарем, словарю – это формы одной и той же лексемы, по соглашению пишущейся как «словарь».
-
Cловоупотребление – элемент множества контекстов, в которых может использоваться рассматриваемое слово.
-
Словоформа – форма слова, которая формируется в конкретном контекстном окружении.
-
Синтаксема – минимальная синтаксическая единица. Синтаксемам приписываются семантические значения, а сами синтаксемы связываются с другими синтаксемами семантическими отношениями [5].
т.е. отношение функционально по определению. бинарное отношение, соотносящее словоупотреблению определенную метку (например, гипертекстовой разметки). Каждому словоупотреблению соответствует единственная метка:
, т.е. отношение функционально по определению.
бинарное отношение, которое определяет всевозможные синтаксические связи между словоупотреблениями, согласно работе [2]. Так как в этой работе синтаксические структуры рассматриваются в виде деревьев, введенное определение корректно. Будем считать, что в паре первый элемент – – соответствует главному словоупотреблению (ГС), а второй элемент – – зависимому (подчиненному) словоупотреблению.
– бинарное отношение, представляющее семантически связанные словоупотребления в тексте. – бинарное отношение, которое ставит в соответствие словоупотреблениям текста семантические значения синтаксем. Таким образом, каждое словоупотребление может иметь 0 и более семантических значений в тексте.
Требуется разработать метод оценки сходства текстов. В результате работы метода требуется получить числовое значение от нуля до единицы, которое будет отражать сходство текстов.
Метод оценки сходства текстов
-
.Для расчета покрытия предложения-эталона предложением сопоставляемого текста введем формулу:
Введем ограничение:
-
2.Для определения общей оценки информационной значимости слов предложения-эталона в предложении сравниваемого текста используется формула:
Предположим, что текст синтаксически связный. Тогда имеет смысл рассматривать следующие критерии:
Для оценки сходства предложения-эталона и предложения сравниваемого текста на основе совпадения синтаксических структур введем формулу:
и зависимые слова, а сами словоупотребления связаны в контексте эталонного и сопоставляемого предложения однотипными синтаксическими связями: . Знаменатель формулы – это совокупный вес словоупотреблений, которые являются главными элементами в синтаксически связанных парах словоупотреблений в эталонном тексте.
Выделим группу слов с семантическими значениями в предложении эталона, для которых в сопоставляемом тексте существуют соответствующие слова с теми же семантическими значениями:
-
Для оценки сходства предложений на основе совпадения семантических связей введем множество значений синтаксем, которые связаны в тексте с различными семантическими связями. На основе этих связей и определяется сходство между и .
Общая оценка сходства предложения эталона и сравниваемого предложения определяется суммой критериев, учитывая их взвешенное значение.
Из всех предложений в сравниваемом тексте выбираются наиболее подходящие к предложению-эталону с учетом максимизации оценки:
Учитывая все вышеперечисленные величины, определим общую оценку сходства текста-эталона и сравниваемого текста:
Рассмотрим два текста, приведенных в табл.1.
Таблица 1. Текст-эталон и сравниваемый текст
Текст-эталон |
Сравниваемый текст |
Совет директоров Центробанка РФ 27 октября принял решение поднять ключевую ставку сразу на 200 базисных пунктов — с 13 до 15% годовых, говорится в сообщении на сайте регулятора. Это четвертое подряд повышение уровня показателя.
Известия, Экономика, 27 октября 2023, 13:31
|
Совет директоров Банка России поднял ключевую ставку сразу на 200 б.п. — до 15% годовых, говорится в сообщении регулятора. Это четвертое подряд повышение — к ужесточению политики ЦБ перешел в июле 2023 года и один раз даже повышал ставку на внеплановом заседании.
РБК, Финансы, 27 октября 2023, 13:30
|
Для наглядного примера взяты небольшие тексты, поэтому не имеет смысла сравнивать их по предложениям, сравним их целиком. Тогда метод завершится на этапе подсчета взвешенной суммы всех критериев.
Мера TF-IDF является произведением двух сомножителей:
Рассчитаем покрытие предложения-эталона предложением сопоставляемого текста. В табл. 2 показан расчет TF-IDF первых 10 слов документа.
Таблица 2. Расчет TF-IDF
|
встречаемость в документах |
IDF |
количество повторений слова в тексте-эталоне |
TF текста-эталона |
TF-IDF |
совет |
10 |
0,30103 |
1 |
0,03030 |
0,00912 |
директоров |
10 |
0,30103 |
1 |
0,03030 |
0,00912 |
Центробанка |
11 |
0,25964 |
1 |
0,03030 |
0,00787 |
РФ |
6 |
0,52288 |
1 |
0,03030 |
0,01585 |
27 |
5 |
0,60206 |
1 |
0,03030 |
0,01824 |
октября |
7 |
0,45593 |
1 |
0,03030 |
0,01382 |
принял |
11 |
0,25964 |
1 |
0,03030 |
0,00787 |
решение |
12 |
0,22185 |
1 |
0,03030 |
0,00672 |
поднять |
12 |
0,22185 |
1 |
0,03030 |
0,00672 |
ключевую |
13 |
0,18709 |
1 |
0,03030 |
0,00567 |
… |
|
|
|
|
|
Тогда величина первого критерия
Таблица 3. Расчет оценки информационной значимости слов
|
TF-IDF |
TF сравниваемого текста |
оценка информационной значимости слов |
совет |
0,00912 |
0,025 |
0,000114027 |
директоров |
0,00912 |
0,025 |
0,000114027 |
Центробанка |
0,00787 |
0 |
0 |
РФ |
0,01585 |
0 |
0 |
27 |
0,01824 |
0 |
0 |
октября |
0,01382 |
0 |
0 |
принял |
0,00787 |
0 |
0 |
решение |
0,00672 |
0 |
0 |
поднять |
0,00672 |
0,025 |
0,000084034 |
ключевую |
0,00567 |
0,025 |
0,000070866 |
… |
|
|
|
Получим, что значение второго критерия равняется
Таблица 4. Выделение синтаксических структур текстов
Совет директоров Центробанка РФ 27 октября принял решение поднять ключевую ставку сразу на 200 базисных пунктов — с 13 до 15% годовых, говорится в сообщении на сайте регулятора. Это четвертое подряд повышение уровня показателя.
|
Совет директоров Банка России поднял ключевую ставку сразу на 200 б.п. — до 15% годовых, говорится в сообщении регулятора. Это четвертое подряд повышение — к ужесточению политики ЦБ перешел в июле 2023 года и один раз даже повышал ставку на внеплановом заседании. |
Тогда значение третьего критерия будет равно
Посчитаем сходство текста-эталона и сравниваемого текста на основе совпадения семантических значений предложений:
Проведем оценку сходства текстов на основе совпадения семантических связей в их предложениях:
Так как сравниваемые тексты содержат не более 3 предложений, то показатель (2) не рассчитывается.
Заключение
В настоящей статье представлен метод оценки схожести текстов, который определяет соответствие между текстами на основе сравнения предложений. Для определения близости текстов используются различные критерии, такие как: покрытие предложения из эталонного текста предложением из сравниваемого текста, оценка информационной значимости слов, сравнение синтаксических структур, семантических значений и семантических связей. Общая оценка схожести предложений определяется с использованием взвешенной суммы этих критериев, вклад в каждый из которых вносят параметры метода.
Литература
- Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.
- А.Ю. Сокирко. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ) / Дисс канд.т.н. // [Электронный ресурс] URL: http://www.aot.ru/docs/sokirko/sokirko-candid-1.html (дата обращения 23.10.2023)
- И.В. Соченков. Метод сравнения текстов для решения поисково- аналитических задач // Искусственный интеллект и принятие решений. М.: ИСА РАН, 2013, No2, с.95-106.
- Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. — ISBN 978-5-8459-1623-5
- Осипов Г. С., Тихомиров И. А., Смирнов И. В. «Семантический поиск в сети интернет средствами поисковой машины Exactus».// Труды одиннадцатой национальной конференции по искусственному интеллекту с международным участием КИИ-2008. — Т. 3. — М. : ЛЕНАНД, 2008. — С. 323–328
- Пекунов В.В. Извлечение информации из нейронных сетей прямого распространения в виде простых алгебраических моделей // Информационные технологии. 17. Т. 23. № 1. С. 76
- Хорошилов Ал-др А., Кан А.В.,Ковернинский И.В., Ревина В.Д., Хорошилов А.А. Автоматическое извлечение фактогрфической информации из научно-технических текстов авиационной отрасли // сб. «Информационные и телекоммуникационные технологии», № 43, 2019, стр. 71-78.
- Хорошилов Ал-др А., Мусабаев Р.Р., Козловская Я.Д., Никитин Ю.В., Хорошилов Ал-ей А. Автоматическое выявление и классификация информационных событий в текстах СМИ // Научно-техническая информация. Серия 2: Информационные процессы и системы. ВИНИТИ РАН. 2020. №7. С. 27–38. ISSN: 0548-0027. DOI: 10.36535/0548-0027-2020-07-4.
- Э. Мбайкоджи, А.А. Драль, И.В. Соченков. Метод автоматической классификации коротких текстовых сообщений // Информационные технологии и вычислительные системы. М.: ИСА РАН No3, 2012. С. 93-102.
- Christopher Manning, Prabhakar Raghavan, and Hinrich Schutze. Introduction to Information Retrieval. Cambridge University Press, 2008
- Rafael C. Gonzalez, Richard E. Woods. Digital Image Processing, Prentice Hall. -2002. -793 р.
- Zipf, G. K. Selected studies of the principle of relative frequencies of language / Cambridge, Massachusetts: Harvard Unive, 1932.
Информация об авторах
Метрики
Просмотров
Всего: 158
В прошлом месяце: 7
В текущем месяце: 1
Скачиваний
Всего: 194
В прошлом месяце: 11
В текущем месяце: 5