Установление сходства текстовых документов

А.А. Хорошилов; А.В. Кан; Е.А. Евдокимова; С.Г. Пицхелаури

doi:10.17759/mda.2023130403

Введение

Анализ сходства текстов на сегодняшний день является актуальной и значимой проблемой. С развитием цифровых технологий объем текстовой информации становится все больше и продолжает стремительно расти. В связи с этим увеличивается необходимость в инструментах, способных эффективно сравнивать и анализировать тексты в различных контекстах.

Актуальность данной проблемы обусловлена широким спектром ее практических применений. В образовании и научных исследованиях анализ сходства текстов становится незаменимым в выявлении плагиата, обеспечивая тем самым честность и достоверность научных работ. В области информационной безопасности этот вид анализа помогает в борьбе со спамом, фейковыми новостями и проверке подлинности документов. Кроме того, важную роль играет его применение в машинном обучении, анализе социальных медиа и других областях обработки естественного языка (ЕЯ).

Обзор существующих методов

Методы и способы сравнения текстов могут быть разными. Например, самый простой способ – подсчитать количество общих слов в обоих текстах. В этом методе каждый текст рассматривается как "мешок слов" (bag-of-words), порядок следования слов в предложении игнорируется, учитывается только факт их наличия [Автоматическая обработка текстов, 2017]. Так как этот метод не учитывает порядок слов и не способен уловить семантическую связь между ними, он может привести к сильному завышению показателей сходства. Таким образом, при использовании метода подсчета вхождений слов важно также учитывать его ограничения в контексте конкретной задачи.

Метод TF-IDF (Term Frequency-Inverse Document Frequency) [Маннинг, 2011; Christopher Manning, Prabhakar] используется для оценки важности слова в документе относительно коллекции документов. Он учитывает, насколько слово часто встречается в конкретном документе (чем больше встречается, тем оно важнее) и уменьшает значимость слова, если оно встречается часто во всех документах коллекции. Этот метод помогает выделять ключевые слова и термины в документе, позволяя лучше понять его содержание и семантику. Минусом метода TF-IDF является недостаточный учет специфики контекста предложений, то есть метод не учитывает контекстуальные зависимости между словами. Он также не улавливает семантическую связь между словами, поскольку основывается на статистике встречаемости слов. И, наконец, метод TF-IDF имеет недостаток в отношении обработки синонимов и слов с похожими значениями, что может снизить точность оценки в некоторых случаях.

Метод векторного сходства [Rafael] представляет собой способ оценки схожести между двумя текстами путем представления каждого текста в виде вектора в многомерном пространстве. Этот метод использует косинусное сходство для определения степени схожести между векторами текстов: чем ближе векторы в многомерном пространстве, тем выше их схожесть. Векторное сходство учитывает семантическую структуру текста, позволяя сравнивать не только конкретные слова, но и их контекст и значение в предложении, что делает его более гибким и точным способом оценки сходства текстов. Недостатки векторного сходства включают ограничения в работе с разреженными данными и большими текстовыми корпусами, поскольку он требует хранения и работы с векторами большой размерности. Также эта методика не всегда улавливает смысловую связь между словами, так как не всегда способна различать семантически близкие, но формально отличающиеся фразы. И, в конечном итоге, векторное сходство может столкнуться с проблемой переобучения при работе с небольшими объемами данных или при неоптимальном подборе параметров модели.

Сравнение текстов с использованием нейронных сетей включает преобразование каждого текста в числовое векторное представление, которое затем подается на вход нейронной сети для вычисления степени их сходства. Эмбеддинги слов или другие методы преобразования текста в числовые векторы позволяют учесть семантическую близость слов и контекст текста. Нейронная сеть может использовать различные архитектуры такие как: Siamese нейронные сети или архитектуры с использованием сверточных и рекуррентных слоев [Пекунов]. Обученная нейронная сеть затем может использоваться для сравнения новых текстов – предсказывать их сходство или различие на основе прошлых вычислений. При правильной настройке и обучении нейронные сети способны улавливать сложные зависимости между текстами, учитывая семантическую и контекстуальную информацию, что делает их мощным инструментом для сравнения текстовых данных. К недостаткам нейронных сетей можно отнести то, что они требуют большого объема данных для обучения, собирать которые может быть сложно и затратно. Также использование нейронных сетей для сравнения текстов требует значительных вычислительных ресурсов. Нейронные сети могут быть чувствительны к шуму или неправильной разметке данных.

Также следует рассмотреть модель фразеологического концептуального анализа текстов на естественном языке [Хорошилов Ал-др, 2019; Хорошилов Ал-др, 2020]. Данная модель предназначена для выявления фразеологических единиц и анализа их концептуальной структуры в текстах. Она использует методы лингвистического анализа и компьютерной обработки текстов для идентификации и интерпретации фразеологизмов и их семантических связей. Модель фразеологического концептуального анализа текстов может быть использована для установления сходства текстовых документов путем анализа фразеологических единиц, их концептуальных связей и использования семантических моделей для определения степени сходства между текстами на основе общих фразеологических концептов. Таким образом, фразеологический анализ может быть важным инструментом для улучшения процессов сравнения и классификации текстовых документов на основе их семантического содержания.

В настоящей статье предлагается метод сходства текстов, основанный на сравнении предложений эталонного текста и сравниваемого с ним. Преимущество данного метода заключается в том, что он учитывает различные аспекты, такие как покрытие предложения-эталона предложением из сравниваемого текста, общую информационную значимость слов предложения-эталона в предложении сравниваемого текста, сходство синтаксических структур предложений, совпадение семантических значений и связей для оценки их сходства.

Постановка задачи

Будем использовать следующие определения.

Лемма – начальная, словарная форма слова. В русском языке для существительных и прилагательных это форма именительного падежа единственного числа, для глаголов и глагольных форм – форма инфинитива.
Лексема – совокупность всех значений и грамматических форм слова. Например, словарь, словарем, словарю – это формы одной и той же лексемы, по соглашению пишущейся как «словарь».
Cловоупотребление – элемент множества контекстов, в которых может использоваться рассматриваемое слово.
Словоформа – форма слова, которая формируется в конкретном контекстном окружении.
Синтаксема – минимальная синтаксическая единица. Синтаксемам приписываются семантические значения, а сами синтаксемы связываются с другими синтаксемами семантическими отношениями [Осипов, 2008].

Пусть имеется два текста

с

и

a

. Приведем представление текстовой информации. Пусть

D

– некоторое универсальное множество лемм,

B

– множество словоформ всех лексем ЕЯ,

A = {a}

– множество текстов (где

a

– произвольный текст). Текст содержит конечное множество словоупотреблений

R^{a} = {r_{i}}

и конечное множество меток

F = {f_{i}}

.

SR

– множество видов синтаксических связей. Определим разбиение множества словоупотреблений на предложения – множество

S^{a} = {s_{i}}

,

S^{a} \subset 2^{R^{a}}

, где

2^{R^{a}}

– булеан множества

R^{a}

. Пусть

v (r^{a})

– числовая функция, определяющая вес словоупотребления в тексте. Roles – конечное множество категориально-семантических значений синтаксем.

δ^{a} -

бинарное отношение на множестве словоупотреблений

R^{a}

и

D

, которое ставит каждому словоупотреблению в соответствие его нормальную форму:

\forall r \in R^{a} \exists d \in D : < r, d > \in δ^{a}

. Допускается, что одно словоупотребление можно нормализовать разными способами и, соответственно, получать разные нормальные формы для одного и того же словоупотребления.

ψ^{a}

– бинарное отношение на множестве

R^{a}

и множестве

B

. Каждое словоупотребление имеет единственную форму

(\forall r \in R^{a} \exists g \in B : < r, g > \in ψ^{a}) \land (\exists g^{'} \in B : < r, g^{'} > \in ψ^{a}) \to g = g^{'},

т.е. отношение

ψ^{a}

функционально по определению.

θ^{a} -

бинарное отношение, соотносящее словоупотреблению определенную метку (например, гипертекстовой разметки). Каждому словоупотреблению соответствует единственная метка:

(\forall r \in R^{a} \exists f \in F : < r, f > \in θ^{a}) \land

r, f' > \in θ^{a} \to f = f'

, т.е. отношение

θ^{a}

функционально по определению.

Σ^{a} \subseteq R^{a} \times R^{a} -

бинарное отношение, которое определяет всевозможные синтаксические связи между словоупотреблениями, согласно работе [А.Ю. Сокирко]. Так как в этой работе синтаксические структуры рассматриваются в виде деревьев, введенное определение корректно. Будем считать, что в паре

r_{i}, r_{j}

первый элемент –

r_{i} \in R^{a}

– соответствует главному словоупотреблению (ГС), а второй элемент –

r_{j} \in R^{a}

– зависимому (подчиненному) словоупотреблению.

Ω^{a} \subseteq R^{a} \times R^{a}

– бинарное отношение, представляющее семантически связанные словоупотребления в тексте.

{SemRoles}^{a}

– бинарное отношение, которое ставит в соответствие словоупотреблениям текста семантические значения синтаксем. Таким образом, каждое словоупотребление может иметь 0 и более семантических значений в тексте.

Требуется разработать метод оценки сходства текстов. В результате работы метода требуется получить числовое значение от нуля до единицы, которое будет отражать сходство текстов.

Метод оценки сходства текстов

Пусть имеется текст-эталон

ε

\in A

и сравниваемый с ним текст

τ \in A

. Чтобы получить оценку сходства текстов, будем сравнивать их по множествам предложений

S^{ε}

(

s^{ε} \in S^{ε}

) и

S^{τ}

(

s^{τ} \in S^{τ}

). Если тексты имеют длину менее 3 предложений, то не имеет смысла сравнивать их по предложениям, можно сравнить их целиком.

Для сопоставления предложений будем использовать множество

N (s^{ε}, s^{τ}) = {< r^{ε}, r^{τ} > \in R^{ε} \times R^{τ} \lor r^{ε} \in s^{ε}, \exists r^{τ} \in s^{τ}, \exists d \in D : < r^{ε}, d > \in δ^{ε} \land r^{τ}, d > \in δ^{τ}}

пар словоупотреблений, которые будем называть соответственными.

Для оценки сходства предложений

s^{ε}

и

s^{τ}

будем использовать нижеописанные критерии.

.Для расчета покрытия предложения-эталона предложением сопоставляемого текста введем формулу:

I_{1} (s^{ε}, s^{τ}) = \sum_{r^{ε}, r^{τ} > \in N (s^{ε}, s^{τ})} v (r^{ε}) .

Как функция определения весов

v (r^{ε})

может применяться TF-IDF [Маннинг, 2011; Christopher Manning, Prabhakar] или характеристика тематической значимости [Rafael].

Введем ограничение:

\sum_{r^{ε} \in R^{ε}} v (r^{ε}) = 1. (1)

2.Для определения общей оценки информационной значимости слов предложения-эталона в предложении сравниваемого текста используется формула:

I_{2} (s^{ε}, s^{τ}) = \sum_{r^{ε}, r^{τ} > \in N (s^{ε}, s^{τ})} f (r^{ε}, r^{τ}) v (r^{ε}) v^{'} (r^{τ}) .

Здесь

f (r^{ε}, r^{τ})

– это «штраф» за несовпадение форм словоупотреблений

r^{ε}, r^{τ}

:

f (r ε, r^{τ}) = {\begin{matrix} 1, \exists g \in B : < r^{ε}, g > \in ψ^{ε} \land r^{τ}, g > \in ψ^{τ}, \\ f_{0}, в противном случае, \end{matrix}

где

0 \leq f_{0} \leq 1

–параметр метода. Как функцию определения весов

v^{'} (r^{τ})

можно выбрать классическую оценку term frequency (TF) [Маннинг, 2011; Christopher Manning, Prabhakar]. Дополнительное условие на

v^{'} (r^{τ})

, следующее из ограничения (1) можно записать следующим образом:

0 \leq v^{'} (r^{τ}) \leq 1

.

Предположим, что текст синтаксически связный. Тогда имеет смысл рассматривать следующие критерии:

Для оценки сходства предложения-эталона и предложения сравниваемого текста на основе совпадения синтаксических структур введем формулу:

I_{3} (s^{ε}, s^{τ}) = \frac{\sum_{r^{ε}, r^{τ} > \in N_{Syn} (s^{ε}, s^{τ})} v (r^{ε})}{\sum_{r^{ε} \in {r \in R^{ε} | \exists r^{'} \in R^{ε} : < r, r^{'} > \in Σ^{ε}}} v (r^{ε})},

где

N_{Syn} (s^{ε}, s^{τ}) = {< r^{ε}, r^{τ} > \in N (s^{ε}, s^{τ}) \lor \exists {\tilde{r}}^{ε} \in R^{ε}, \exists {\tilde{r}}^{τ} \in R^{τ}, \exists z \in SR : < {\tilde{r}}^{ε}, {\tilde{r}}^{τ} > \in N (s^{ε}, s^{τ}) \land r^{ε}, {\tilde{r}}^{ε} > \in Σ_{z}^{ε} \land r^{τ}, {\tilde{r}}^{τ} > \in Σ_{z}^{τ}}

представляет собой множество пар соответственных словоупотреблений в эталонном предложении

s^{ε}

и сопоставляемом предложении

s^{τ}

, для которых совпадают (по нормальным формам лексем) главные

r^{ε}, r^{τ} > \in N (s^{ε}, s^{τ})

и зависимые

{\tilde{r}}^{ε}, {\tilde{r}}^{τ} > \in N (s^{ε}, s^{τ})

слова, а сами словоупотребления связаны в контексте эталонного и сопоставляемого предложения однотипными синтаксическими связями:

r^{ε}, {\tilde{r}}^{ε} > \in Σ_{z}^{ε} \land r^{τ}, {\tilde{r}}^{τ} > \in Σ_{z}^{τ}

. Знаменатель формулы – это совокупный вес словоупотреблений, которые являются главными элементами в синтаксически связанных парах словоупотреблений в эталонном тексте.

Выделим группу слов с семантическими значениями в предложении эталона, для которых в сопоставляемом тексте существуют соответствующие слова с теми же семантическими значениями:

ρ (s^{ε}, s^{τ}) = {r^{ε}, a > \in SemRole s^{ε} │ r^{ε} \in s^{ε} \land a \in Roles \land \exists r^{τ} \in s^{τ} : < r^{ε}, r^{τ} > \in N (s^{ε}, s^{τ}) \land r^{τ}, a > \in SemRole s^{τ}},

Тогда сходство предложения-эталона

s^{ε}

и предложения

s^{τ}

сопоставляемого текста на основе совпадения семантических значений определяется формулой:

I_{4} (s^{ε}, s^{τ}) = \frac{| ρ (s^{ε}, s^{τ}) |}{| {WR}^{ε} |},

где

{WR}^{ε}

– множество всех словоупотреблений, имеющих семантические значения.

Числитель в формуле выражает количество совпавших семантических значений у словоупотреблений в предложении эталона и в предложении сопоставляемого текста. Знаменатель формулы задает условие нормировки на 1 по всем словоупотреблениям, имеющим семантические значения в тексте эталона:

0 \leq I_{4} (s^{ε}, s^{τ}) \leq 1

.

Для оценки сходства предложений на основе совпадения семантических связей введем множество $Sem R_{r}^{ε} = {a \in Roles │ \exists r^{'} \in R^{τ}, \exists x \in R : < r, r^{'} > \in Ω_{x}^{τ} \land r^{'}, a > \in SemRole s^{τ}}$ значений синтаксем, которые связаны в тексте с различными семантическими связями. На основе этих связей и определяется сходство между $s^{ε}$ и $s^{τ}$ .

I_{5} (s^{ε}, s^{τ}) = \frac{\sum_{r^{ε}, r^{τ} > \in N (s^{ε}, s^{τ})} | Sem R_{r^{ε}}^{ε} \cap Sem R_{r^{τ}}^{τ} |}{| {WR}^{ε} |} .

Общая оценка сходства предложения эталона и сравниваемого предложения определяется суммой критериев, учитывая их взвешенное значение.

(s^{ε}, s^{τ}) = \sum_{n = 1}^{5} α_{n} I_{n} (s^{ε}, s^{τ}), \sum_{n = 1}^{5} α_{n} = 1.

Из всех предложений в сравниваемом тексте выбираются наиболее подходящие к предложению-эталону с учетом максимизации оценки:

J (s^{ε}, τ) = \max_{s^{τ} \in S^{τ}} {(s^{ε}, s^{τ})} .

Учитывая все вышеперечисленные величины, определим общую оценку сходства текста-эталона и сравниваемого текста:

I (ε, τ) = \sum_{s^{τ} \in S^{τ}} J (s^{ε}, τ) . (2)

Пример

Рассмотрим два текста, приведенных в табл.1.

Таблица 1. Текст-эталон и сравниваемый текст

Текст-эталон

Сравниваемый текст

Совет директоров Центробанка РФ 27 октября принял решение поднять ключевую ставку сразу на 200 базисных пунктов — с 13 до 15% годовых, говорится в сообщении на сайте регулятора. Это четвертое подряд повышение уровня показателя.

Известия, Экономика, 27 октября 2023, 13:31

Совет директоров Банка России поднял ключевую ставку сразу на 200 б.п. — до 15% годовых, говорится в сообщении регулятора. Это четвертое подряд повышение — к ужесточению политики ЦБ перешел в июле 2023 года и один раз даже повышал ставку на внеплановом заседании.

РБК, Финансы, 27 октября 2023, 13:30

Для наглядного примера взяты небольшие тексты, поэтому не имеет смысла сравнивать их по предложениям, сравним их целиком. Тогда метод завершится на этапе подсчета взвешенной суммы всех критериев.

В качестве функции определения весов

v (r^{ε})

будем применять TF-IDF, которая рассчитывается следующим образом:

TF (ε, τ) = \frac{n_{ε}}{\sum_{τ} n_{τ}}, (3)

где

n_{ε}

— число вхождений наименования понятия t в документ;

\sum_{τ} n_{τ}

— общее число наименований понятий в данном документе.

IDF (ε, D) = \log \frac{| D |}{| {{d}_{i} \in D | ε \in d_{i}} \lor},

где

| D |

— число документов в коллекции (в нашем случае 20);

| {{d}_{i} \in D | ε \in d_{i}} \lor

— число документов из коллекции D, в которых встречается

ε

(когда

n_{ε} \neq

0).

Мера TF-IDF является произведением двух сомножителей:

TF - IDF (ε, τ, D) = TF (ε, τ) \times IDF (ε, D)

Рассчитаем покрытие предложения-эталона предложением сопоставляемого текста. В табл. 2 показан расчет TF-IDF первых 10 слов документа.

Таблица 2. Расчет TF-IDF

	встречаемость в документах	IDF	количество повторений слова в тексте-эталоне	TF текста-эталона	TF-IDF
совет	10	0,30103	1	0,03030	0,00912
директоров	10	0,30103	1	0,03030	0,00912
Центробанка	11	0,25964	1	0,03030	0,00787
РФ	6	0,52288	1	0,03030	0,01585
27	5	0,60206	1	0,03030	0,01824
октября	7	0,45593	1	0,03030	0,01382
принял	11	0,25964	1	0,03030	0,00787
решение	12	0,22185	1	0,03030	0,00672
поднять	12	0,22185	1	0,03030	0,00672
ключевую	13	0,18709	1	0,03030	0,00567
…

Тогда величина первого критерия

I_{1} (s^{ε}, s^{τ}) = \sum_{r^{ε}, r^{τ} > \in N (s^{ε}, s^{τ})} v (r^{ε}) = 0, 234.

Рассчитаем общую оценку информационной значимости слов предложения-эталона в предложении сравниваемого текста. Параметр метода

f_{0}

положим равным 0.5. Как функцию определения весов

v^{'} (r^{τ})

выберем TF, рассчитанную по формуле (3). В табл. 3 показаны результаты расчета оценки информационной значимости первых 10 слов документа.

Таблица 3. Расчет оценки информационной значимости слов

	TF-IDF	TF сравниваемого текста	оценка информационной значимости слов
совет	0,00912	0,025	0,000114027
директоров	0,00912	0,025	0,000114027
Центробанка	0,00787	0	0
РФ	0,01585	0	0
27	0,01824	0	0
октября	0,01382	0	0
принял	0,00787	0	0
решение	0,00672	0	0
поднять	0,00672	0,025	0,000084034
ключевую	0,00567	0,025	0,000070866
…

Получим, что значение второго критерия равняется

I_{2} (s^{ε}, s^{τ}) = \sum_{r^{ε}, r^{τ} > \in N (s^{ε}, s^{τ})} f (r^{ε}, r^{τ}) v (r^{ε}) v^{'} (r^{τ}) = 0, 002.

Для подсчета

I_{3} (s^{ε}, s^{τ})

выделим синтаксические структуры текстов. Цветом покажем главные слова: желтым – совпадающие в двух текстах, зеленым – все остальные (табл. 4).

Таблица 4. Выделение синтаксических структур текстов

Совет директоров Центробанка РФ 27 октября принял решение поднять ключевую ставку сразу на 200 базисных пунктов — с 13 до 15% годовых, говорится в сообщении на сайте регулятора. Это четвертое подряд повышение уровня показателя.

Совет директоров Банка России поднял ключевую ставку сразу на 200 б.п. — до 15% годовых, говорится в сообщении регулятора. Это четвертое подряд повышение — к ужесточению политики ЦБ перешел в июле 2023 года и один раз даже повышал ставку на внеплановом заседании.

Тогда значение третьего критерия будет равно

I_{3} (s^{ε}, s^{τ}) = \frac{\sum_{r^{ε}, r^{τ} > \in N_{Syn} (s^{ε}, s^{τ})} v (r^{ε})}{\sum_{r^{ε} \in {r \in R^{ε} | \exists r^{'} \in R^{ε} : < r, r^{'} > \in Σ^{ε}}} v (r^{ε})} = \frac{0,034}{0,096} = 0, 354.

Посчитаем сходство текста-эталона и сравниваемого текста на основе совпадения семантических значений предложений:

I_{4} (s^{ε}, s^{τ}) = \frac{| ρ (s^{ε}, s^{τ}) |}{| {WR}^{ε} |} = \frac{18}{28} = 0,643.

Проведем оценку сходства текстов на основе совпадения семантических связей в их предложениях:

I_{5} (s^{ε}, s^{τ}) = \frac{\sum_{r^{ε}, r^{τ} > \in N (s^{ε}, s^{τ})} | Sem R_{r^{ε}}^{ε} \cap Sem R_{r^{τ}}^{τ} |}{| {WR}^{ε} |} = \frac{15}{28} = 0,536.

Для параметров метода

α_{n}

, где

n \in {1,2,3,4,5}

выберем следующие значения

α_{1} = 0,2

;

α_{2} = 0,05

;

α_{3} = 0,1

;

α_{4} = 0,4

;

α_{5} = 0,25 .

Тогда общая оценка сходства текстов будет равна:

(ε, τ) = 0,234 ∙ 0,2 + 0,002 ∙ 0,05 + 0,354 ∙ 0,1 + 0,643 ∙ 0,4 + 0,536 ∙ 0,25 = 0,474.

Так как сравниваемые тексты содержат не более 3 предложений, то показатель (2) не рассчитывается.

Значит, тексты сходятся с

(ε, τ) = 0,474

. То есть сравниваемый текст повторяет эталонный примерно в половину.

Заключение

В настоящей статье представлен метод оценки схожести текстов, который определяет соответствие между текстами на основе сравнения предложений. Для определения близости текстов используются различные критерии, такие как: покрытие предложения из эталонного текста предложением из сравниваемого текста, оценка информационной значимости слов, сравнение синтаксических структур, семантических значений и семантических связей. Общая оценка схожести предложений определяется с использованием взвешенной суммы этих критериев, вклад в каждый из которых вносят параметры метода.

Установление сходства текстовых документов

Резюме

Общая информация

Полный текст

Введение

Обзор существующих методов

Постановка задачи

Метод оценки сходства текстов

Заключение

Литература

Информация об авторах

Метрики

Просмотров web

Скачиваний PDF

Всего