Извлечение научно-технических фактов из отраслевых документов на основе методов семантико-синтаксического и концептуального анализа

30

Аннотация

Извлечение научно-технических фактов является трудной задачей с точки зрения корректности получаемой информации. Предлагаемая модель выделения фактов основывается на четких представлениях о смысловой структуре текста, выраженной в виде иерархии синтаксических конструкций единиц смысла, что позволяет выявить межфразовые связи в контактно расположенных предложениях. В качестве смысловых единиц используются отдельные слова, словосочетания, присущие конкретной предметной области, и образующие её понятийный состав. Для обработки исходного текста используются процедуры фразеологического, концептуального и семантико-синтаксического анализа текстов.

Общая информация

Ключевые слова: адекватность факторных моделей, семантико-синтаксический анализ текстов, концептуальный анализ, семантическая структура текста, единица анализа

Рубрика издания: Анализ данных

Тип материала: научная статья

DOI: https://doi.org/10.17759/mda.2024140102

Получена: 04.03.2024

Принята в печать:

Для цитаты: Кан А.В., Козловская Я.Д., Токолова А.А. Извлечение научно-технических фактов из отраслевых документов на основе методов семантико-синтаксического и концептуального анализа // Моделирование и анализ данных. 2024. Том 14. № 1. С. 27–40. DOI: 10.17759/mda.2024140102

Полный текст

Введение 

Научные публикации уже давно стали основным источником и способом распространения научно-технических открытий. Согласно отчету [1], с 2018 года ежегодное количество научных публикаций, в том числе опросов, тезисов и обзоров, выросло на 22,4% и за 2022 год достигло значения свыше 5,4 миллионов. Такой объем информации качественно затрудняет ручной поиск релевантных сведений и фактов для их дальнейшей обработки. 

Научно-технические факты представляют особый интерес для пользователя и под этим терминов понимается событие, понятие или явление. Для корректного выделения фактов из отраслевой документации используются методы извлечения фактологической информации (ИФИ), среди которых семантико-синтаксический, фразеологический и концептуальный анализ текстов. Выделение наименований понятий (НП) основывается на вычислении меры смысловой значимости, а смысловая структура текста представляется в виде предикатно-актантной структуры (ПАС), получаемой методами семантико-синтаксического и концептуального анализа. 

Основные положения фразеологического концептуального анализа текстов

Фразеологический концептуальный анализ [2] используется для установления единиц смысла предложения, которые и формируют смысловое содержание текста.

Основные положения концепции фразеологического концептуального анализа текстов:

  • Смысловое содержание текстов выражается с помощью единиц смысла.

  • Понятие – самая устойчивая единица смысла.

  • Объекты предложения обладают особыми признаками, выражающимися через предикатно-актантную структуру (ПАС) и набором отношений с другими объектами.

  • Сверхфразовые единства формируются из предложений и представляются в виде последовательностей предложений (связного текста).

Предикатно-актантная структура (ПАС) – представляет предложения в виде понятий-предикатов, устанавливающих связи между объектами, и в виде понятий-актантов, содержащих признаки объектов. ПАС обеспечивает автоматический перевод текстов с естественных языков на формализованные и наоборот.

Определение значимых наименований понятий в тексте

Значимые наименования понятий [3,4] выделяются методами статистического, синтаксического и концептуального анализа текстов. Сложность этого процесса заключается в фиксировании границ наименований понятий, несущих ключевую смысловую нагрузку.

Семантические методы позволяют с помощью эталонных словарей идентифицировать значимые слова и словосочетания определенной предметной области.

Статистические методы позволяют определить значимые понятия путем присвоения объектам текста весовых коэффициентов на основе частотного анализа встречаемости в конкретном документе и во всем корпусе документов.

Синтаксические методы позволяют определить, какую синтаксическую роль играют значимые слова и словосочетания, определяя их синтаксическую роль в предложении, как субъект, предикат или объект.

Смысловая значимость слов в контексте документа оценивается статистической мерой TF IDF [5].
TF ( concept , Text ) = l concept k l k частота слова в документе,
где l concept — число вхождений наименования понятия concept в документ;
k l k — общее число наименований понятий в данном документе.
IDF ( concept , M ) = log | M | | { Text n M concept Text n } |
IDF ( concept , M ) обратная частота документа, т.е. инверсия частоты, с которой наименование понятия встречается в корпусе текстов, каждому слово соответствует одно значение IDF, где | M | — число документов в корпусе;
| { Text n M concept Text n } | — число документов из массива документов M , в которых встречается понятие concept (когда l concept 0 ).

Эта статистическая мера увеличивает значение слова пропорционально частоте его появления в тексте, однако, уменьшает это же значение при появлении слова в большом количестве документов.

Модель выявления фактов в коллекции текстов

Факт ! состоит из контактно расположенных предложений текста и содержится во фрагменте текста. Таким образом, факт можно представить в виде некоторой последовательности предложений:
! ( Sen t u , Sen t u + 1 , , Sent t ) ,
где Sen t u , Sen t u + 1 , , Sent t – последовательность предложений факта;
u – первое предложение факта;
t – последнее предложение факта.
Предложение факта Sent представляет собой кортеж элементов факта:
Sent = el 1 , el 2 , , el i ,
где el i – элемент факта,
i – количество элементов факта.
Элементом текста el является слово или знак препинания:
el = { w , pm } ,
где w – слово;
pm – знак препинания.
Каждый элемент текста el обладает грамматическими и синтаксическими признаками:
GSP ( el ) = ( GP , SP ) ,
где GP – грамматические признаки;
SP – синтаксические признаки.
Термином «понятие» определяется некоторый социально значимый мыслительный образ, представляемый в виде отдельного слова или в виде устойчивого фразеологического словосочетания. Понятие concept можно представить математически в виде одного элемента факта или в виде совокупности нескольких элементов факта:
concept = { el j } j = 1 J счетное .
Каждое понятие concept имеет унифицированную и нормализованную формы, получаемые функциями унификации и нормализации:
Unif : concept concept un – функция унификации,
Norm : concept concept nf – функция нормализации,
где concept un – унифицированная форма понятия;
concept nf – нормализованная форма понятия.
Смысл предложения факта MF выражается через его предикатно-актантную структуру (систему элементарных смысловых триад):
MF = { PSO 1 , PSO 2 , , PSO e } ,
где e – количество элементарных смысловых триад в предложении.
Элементарная смысловая триада представляется в виде кортежа субъекта S , предиката P и объекта O :
PSO = S , P , O ,
где P – смысловая связь между субъектом и объектом (предикат);
S – главное слово или словосочетание элементарного высказывания (субъект);
O – зависимое слово или словосочетание элементарного высказывания (объект).

Полное описание факта [5] представляется в виде совокупности предикатно-актантных структур предложений факта:

FullFact = { MF v } v = 1 V счетное , FullFact ! .

Процесс извлечения научно-технических фактов на основе синтаксической модели текста

Реализованная синтаксическая модель текста на основе системы обобщенных синтагм, которые выражают форму единицы смысла и состоят из сочетания символов обобщенных грамматических классов слов, входящих в состав словосочетаний эталонного словаря, позволяет анализировать его структуру, извлекать понятийный состав и определять смысловые отношения. Эта модель также помогает извлекать ключевые синтаксические конструкции предложения и классифицировать их элементы. Значимые именованные сущности регистрируются и обрабатываются в соответствии с их синтаксической ролью. Затем эти элементы унифицируются в соответствии с требованиями системы.

Алгоритм автоматического выявления и формализации фактов в текстах:

Шаг 1. Разделить исходный текст на предложения и выполнить морфологический анализ предложений.

Шаг 2. Определить именные и глагольные словосочетания и установить их синтаксическую роль в предложении при помощи упрощенного семантико-синтаксического анализа.

Шаг 3. Составить частотный словарь слов и словосочетаний, определить какие из этих слов и словосочетаний являются значимыми для данного текста.

Шаг 4. Присвоить уникальные идентификаторы каждому словосочетанию согласно словарю унифицированных формализованных представлений наименований понятий (УФПНП) и сопоставить их исходные формы с унифицированными формами представления, указав все их местоположения в тексте (номера предложений).

Шаг 5. Определить номера предложений, содержащих значимые слова и словосочетания, используя словарь указателей связей предложений (УСП).

Шаг 6. Определить связи между предложениями, содержащими ключевые понятия, и их окружением. Установить границы описания фактов в тексте, используя разметку текста по указателям смысловых связей и обобщенным наименованиям понятий.

Шаг 7. Присвоить каждому текстовому описанию фактов идентификационный номер, содержащий порядковый номер события, код и тип документа.

Шаг 8. Определить главные и второстепенные члены предложения, границы словосочетаний, построить дерево зависимостей предложения, построить ПАС и сформировать «скелет» предложения, используя информацию, полученную на шаге 2.

Шаг 9. Определить обобщенную синтагму и построить формализованное представления для каждого словосочетания.

Шаг 10. Соотнести полученные методом концептуального анализа словосочетания со словосочетаниями, полученными путем синтаксического анализа.

Шаг 11. Произвести нормализацию.

Шаг 12. Расчленить описание каждого факта на составные элементы – формализованное представление элементов ПАС, «скелет» предложения с указанием номеров словосочетаний в эталонном концептуальном словаре (ЭКС).

Шаг 13. Выполнить генерацию формализованных представлений предложений факта в обобщенное формализованное представление его смысловой структуры.

Шаг 14. Произвести преобразование обобщенного формализованного представления в его машинную форму.

Основным отличием предлагаемой модели от существующих заключается в том, что в рамках этой модели смысловое представление текста выражается в виде иерархии синтаксических конструкций единиц смысла.

Описания конкретных фактов в тексте могут отображаться его контактно расположенной последовательностью предложений, связанных межфразовыми связями [6]. Рассмотрим в качестве такого примера текст, представленный в таблице 1.

Таблица 1. Фрагмент текста

Стратегический бомбардировщик “B -52” более полувека стоит на вооружении ВВС США. В настоящее время продажа за пределами США боинга “B-52” запрещена, так как его летные характеристики многократно превосходят зарубежные аналоги. Самолеты бомбардировщики “Б-52” были введены в строй с 1955 года. Всего было построено 728 бомбардировщиков. По проекту каждый из этих самолетов несет на борту до 51 единицы боеприпасов.

 

Разобьем исходный текст на предложения и присвоим каждому идентификационный индекс, состоящий из порядкового номера события, номера предложения в нем, источника информации и даты публикации (см. табл. 2).

Таблица 2. Перенумерованные предложения с идентификационными индексами

1. Стратегический бомбардировщик “B -52” более полувека стоит на вооружении ВВС США. - 458496_1

2. В настоящее время продажа за пределами США боинга “B-52” запрещена, так как его летные характеристики многократно превосходят зарубежные аналоги.

- 458496_2

3. Самолеты бомбардировщики “Б-52” были введены в строй с 1955 года. - 458496_3

4. Всего было построено 728 бомбардировщиков. - 458496_4

5. По проекту каждый из этих самолетов несет на борту до 51 единицы боеприпасов. - 458496_5

В приведенном фрагменте текста межфразовая связь между предложением №4 и предложением №5 обусловлена местоименной анафорой «их этих», связь между предложениями №1, №2 №3 и № 4 обусловлена синонимичными конструкциями «Стратегический бомбардировщик – самолет бомбардировщик». Наличие межфразовых связей является необходимым условием выделения описания конкретного факта в тексте [7]. Дополнительным условием, предоставленным в таблице 3, является смысловая связь (родовидовые и синонимичные отношения) между частью наименований понятий этого фрагмента, находящимися в разных предложениях (в скобках указаны номера предложений).

Таблица 3. Смысловая связь между частью наименований понятий фрагмента, находящихся в разных предложениях

cтратегический бомбардировщик “B -52” (№1) - самолеты бомбардировщики “Б-52” (№3) – бомбардировщиков (№4)

cтратегический бомбардировщик “B -52” (№1) - боинга “B-52” (№2) - самолеты бомбардировщики “Б-52” (№3)

 

В рамках разработанной синтаксической модели возможно осуществить автоматическое преобразование исходного текста в его формализованную синтаксическую структуру, аналогичное приведенной выше структуре. В процессе такого преобразования для получения унифицированного представления элементов ПАС необходимо дополнительно выполнить нормализацию форм слов наименований понятий и их унификацию по словарю УФПНП. Результат такой операции приведен в таблице 4.

Таблица 4. Унифицированные формы представления наименований понятий

Наименование понятия

Унифицированная форма представления

стратегический бомбардировщик

самолет

боинг

самолет

ВВС США

войско

боеприпасы

оружие

вооружение

оружие

США

страна

 

В таблице 5 указывается идентификатор факта и приводится его исходная текстовая форма, указывается состав ПАС (в мнемонике грамматических классов слов), унифицированный «скелет», идентификатор факта, номер предложения; приводится формализованное представление ПАС предложения в сокращенной форме в виде символов обобщенных синтагм и в виде унифицированных форм главных слов ПАС; приводится формализованное представления «скелета» (SklRus) предложений факта (в сокращенном виде – только главные слова, в полном виде эти элементы представлены номерами элементов словаря ЭКС); приводится формализованное представление предложений (SenRus) в виде последовательности нормальных слов предложения.[7]

Таблица 5. Результаты семантико-синтаксического и концептуального анализа предложений описания факта, приведенного в таблице 1.

Исходное предложение №1

Стратегический бомбардировщик “B -52” более полувека стоит на вооружении ВВС США.

Формализованное описание элементов ПАС предложения

PSO={V,N,N}={стоять;бомбардировщик;вооружение}

Формализованное представление элементов ПАС предложений

Predicate (P)

лA = стоять #лA=стоять

Subject (S)

FA = бомбардировщик #FA=бомбардировщик

Object (O)

ЁK = вооружение #ЁK=вооружение

Формализованное представления ПАС предложений (PSORus)

PSO= лAFAЁK= стоять;бомбардировщик;вооружение # лAFAЁK

Формализованное представления «скелета» предложений (SklRus)

N"N"NVFN=FA""@A9A""YAлAыAЁKьAьA=бомбардировщик “B -52” полувек стоять на вооружение ВВС США

Формализованное представления предложений (SenRus)

РiFA""@A9A""сAYAлAыAЁKьAьA=стратегический бомбардировщик “B -52” более полувек стоять на вооружение ВВС США

Исходное предложение №2

В настоящее время продажа за пределами США боинга “B-52” запрещена, так как его летные характеристики многократно превосходят зарубежные аналоги.

Формализованное описание элементов ПАС предложения

PSO={N,N,V,N,V,N}={продажа;боинг;запрещен;характеристика;превосходит; аналог}

Формализованное представление элементов ПАС предложений

Predicate (P)

аA =запрещен # аA =запрещен

Юp =превосходит # Юp = превосходит

Subject (S)

uB = продажа #uB =продажа

vB = характеристика # vB = характеристика

Object (O)

FA = боинг # FA =боинг

FA = аналог # FA =аналог

Формализованное представления ПАС предложений (PSORus)

PSO_1= uBFAаA = продажа;боинг;запрещен # uBFAаA

PSO_2= vBЮpFA =характеристика;превосходит;аналог# vBЮpFA

Формализованное представления «скелета» предложений (SklRus)

FNNFN"N"K,NVN =ыАГтvHRWbTKxaИ,,АТежА= в время продажа за предел боинг запрещен, характеристика превосходить аналог

Формализованное представления предложений (SenRus)

ыAПiИмuBъAACьAFA""9A""аA,,сAсAяAНТvBсAлAНТFA= в_настоящий_время

_продажа_за_пределам_США_боинг_"B-2"_запрещен,_так_как_его_летный

_характеристика_многократно_превосходить_зарубежный_аналог

Исходное предложение №3

Самолеты бомбардировщики “Б-52” были введены в строй с 1955 года.

Формализованное описание элементов ПАС предложения

PSO={V,N,N}={введен;самолет;строй}

Формализованное представление элементов ПАС предложений

Predicate (P)

аA = введен # аA =введен

Subject (S)

AA = самолет # AA =самолет

Object (O)

Dx = строй #Dx=строй

Формализованное представления ПАС предложений (PSORus)

PSO= аAAADx= введен;самолет;строй # аAAADx

Формализованное представления «скелета» предложений (SklRus)

N"N"LKFNFN = eW""@A9A""ЯAаAыADxщA9= самолет “Б-52” был введен в строй с 1955 год

Формализованное представления предложений (SenRus)

AAFA""9A""ЯAаAыADxщA9AHA=самолет_бомбардировщик_“Б-52”_был_введен

_в_строй_с_1955 _год

Исходное предложение №4

Всего было построено 728 бомбардировщиков.

Формализованное описание элементов ПАС предложения

PO={V,N}={построен;бомбардировщик}

Формализованное представление элементов ПАС предложений

Predicate (P)

аA = построен #аA=построен

Subject (S)

FA = бомбардировщик # FA =бомбардировщик

Формализованное представления ПАС предложений (PSORus)

PO=аАFA = построен;самолет # аАFA

Формализованное представления «скелета» предложений (SklRus)

LKN = был_построен_бомбардировщик

Формализованное представления предложений (SenRus)

ЧMЯAаA9AFA = всего_был_построен_728_бомбардировщик

Исходное предложение №5

По проекту каждый из этих самолетов несет на борту до 51 единицы боеприпасов.

Формализованное описание элементов ПАС предложения

PSO={V,N,N}={несет; самолет; боеприпас}

Формализованное представление элементов ПАС предложений

Predicate (P)

ЪY = несет # ЪY =несет

Subject (S)

AA = самолет # AA =самолет

Object (O)

AA = боеприпас # AA = боеприпас

Формализованное представления ПАС предложений (PSORus)

PSO = ЪYAAAA = несет; самолет; боеприпас #ЪYAAAA

Формализованное представления «скелета» предложений (SklRus)

FN FN VFNFN= по_проект_из_этот_нести_на_борт_до_51_единиц

Формализованное представления предложений (SenRus)

хAAAНТфAФAAAЪYыAHAфA9AВBAA =по_проект_каждый_из_этот_самолет

_несет_на_борт_до_51_единица_боеприпас

 

Результатом работы алгоритма является формализованное представление предложений, обобщающее смысловое содержания фактологической информации. Для генерации формализованного представления обобщенного смыслового содержания факта выделялись унифицированные представления элементов ПАС предложений. Результаты такого представления приведены в таблице 6 в виде формализованного и индексного представления элементов ПАС факта. Каждый элемент ПАС сопровождается его весовым коэффициентом, индексом синтаксической роли, номером словосочетания в словаре ЭКС и уникальным идентификатором факта.

Таблица 6. Формализованное и индексное представление элементов ПАС факта текста №387473. В этих представлениях номер события был заменен на его уникальный идентификационный номер (ID=008154)

Формализованное представление элементов ПАС факта

PSO={V,N,N}->

P={стоять_064_065785, запрещен_049_087631, превосходит_057_075324, введен_047_087631, построен_049_098713, несет_058_075692}; S={бомбардировщик_025_034758, продажа_039_062584, характеристика_039_07234, самолет_029_046273}; O={вооружение_038_086759, аналог_020_015638, строй_029_063348}

Индексное представление элементов ПАС факта

стоять_{064_065785_P_008154}, запрещен_{049_087631_P_008154}, превосходит_{057_075324_P_008154}, введен_{047_087631_P_008154}, построен_{049_098713_P_008154}, несет_{058_075692_P_008154}, бомбардировщик_{025_034758_S_008154}, продажа_{039_062584_S_008154}, характеристика_{039_07234_S_008154}, самолет_{029_046273_S_008154}, вооружение_{038_086759_O_008154}, аналог_{020_015638_O_008154}, строй_{029_063348_P_008154}

 

Таким образом, как видно из таблицы 5 и таблицы 6, основная задача формализации смыслового представления описания факта заключается в генерации совокупности унифицированных представлений ПАС. Полученная совокупность формализованных представлений ПАС, «скелета» и предложения позволяет не только обеспечить возможность поиска по любому элементу их формализованного описания, но и обеспечивает возможность последовательного перехода от каждого нижестоящего элемента формализованного описания к вышестоящему, а также возможность перехода в обратном порядке. Такое представление смысла предложений обеспечивает реализацию всего спектра семантических операций над смысловым содержанием факта.

Полученное формализованное представление обобщенного смыслового содержания факта позволяет производить поиск и сопоставление идентичных или близких по смысловому содержанию фактов, а также обеспечивает возможность их классификации по различным основаниям: по их содержанию, по именам субъектов или объектов фактов или по тональности отношений между ними и др. 

Заключение

В статье описано решение задачи автоматического извлечения фактов из научно-технологических документов на основе методов их семантико-синтаксического и концептуального анализа.

Представленная модель алгоритма автоматического извлечения фактов решает проблему формализации и унификации смыслового содержания фактов. Результатами работы этого алгоритма является представление смысловой структуры фактов, полученных из исходных корпусов текста, в виде совокупности формализованных представлений ПАС, обеспечивающих возможность поиска по любому элементу их формализованного описания. Такое представление смысла предложений обеспечивает реализацию всего спектра семантических операций над смысловым содержанием факта, в том числе классификации и сопоставления, что дает возможность выполнять проверку корректности извлеченной информации. 

Литература

  1. Curcic D. Number of Academic Papers Published Per Year // Wordsrated URL: https://wordsrated.com/number-of-academic-papers-published-per-year/#:~:text=As%20of%202022%2C%20over%205.14,5.03%20million%20papers%20were%20published. (дата обращения: 09.10.2023).
  2. Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А. Компьютерная лингвистика и перспективные информационные технологии. Теория и практика построения систем автоматической обработки текстовой информации. – М.: Изд-во Русский мир, 2004.
  3. Хорошилов Ал-др А., Мусабаев Р.Р., Козловская Я.Д., Никитин Ю.В., Хорошилов А.А. Автоматическое выявление и классификация информационных событий в текстах СМИ// Научно-техническая информация. Серия 2: Информационные процессы и системы. 2020. №7. С. 27-38. DOI: 10.36535/0548-0027-2020-07-4 
  4. Хорошилов Ал-др. А., Никитин Ю.В., Хорошилов Ал-ей. А., Будзко В.И. Автоматическое создание формализованного представления смыслового содержания неструктурированных текстовых сообщений СМИ и социальных сетей // Системы высокой доступности, №3, том.10, 2014, с.36-51.
  5. Кан А.В., Козловская Я.Д., Кадушкин Н.А., Хорошилов Ал-р А. Автоматическая кластеризация документов СМИ на основе анализа их смыслового содержания // Моделирование и анализ данных. 2020. Том 10. № 3. C. 24–38. DOI: https://doi.org/10.17759/mda.2020100302
  6. Богатырев М. Ю. Извлечение фактов из текстов естественного языка с применением концептуальных графовых моделей // Известия ТулГУ. Технические науки. -2016. - № 7. - Ч. 1.
  7. Хорошилов Ал-др А., Козловская Я.Д., Мусабаев Р.Р., Красовицкий А.М., Хорошилов Ал-ей А. Определение тональности сообщений СМИ методом их концептуального анализа// Моделирование и анализ данных. 2019.  №4. DOI: 10.17759/mda.2019090405

Информация об авторах

Кан Анна Владимировна, кандидат технических наук, доцент, Московский авиационный институт (национальный исследовательский университет) (МАИ), начальник аналитического отдела ФГБУ «НИЦ «Институт имени Н.Е. Жуковского», Москва, Россия, ORCID: https://orcid.org/0000-0001-9410-406X, e-mail: kan_a@mail.ru

Козловская Яна Дмитриевна, магистрант, Московский авиационный институт (национальный исследовательский университет), Москва, Россия, ORCID: https://orcid.org/0000-0002-1780-5687, e-mail: yana_kozlovskaia@mail.ru

Токолова Алина Александровна, студент магистратуры, институт «Компьютерные науки и прикладная математика», Московский авиационный института (МАИ), Москва, Россия, e-mail: tokolovaa@gmail.com

Метрики

Просмотров

Всего: 77
В прошлом месяце: 6
В текущем месяце: 3

Скачиваний

Всего: 30
В прошлом месяце: 3
В текущем месяце: 1