Автоматическое установление родовидовых отношений между понятиями

Макарова А.Е.; Никитин Ю.В.; Хорошилов А.А.

doi:10.17759/mda.2022120104

Моделирование и анализ данных
2022. Том 12. № 1. С. 49–59
doi:10.17759/mda.2022120104
ISSN: 2219-3758 / 2311-9454 (online)

Автоматическое установление родовидовых отношений между понятиями

75

Макарова А.Е., Никитин Ю.В., Хорошилов А.А.

Аннотация

В работе описываются результаты исследований по созданию методов построения формализованного смыслового описания документов для решения задач семантического поиска документов. Применяемые в исследовании методы базируются на использовании процедур машинной грамматики и концептуального анализа текстов, обеспечивающих выявление его понятийного состава и назначения наименованиям понятий характеристик, соответствующих их семантической роли и значимости в тексте. Для выполнения данной работы был создан комплекс программных средств, который был опробован на документах СМИ.

Общая информация

Ключевые слова: семантико-синтаксический анализ текстов, морфологический анализ, концептуальный анализ

Рубрика издания: Методы оптимизации

Тип материала: научная статья

DOI: https://doi.org/10.17759/mda.2022120104

Получена: 29.04.2022

Принята в печать: 14.03.2022

Для цитаты: Макарова А.Е., Никитин Ю.В., Хорошилов А.А. Автоматическое установление родовидовых отношений между понятиями // Моделирование и анализ данных. 2022. Том 12. № 1. С. 49–59. DOI: 10.17759/mda.2022120104

Полный текст

Введение

В настоящее время все большую популярность завоевывают технологии семантического полнотекстового поиска, базирующиеся на смысловом анализе информации, в процессе которого производится извлечение смысла из текстовой информации и трансформация его в формальную смысловую модель. Наиболее эффективным лингвистическим инструментом, позволяющим реализовать такую модель поиска, являются так называемые "онтологии" – семантические инструменты, реализующие концептуальные знания о мире в целом и о предметных областях в частности. Описание наиболее общих знаний об окружающем мире содержится в онтологиях верхнего уровня. Знания о конкретных предметных областях содержатся в предметных (тематических) онтологиях.

Следует отметить, что создание онтологических ресурсов требует больших временных затрат и, как показывает практика, их объемы редко превышают несколько десятков тысяч словарных статей. Между тем понятийная система высокотехнологичных отраслей может достигать нескольких сотен тысяч терминологических понятий. Кроме того, в онтологиях наименования понятий представлены в обобщенной форме, а в научно-технических текстах они встречаются в их всевозможных конкретных представлениях, которые не всегда присутствуют в составе конкретной онтологии. Выходом из создавшейся ситуации может быть только автоматизированное создание тематических онтологий большого объема по реальным текстам, относящимся к данной тематике, включая тексты нормативно-технической, проектной и эксплуатационной документации тематических областей.

Построение онтологий – сложный и достаточно длительный процесс, при котором значительные трудозатраты приходятся на человека-эксперта. Чтобы облегчить его труд, в середине 90-х годов начали создаваться программные среды для разработки онтологий. В состав этих сред были включены интерфейсы, которые позволили выполнять ряд операций построения онтологий: концептуализацию, реализацию, проверку непротиворечивости и документирование. За последние годы число инструментов онтологий резко возросло (сайт консорциума W3C, например, предоставляет список более чем 50 инструментов редактирования).

Обзор методов автоматизированного построения онтологий

Существующие методы автоматического построения онтологий можно условно разделить на несколько групп в зависимости от использования основного подхода:

- методы, основанные на лексико-синтаксических шаблонах;

- методы, основанные на системе продукций;

- статистические методы;

- методы, использующие лингвистические подходы.

Подход на основе лексико-синтаксических шаблонов. Данный подход относится к группе методов автоматического построения онтологий, использующих лингвистические средства [1]. Сторонники подхода утверждают, что для построения онтологий следует активно использовать все уровни анализа естественного языка: морфологию, синтаксис и семантику. Подход, основанный на лексико-синтаксических шаблонах, давно используется в компьютерной лингвистике. Лексико-синтаксические шаблоны представляют собой характерные выражения и конструкции определенных элементов языка. Данная методика семантического анализа не является ориентированной на определенную предметную область. На основе лексико-синтаксических шаблонов выделяются онтологические конструкции. Ввиду сложности задачи, оценка результатов применения этого подхода проводится опосредованно через анализ результатов его использования, например, в различных приложениях Semantic Web. В целом, лексико-синтаксические шаблоны, как метод семантического анализа данных на естественном языке (в случае большого объема коллекции шаблонов), являются эффективным средством для автоматического построения онтологий.

Подход на основе системы продукций. Данный подход относится к группе методов автоматического построения онтологий, в основе которых лежат подходы из области искусственного интеллекта [2]. Предполагается, что эффективное автоматическое построение онтологий может быть основано на способности методов искусственного интеллекта к извлечению из данных элементов знаний и их нетривиальной переработке. Анализ области естественно-языковой обработки информации показывает преобладание использования различных правил при решении задач в рассматриваемой предметной области. Для создания методов автоматического построения онтологий, как правило, разрабатывается модель генерации системы продукций (на основе применения генетического программирования), модель генерации преобразователей (на основе генетического и автоматного программирования), модель генерации систем логического вывода (также на основе генетического и автоматного программирования) и модель аппарата активации продукций (на основе применения автоматного программирования).

Подход на основе статистических методов. Этот подход к решению проблемы автоматического построения онтологий базируется преимущественно на статистических методах анализа данных на естественном языке [3]. Для его реализации требуются большие объемы текстовой информации (репрезентативные корпуса текстов). При создании такого корпуса текстов требуется его обязательная предварительная обработка. Процесс такой обработки может быть достаточно трудоемким и обычно состоит из нескольких этапов:

- приведение документов к единому формату;

- токенизация;

- стемминг (лемматизация);

- исключение стоп-слов.

- ручная обработка (с использованием инструментов консорциума W3C) по установлению смысловых связей между терминологическими наименованиями понятий.

Однако не всегда есть необходимость в проведении всех вышеперечисленных этапов. В результате предварительной обработки каждый документ коллекции характеризуется вектором типов данного документа и их частотой встречаемости. На первом этапе построения онтологии выделяются входящие в ее состав классы, которые, как правило, базируются на терминах предметной области.

Таким образом, основная задача построения онтологий сводится к выявлению терминов рассматриваемой предметной области. Алгоритмы извлечения терминов из текстов на естественном языке можно разделить на две группы: статистические и лингвистические. Однако первые обладают определенным преимуществом, поскольку их использование не зависит от лингвистических особенностей конкретного языка. Существующие статистические методы могут показать лучшие результаты, если дополнить их определенными эвристиками.

В качестве базовых эвристик предлагается использовать следующие:

Эвристика № 1.

Имя класса содержит хотя бы одно существительное.

Эвристика № 2.

Общеупотребительные слова по сравнению с терминами обладают большей частотой встречаемости, приблизительно равной в различных предметных областях.

Эвристика № 3.

Считается, что количество информации термина из нескольких слов больше, чем количество информации отдельных слов, входящих в его состав.

Статистический подход базируется на определенной технологической схеме. На первом этапе в каждой коллекции документов выделяют существительные, и определяют их частоту встречаемости. При этом использование частотных критериев значительно сокращает число предполагаемых классов понятий. На втором этапе выделяют термины, состоящие из одного слова. На основании выдвинутой эвристики № 1 сравниваются частоты встречаемости различных существительных в рамках одной коллекции, а также проводится оценка пересечения различных коллекций по используемым существительным (эвристика № 2). Однако статистические данные – не единственный источник классов онтологии.

Терминологические словари также могут стать источниками знаний при формировании ядра онтологии. В случае работы с коллекциями неспециализированных в конкретной области документов возможно использование существующих разработанных экспертами онтологий (например, для английского языка – онтологии WordNet). Наконец, на третьем этапе на основе взаимной информации могут быть выделены термины, состоящие из нескольких слов. Стоит отметить, что в данном случае используется эвристика № 3. Для случая двухсложных терминов получаем, что взаимная информация определяется по формуле:

mi(x,y) = P(x,y) / P(x)P(y), (1)

где x и y представляют собой отдельные слова термина,

P(x) – частота встречаемости x,

P(y) – частота встречаемости y,

P(x,y) – частота совместной встречаемости x и y.

Выделенные описанным выше образом термины будут представлять собой классы будущей онтологии [2,3].

Автоматическое формирование тематических словарей на основе синтагматических шаблонов синтагм

Существенным недостатком всех выше рассмотренных методов создания онтологий требуют значительных трудозатрат экспертов высокой квалификации на различных этапах этого процесса, что не позволяет построить в приемлемые сроки онтологические ресурсы большого объема. Решить эту проблему возможно только с привлечением достаточно мощных средств автоматизации этого процесса. К таким средствам можно отнести набор базовых средств смыслового анализа текстов: морфологический, семантико-синтаксический и концептуальный анализ текстов.

Авторы настоящего исследования располагали такими средствами [4,5].

В качества основного инструмента авторами использовался морфологический анализатор МетаФраз [6], семантико-синтаксический анализатор МетаФраз [7] и разработанная авторами настоящей статьи процедура концептуального анализа текстов, базирующаяся на синтагматических шаблонах. Положенные в основу метода этой процедуры синтагматические шаблоны функционируют на основе метода лингвистической аналогии текстовых форм представлений наименований понятий в текстах и по сути представляют собой синтаксическую модель фрагмента текста в рамках следующего утверждения: представление синтаксической структуры фрагментов текстов в виде последовательности контактно расположенных двухбайтовых индексов элементов синтагм, обладающих грамматическими свойствами конкретных слов-эталонов, позволяет фиксировать грамматические и синтаксические свойства различных последовательностей реальных текстов, а также позволяет в ряде задач распознавать аналогичные по заданным свойствам последовательности слов и словосочетаний в текстах [7].

В качестве эталонных словосочетаний были использованы элементы эталонного концептуального словаря наименований понятий (ЭКСНП) объемом 1.7 млн. словарных статей. В таблице 1 приведен фрагмент понятийной системы текста по медицинской тематике, выявленный на основе обобщенных синтагм, полученных по словарю ЭКСНП.

Таблица 1

Фрагмент понятийной системы текста, выявленный на основе обобщенных синтагм

НАAwНАAwABNw острого респираторного синдрома / атомного ракетного крейсера

НАAwABNw респираторного синдрома / абсолютного принципа

НIAwwмNw атипичная пневмония / абдоминальная аортография

НТAwAANw воспалительный процесс / абразивный износ

НТAwAANwНАAwABNw воспалительный процесс пищеварительного тракта / преступный акт пещерного садизма

AANwНАAwABNw процесс пищеварительного тракта / анализ клеточного цикла

НАAwABNw пищеварительного тракта / абсолютного принципа

НВAwwfNw коронавирусной инфекции / аварийной ситуации

НIAwНIAw острая респираторная / вегетативная нервная

Словарная запись в таблице 1 каждого элемента состоит их трех компонент: шаблона синтаксической синтагмы словосочетания (первая слева запись), далее в центре выделенное из текста словосочетание, и последнее справа словосочетание (через косую черту) – словосочетание эталонного словаря.

Автоматизированное составление словарей терминологических наименований понятий по текстам документов можно выполнить по следующей технологической схеме:

1.Формально-логический контроль текстов;

2.Членение исходного текста на отдельные слова;

3.Морфологический анализ слов текста;

4.Членение текста на предложения;

5.Семантико-синтаксический анализ текстов;

6.Приближенный концептуальный анализ текстов;

8.Автоматическое приведение наименований понятий к их канонической форме;

9.Формирование частотного словаря наименований понятий;

Алгоритм установления родовидовых отношений в текстах

Полученный понятийный словарь слов и словосочетаний текста достаточно большого объема или совокупной тематической коллекции текстов дает возможность автоматически устанавливать смысловые отношения между словосочетаниями на основе анализа лексического состава словосочетаний. Для установления родовидовых отношений между словосочетаниями можно воспользоваться следующей гипотезой: если имеются два словосочетания различной длины, в которых имеются одинаковые главные (опорные) слова, и все определители более короткого словосочетания совпадают с определителями более длинного словосочетания, то эти два словосочетания находятся в отношении родовидовой связи, и более короткое словосочетание является родовым понятием, а более длинное – видовым;

В соответствие с этой гипотезой был разработан следующий алгоритм установления родовидовых отношений в текстах между наименованиями понятий:

Устанавливаем последовательность слов и словосочетаний, имеющих одно и то же главное слово. Обрабатываемое словосочетание располагается справа от разделителей звездочек, а его главное слово слева. Результаты занесем в таблицу 2

Таблица 2

Список словосочетаний, использованных для исследования, и их главное слово

академия***Академии наук

академия***Академия Генштаба

академия***Киево-Могилянская академия

академия***Российская Академия

академия***академия МВД

академия***военная академия

академия***сельскохозяйственная академия

академия***Академия Народного Хозяйства

академия***Академия военных наук

академия***Академия наук Татарстана

академия***Военная академия Генштаба

академия***Польской академии наук

академия***Российская академия народного хозяйства

академия***Украинская свободная академия наук

1. Строим матрицу вхождений отдельных слов в словосочетания. Номера строк матрицы – это индексы предложений (или словосочетаний) , где – количество обрабатываемых предложений или словосочетаний. Номера столбцов матрицы – индексы уникальных слов в тексте , где – количество всех уникальных слов.

Для заполнения используются нули и единицы. Если в предложении , присутствует слово с индексом , в ячейке ставится единица, в противном случае ноль.

2. Последовательно устанавливаем вхождения N слов в словосочетания, начиная с N = 1. Первым в обработку поступает слово, встречающееся чаще всего, то есть главное. В нашем примере это “академия”.

3. Если все слова словосочетания имеют частоту равную единице, то это будут словосочетания 1-го уровня RV отношений. Родовым понятием для них будет одно это слово (если такого родового слова нет, то его необходимо создать принудительно).

Приведем пример словосочетаний, относящихся к первому уровню RV отношений, выбрав их из Таблицы 2:

· Академии наук

· Академия Генштаба

· Киево-Могилянская академия

· Российская Академия

· академия МВД

· военная академия

· сельскохозяйственная академия

· Академия Народного Хозяйства

4. Далее в соответствии с матрицей отдельных слов в словосочетаниях устанавливаются отношения следующего уровня RV отношений (N+1), путем выявления вхождения слов в словосочетания, имеющих частоту f>1.

Примером словосочетаний с RV отношениями второго уровня можно считать:

Для родового понятия “академия наук”:

· Академия военных наук

· Академия наук Татарстана

· Польской академии наук

· Украинская свободная академия наук

Для родового понятия “академия Генштаба”:

· Военная академия Генштаба

Для родового понятия “военная академия”:

· Академия военных наук

· Военная академия Генштаба

Для родового понятия “Российская Академия”:

· Российская академия народного хозяйства

5. Для каждой цепочки устанавливаем словосочетание с минимальной длиной и полностью входящее в другое словосочетание. Для каждой пары продолжаем устанавливать следующий уровень RV отношений.

Заметим, что в нашем примере возможно выделить квазиродовое понятие “академия народного хозяйства”, входящее в состав словосочетания “Российская академия народного хозяйства”. Они связаны RV отношениями третьего уровня.

6. Процесс установления RV отношений заканчивается, когда будут исчерпаны все понятия с частотной лексикой.

В таблице 3 приведены результаты работы алгоритма.

Таблица 3

Результаты работы алгоритма

академия =RV= Академии наук

академия =RV= академия МВД

академия =RV= Киево-Могилянская академия

академия =RV= сельскохозяйственная академия

академия =RV= Академия Народного Хозяйства

академия =RV= Академия Генштаба

академии наук =RV= Академия военных наук

академии наук =RV= Польской академии наук

академии наук =RV= Украинская свободная академия наук

академии наук =RV= Академия наук Татарстана

академия Генштаба =RV= Военная академия Генштаба

военная академия =RV= Академия военных наук

военная академия =RV= Военная академия Генштаба

российская Академия =RV= Российская академия народного хозяйства

академия Народного Хозяйства =RV= Российская академия народного хозяйства

Заключение

В проведенном исследовании показана принципиальная возможность на основе предлагаемых методов автоматически создать программные и декларативные средства для процедур автоматического семантического поиска документов, в частности, для процедур автоматического установления степени смысловой близости документов. На основе созданного в процессе проведения настоящего исследования алгоритма автоматического установления родовидовых отношений между понятиями был проведен эксперимент по обработке массива текстов СМИ большого объема. В ходе эксперимента получены удовлетворительные результаты. Их анализ показал, что на количественные характеристики результатов обработки текстов незначительно повлияли ресурсные ограничения и принятые в связи с этим принятые допущения.

Для улучшения работы используемых процедур необходимо предпринять следующие шаги:

1. Необходимо выполнить в полном объеме комплекс технологических операций по созданию декларативных средств. Исходные тексты предварительно должны быть подвергнуты обработке процедурами формально-логического контроля и исправления орфографических и синтаксических ошибок. Большая часть процедур анализа и исправления текстовых искажений должны быть автоматизированы.

2. Необходимо обеспечить требуемые параметры концептуальных словарей (по объему и составу). При этом необходимо исходить из следующих рекомендаций: тематический словарь должен быть составлен по актуальным текстам и иметь объем не менее 1 млн. словарных статей. Покрытие анализируемых текстов наименованиями понятий должно быть не менее 60-70% от их общего состава

3. Для повышения степени обобщения смыслового содержания наименований понятий необходимо, чтобы наименования понятий в словарях были связаны также отношениями синонимии.

Литература

Захарова И.В. Математическая модель семантического поиска с использованием онтологического подхода: Автореф. дис. канд. физ.-мат. наук. – Челябинск, 2009. – 20 с.
Найханова Л.В. Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования: Автореф. дис. докт. тех. наук. – Красноярск, 2008. – 36 с.
Рабчевский Е.А. Автоматическое построение онтологий. // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. – СПб.: Издательство Политехнического Университета, 2007. – № 52–2. – С. 22–26.
Хорошилов А.А. Методы автоматического установления смысловой близости документов на основе их концептуального анализа // Труды XV Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2013, г. Ярославль, 14–17 октября 2013 года. – 2013. – С. 369–376.
Хорошилов А.А., Макарова А.Е. / Автоматизированное формирование онтологических ресурсов в авиакосмической отрасли // Тезисы. – М.: Издательство «Перо», 2021– 9,43 Мб. [Электронное издание]. - Москва: Московский авиационный институт (национальный исследовательский университет), 2021. - С.282-283.
Морфологический анализатор МетаФраз нового поколения / Хорошилов Ал-др А., Никитин Ю.В., Пшеничный С.И., Шевкунов М.А., Хорошилов Ал-ей А. // Научно-техническая информация. Серия 2: Информационные процессы и системы. ВИНИТИ РАН. 2021. №5.
Автоматическое формирование синтаксической модели языка для задач машинного перевода и информационного поиска / Кан А.В., Ревина В. Д., Руснак В.И., Хорошилов Ал-др А., Хорошилов Ал-сей А. // Сб. «Научно-техническая информация», Сер. 2, № 12, ВИНИТИ, 2018.

Информация об авторах

Макарова Анна Евгеньевна, младший программист, АО “НПК “ВТ и СС”, Москва, Россия, ORCID: https://orcid.org/0000-0002-9232-6838, e-mail: anna20497@list.ru

Никитин Юрий Викторович, научный сотрудник, Институт проблем информатики ФИЦ ИУ РАН, Москва, Россия, ORCID: https://orcid.org/0000-0002-7641-0247, e-mail: yuri.v.nikitin@gmail.com

Хорошилов Александр Александрович, доктор технических наук, ведущий программист, АО «НПК “ВТ и СС”», Москва, Россия, ORCID: https://orcid.org/0000-0003-4885-3232, e-mail: a.a.horoshilov@mail.ru

Метрики

Просмотров

Всего: 210
В прошлом месяце: 7
В текущем месяце: 8

Скачиваний

Всего: 75
В прошлом месяце: 3
В текущем месяце: 4

PlumX

Метрики публикации