Автоматическая кластеризация документов СМИ на основе анализа их смыслового содержания

 
Аудио генерируется искусственным интеллектом

Резюме

В статье описывается решение проблемы автоматической кластеризации документов средств массовой информации (СМИ) на основе их смыслового анализа. Предлагаемое решение базируется на методах машинной грамматики, семантико-синтаксического и концептуального анализа текстов, а также на методах выявления понятийного состава коллекции документов и формализации смыслового содержания текстов. Разработанный алгоритм процесса кластеризации документов обеспечивает возможность его реализации в полностью автоматическом режиме без предварительного машинного обучения.

Общая информация

Ключевые слова: автоматическая кластеризация документов, машинная грамматика, семантико-синтаксический анализ текстов, концептуальный анализ текстов, актуальный концептуальный словарь

Рубрика издания: Анализ данных

Тип материала: научная статья

DOI: https://doi.org/10.17759/mda.2020100302

Опубликована

Для цитаты: Кан, А.В., Козловская, Я.Д., Кадушкин, Н.А., Хорошилов, А.А. (2020). Автоматическая кластеризация документов СМИ на основе анализа их смыслового содержания. Моделирование и анализ данных, 10(3), 24–38. https://doi.org/10.17759/mda.2020100302

© Кан А.В., Козловская Я.Д., Кадушкин Н.А., Хорошилов А.А., 2020

Лицензия: CC BY-NC 4.0

Фрагмент статьи

Основная идея кластеризации коллекции документов заключается в разделении этой коллекции на группы (кластеры), совпадающих по смысловому содержанию. Это можно достигнуть на основе установления принципов сходства и различия документов.

Литература

  1. Богатырев М.Ю. Извлечение фактов из текстов естественного языка с применением концептуальных графовых моделей // Известия ТулГУ. Технические науки. – 2016. – № 7. – Ч. 1.
  2. Современные технологии обработки естественного языка в задачах стратегического управления / Виноградов А.Н. [и др.] // Технологическая перспектива в рамках евразийского пространства: новые рынки и точки экономического роста. / Власова Н.А., Куршев Е.П., Подобряев А.В. – СПб.:Центр научно-информационных технологий «Астерион», – 2018.
  3. Ермаков А.Е. Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей [Электронный ресурс] // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции «Диалог’2007». – М. : Наука, – 2007.
  4. Автоматическое создание формализованного представления смыслового содержания неструктурированных текстовых сообщений СМИ и социальных сетей / Хорошилов Ал-др. А. [и др.] // Системы высокой доступности / Никитин Ю.В., Хорошилов Ал-ей. А., Будско В.И., – 2014. – Т. 10., № 3.
  5. Helbig Н. Knowledge representation and the semantics of natural language. – Berlin: Springer, – 2006.
  6. Белоногов Г.Г., Гиляревский Р.С., Хорошилов А.А. Проблемы автоматической смысловой обработки текстовой информации // Научно-техническая информация. Сер. 2. Информационные процессы и системы / Всероссийский институт научной и технической информации РАН. – 2012, № 11. – С. 24–28.
  7. Средства машинной грамматики русского языка (по Г.Г. Белоногову) / Аблов И.В. [и др.] // Научно-техническая информация / Козичев В.Н., Ширманов А.В., Хорошилов Ал-др А., Хорошилов Ал-ей А., Сер. 2, – 2018. № 6.
  8. Калинин Ю.П., Хорошилов Ал-др. А., Хорошилов Ал-ей. А. Современные технологии автоматизированной обработки текстовой информации // Системы высокой доступности, – 2015. – Т. 11, № 2.

Информация об авторах

Анна Владимировна Кан, кандидат технических наук, доцент, Московский авиационный институт (национальный исследовательский университет) (МАИ), начальник аналитического отдела ФГБУ «НИЦ «Институт имени Н.Е. Жуковского», Москва, Российская Федерация, ORCID: https://orcid.org/0000-0001-9410-406X, e-mail: kan_a@mail.ru

Яна Дмитриевна Козловская, магистрант, Московский авиационный институт (национальный исследовательский университет), Москва, Российская Федерация, ORCID: https://orcid.org/0000-0002-1780-5687, e-mail: yana_kozlovskaia@mail.ru

Николай Алексеевич Кадушкин, студент, Московский авиационный институт (национальный исследовательский университет), Москва, Российская Федерация, ORCID: https://orcid.org/0000-0002-0327-909X, e-mail: bbamrin@gmail.com

Александр Александрович Хорошилов, доктор технических наук, ведущий программист, АО «НПК “ВТ и СС”», Москва, Российская Федерация, ORCID: https://orcid.org/0000-0003-4885-3232, e-mail: a.a.horoshilov@mail.ru

Метрики

 Просмотров web

За все время: 415
В прошлом месяце: 29
В текущем месяце: 6

 Скачиваний PDF

За все время: 143
В прошлом месяце: 2
В текущем месяце: 0

 Всего

За все время: 558
В прошлом месяце: 31
В текущем месяце: 6