Автоматическая кластеризация документов СМИ на основе анализа их смыслового содержания

105

Аннотация

В статье описывается решение проблемы автоматической кластеризации документов средств массовой информации (СМИ) на основе их смыслового анализа. Предлагаемое решение базируется на методах машинной грамматики, семантико-синтаксического и концептуального анализа текстов, а также на методах выявления понятийного состава коллекции документов и формализации смыслового содержания текстов. Разработанный алгоритм процесса кластеризации документов обеспечивает возможность его реализации в полностью автоматическом режиме без предварительного машинного обучения.

Общая информация

Ключевые слова: автоматическая кластеризация документов, машинная грамматика, семантико-синтаксический анализ текстов, концептуальный анализ текстов, актуальный концептуальный словарь

Рубрика издания: Анализ данных

Тип материала: научная статья

DOI: https://doi.org/10.17759/mda.2020100302

Для цитаты: Кан А.В., Козловская Я.Д., Кадушкин Н.А., Хорошилов А.А. Автоматическая кластеризация документов СМИ на основе анализа их смыслового содержания // Моделирование и анализ данных. 2020. Том 10. № 3. С. 24–38. DOI: 10.17759/mda.2020100302

Фрагмент статьи

Основная идея кластеризации коллекции документов заключается в разделении этой коллекции на группы (кластеры), совпадающих по смысловому содержанию. Это можно достигнуть на основе установления принципов сходства и различия документов.

Литература

  1. Богатырев М.Ю. Извлечение фактов из текстов естественного языка с применением концептуальных графовых моделей // Известия ТулГУ. Технические науки. – 2016. – № 7. – Ч. 1.
  2. Современные технологии обработки естественного языка в задачах стратегического управления / Виноградов А.Н. [и др.] // Технологическая перспектива в рамках евразийского пространства: новые рынки и точки экономического роста. / Власова Н.А., Куршев Е.П., Подобряев А.В. – СПб.:Центр научно-информационных технологий «Астерион», – 2018.
  3. Ермаков А.Е. Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей [Электронный ресурс] // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции «Диалог’2007». – М. : Наука, – 2007.
  4. Автоматическое создание формализованного представления смыслового содержания неструктурированных текстовых сообщений СМИ и социальных сетей / Хорошилов Ал-др. А. [и др.] // Системы высокой доступности / Никитин Ю.В., Хорошилов Ал-ей. А., Будско В.И., – 2014. – Т. 10., № 3.
  5. Helbig Н. Knowledge representation and the semantics of natural language. – Berlin: Springer, – 2006.
  6. Белоногов Г.Г., Гиляревский Р.С., Хорошилов А.А. Проблемы автоматической смысловой обработки текстовой информации // Научно-техническая информация. Сер. 2. Информационные процессы и системы / Всероссийский институт научной и технической информации РАН. – 2012, № 11. – С. 24–28.
  7. Средства машинной грамматики русского языка (по Г.Г. Белоногову) / Аблов И.В. [и др.] // Научно-техническая информация / Козичев В.Н., Ширманов А.В., Хорошилов Ал-др А., Хорошилов Ал-ей А., Сер. 2, – 2018. № 6.
  8. Калинин Ю.П., Хорошилов Ал-др. А., Хорошилов Ал-ей. А. Современные технологии автоматизированной обработки текстовой информации // Системы высокой доступности, – 2015. – Т. 11, № 2.

Информация об авторах

Кан Анна Владимировна, кандидат технических наук, доцент, Московский авиационный институт (национальный исследовательский университет) (МАИ), начальник аналитического отдела ФГБУ «НИЦ «Институт имени Н.Е. Жуковского», Москва, Россия, ORCID: https://orcid.org/0000-0001-9410-406X, e-mail: kan_a@mail.ru

Козловская Яна Дмитриевна, магистрант, Московский авиационный институт (национальный исследовательский университет), Москва, Россия, ORCID: https://orcid.org/0000-0002-1780-5687, e-mail: yana_kozlovskaia@mail.ru

Кадушкин Николай Алексеевич, студент, Московский авиационный институт (национальный исследовательский университет), Москва, Россия, ORCID: https://orcid.org/0000-0002-0327-909X, e-mail: bbamrin@gmail.com

Хорошилов Александр Александрович, доктор технических наук, ведущий программист, АО «НПК “ВТ и СС”», Москва, Россия, ORCID: https://orcid.org/0000-0003-4885-3232, e-mail: a.a.horoshilov@mail.ru

Метрики

Просмотров

Всего: 274
В прошлом месяце: 6
В текущем месяце: 2

Скачиваний

Всего: 105
В прошлом месяце: 0
В текущем месяце: 2