Моделирование и анализ данных
2022. Том 12. № 4. С. 105–109
doi:10.17759/mda.2022120408
ISSN: 2219-3758 / 2311-9454 (online)
Кластеризация и многоступенчатый семантический анализ научных текстов
Аннотация
На сегодняшний день многие проблемы компетентностного подхода остаются не решенными как в методологическом и методическом плане, так и в плане организации деятельности и создания соответствующих технологий. Для формирования научно-исследовательских компетенций университета соответствующие сведения о проектах, научных работах и специализации сотрудников университета необходимо собирать и обрабатывать, что в современных условиях при большом разнообразии научных направлений и количестве отдельных работ и проектов требует создания специализированной информационной системы. Задача выявления компетенций сотрудников научной организации может быть решена путем кластеризации текстов их научных работ.
Общая информация
Ключевые слова: информационная система, научно-исследовательская компетенция, база данных, семантика
Рубрика издания: Краткие сообщения
Тип материала: краткое сообщение
DOI: https://doi.org/10.17759/mda.2022120408
Получена: 19.11.2022
Принята в печать:
Для цитаты: Исаков С.С. Кластеризация и многоступенчатый семантический анализ научных текстов // Моделирование и анализ данных. 2022. Том 12. № 4. С. 105–109. DOI: 10.17759/mda.2022120408
Полный текст
Постановка задачи
Известно, что перед высшей профессиональной школой сегодня поставлена задача подготовки выпускников к проведению научных исследований, что в терминах компетентностного подхода звучит как формирование научно-исследовательской компетентности.
На сегодняшний день многие проблемы компетентностного подхода остаются не решенными как в методологическом и методическом плане, так и в плане организации деятельности и создания соответствующих технологий. Научно-исследовательские компетенции университета в первую очередь определяются составом его сотрудников, преподавателями и научными работниками, которые могут осуществлять различные научно-исследовательские работы на должном уровне. Поэтому научно-исследовательские компетенции университета, по-видимому, следует и можно определять по тем проектам и научно-исследовательским работам, которые осуществляет университет с учетом общей квалификации его научного персонала (образования и специализации сотрудников). При этом профессиональная направленность этих компетенций так или иначе связана с известными научными специальностями научных сотрудников. Для формирования научно-исследовательских компетенций университета соответствующие сведения о проектах, научных работах и специализации сотрудников университета необходимо собирать и обрабатывать, что в современных условиях при большом разнообразии научных направлений и количестве отдельных работ и проектов требует создания специализированной информационной системы.
Цель работы по созданию веб-ресурса для формирования научно-исследовательских компетенций заключалась в разработке компьютерной информационной системы для определения научно-исследовательских компетенций МГППУ и планирования научной деятельности высшего учебного заведения с функциями частичной автоматизации формирования описаний научно-исследовательских компетенций.
Задачи проекта включали: анализ вопросов формализации описаний научно-исследовательских компетенций; определение функциональных требований к ИС и составление технического задания на разработку ИС; синтаксический и семантический анализ структуры и алгоритмизация отношений между составляющими научно-исследовательских компетенций; разработка механизмов реляционной базы данных научной специализации и научно-исследовательских работ и проектов университета; синтаксический и семантический анализ структуры и алгоритмизация отношений между составляющими научно-исследовательских компетенций; разработка механизмов реляционной базы данных научной специализации и научно-исследовательских работ и проектов университета; разработка алгоритмов автоматизации формирования описаний научно-исследовательских компетенций.
Такая информационная система может обеспечить систематизацию, упорядочение и автоматизацию сведений о научно-исследовательских компетенциях университета и упрощение работы с этой информацией, даст возможность лучше координировать и планировать дальнейшую научно-исследовательскую деятельность университета и осуществлять экспертизу постановки новых научных задач, позволит провести рекламу и продвижение проектов университета. Это в результате может дать университету необходимые конкурентные преимущества на рынке. В настоящее время стандартных информационных систем такого типа на рынке не существует, что делает проект по разработке информационной системы «научно-исследовательские компетенции университета» актуальным.
Техническая реализация
Программная реализация информационной системы представляет из себя веб-ресурс, хранящийся на сервере МГППУ. В качестве приложения-сервера используется широко распространенное приложение Apache. Система написана с использованием языков: PHP, JavaScript, CSS, HTML. В качестве приложения базы данных используется приложение MySQL. Так как разрабатываемый веб-ресурс является информационной системой сложной структуры, то для разработки используется фреймворк Laravel, включающий в себя фреймворк Symfony.
В качестве языка представления шаблонов графических HTML элементов в системе используется язык Twig. Гибкое и эффективное взаимодействие с базой данных совершается с использованием библиотеки Eloquent. Вся передача данных внутри системы и от сервера к клиентскому приложению производится на языке структуризации данных JSON. В целом архитектура приложения создана на шаблоне проектирования MVC (Model View Controller).
Шаблон проектирования MVC предполагает разделение данных приложения, пользовательского интерфейса и управляющей логики на три отдельных компонента: Модель, Представление и Контроллер – таким образом, что модификация каждого компонента может осуществляться независимо. Такой систематизированный подход позволяет в достаточной степени и с наилучшей эффективностью использовать концепцию объектно-ориентированного программирования, основанную на представлении программы в виде совокупности объектов, каждый из которых является экземпляром определённого класса, а классы образуют иерархию наследования.
Математическая модель
Задача выявления компетенций сотрудников научной организации может быть решена путем кластеризации текстов их научных работ. При этом необходимо учитывать наличие у сотрудников утвержденной научной квалификации и их распределение по научным специальностям соответствующей номенклатуры. Наиболее простой вариант решения задачи сводится к формализованному представлению текстов с последующей оценкой их семантической близости. Связь представлений текстов и научных специальностей представляется матрицей в метрике TF-IDF.
Предлагаемый подход предполагает вычисление оценок согласованности документов с ключевыми фрагментами описаний научных специальностей. Размерность пространства, в котором представлены эти тексты, понижается с помощью сингулярного разложения матриц в метрике TF-IDF. Это обеспечивает понижение размерности задачи и удаление несущественной информации. Последующее многомерное шкалирование позволяет получить представления научных текстов в пространстве малой размерности, что является исходными данными для последующей кластеризации. Сингулярное разложение матрицы, связывающей сотрудников и кластеры научных текстов, с последующим многомерным шкалированием позволяет выполнить кластеризацию носителей компетенций.
Литература
1. Андреев А.В., Митрофанова О.А., Соколов К.В. Введение в формальную семантику. СПб.: СПбГУ. РИО. Филол. фак., 2014. 88 с.
Информация об авторах
Метрики
Просмотров
Всего: 162
В прошлом месяце: 10
В текущем месяце: 5
Скачиваний
Всего: 49
В прошлом месяце: 4
В текущем месяце: 0