Введение
Нейронные сети относятся к направлению искусственного интеллекта (ИИ) и применяются для распознавания скрытых закономерностей в необработанных данных, группировки и классификации, а также решения задач в области ИИ, машинного и глубокого обучения. В частности, нейронные сети могут использоваться для решения задач классификации при обработке научных текстов. Наше исследование предполагает рассмотрение метода обучения нейронной сети с учителем для классификации научных статей по принадлежности к тем или иным научным журналам.
Целью работы является изучение работы свободного программного обеспечения Weka при обработке научных статей физико-технического направления, анализ полученных результатов и выявление качественных и количественных показателей эксперимента.
Методы
Для работы с Weka (рис. 1.) был подготовлен некоторый модельный файл. Был взят набор наименований англоязычных статей из журналов, индексируемых в Scopus. Все журналы были на разные темы. Это проводилось с целью наблюдения за качеством обучаемости нейросети. Первый этап заключался в объединении статей из разных журналов в один файл (Train_text) для обучения нейронной сети. Журналы заведомо были определенной специфики. Работа проводится с *.arff файлами, которые поддерживает программа Weka. Задача состоит в том, чтобы обучить нейросеть определять по названию к какому журналу относится статья. Второй этап состоял в проверке работоспособности обученной нейронной сети, для чего был создан тестовый файл, содержащий 40 наименований статей из различных журналов. Третий этап был нацелен на анализ экспериментальных данных, полученных в ходе второго этапа.
Рис. 1. Train_test файл для обучения нейронной сети
Начало *.arff файла, открытого при помощи Notepad, приведено на рисунке. Фактически у нас есть размеченный файл для обучения ИНС.
Тестовый файл содержит названия более 16000 статей физико-технической направленности из восьми известных научных журналов. Каждая строка тренировочного *.arff файла содержит название статьи и, через запятую, класс, к которому она относится, то есть название журнала. Для удобства, вместо полного названия журналов использовались аббревиатуры. Далее, подготовленный тренировочный файл необходимо загрузить в Weka Explorer
Рис. 2. – Отчет об обучении искусственной нейронной сети для решения задачи классификации научных текстов с использованием тренировочного файла.
По завершении процесса обучения, программа Weka выдаёт отчёт о работе с тренировочным набором данных (рис. 2.). Отчет содержит общую информацию об успешности классификации, детализированную информацию о весовых коэффициентах и матрицу путаницы (Confusion Matrix). Правильно классифицированными по названию оказались 65% научных статей, остальные 35% были отнесены к неверным журналам.
Для проверки работоспособности обученной нейронной сети был подготовлен тестовый файл (test_text), содержащий 40 наименований статей из различных журналов, по пять на каждый участвовавший в обучении нейронной сети журнал (рис. 3.).
Рис. 3. – Отчет о тестировании искусственной нейронной сети
Из рисунка 3 видно, что модель искусственной нейронной сети при обработке тестового файла определила принадлежность 70% статей к правильным журналам, и лишь остальные 30% статей были классифицированы неверно.
В целом, результат экспериментального исследования с моделью искусственной нейронной сети доказывает, что задача классификации научных текстов может быть успешно выполнена, и, хоть вероятность корректной классификации не достигает 100%, но модель показывает достойный результат. При более детальной настройке и более широком наборе тренировочных данных, вероятность успешной классификации может быть значительно увеличена.
Обсуждение
В ходе данной работы было проведено исследование возможности использования свободного программного обеспечения Weka для решения задач классификации научных текстов физико-технического направления. Для обучения искусственной нейронной сети был подготовлен тренировочный файл (Train_text.arff), содержащий более 16 000 наименований статей. Для каждой статьи тренировочного файла был определен атрибут – журнал, к которому относится эта статья. Вероятность успешной классификации на этапе обучения составила 65%. Далее для проверки работоспособности обученной искусственной нейронной сети был подготовлен тестовый файл (test_text.arff), содержащий 40 новых научных статей из журналов, которые использовались при обучении. После применения обученной нейронной сети к тестовому набору данных были получены следующие результаты – процент успешно классифицированных научных статей составил 70%, а остальные 30% были отнесены к неверным журналам.
Такой показатель говорит о достаточно высокой эффективности применения искусственных нейронных сетей для решения задачи классификации научных статей по принадлежности к журналам. Возможность применения данного метода значительно упрощает процесс обработки научных текстов.


