Применение искусственных нейронных сетей для решения задач классификации при обработке научных текстов (на примере Weka)

38

Аннотация

С появлением технологий глубокого обучения и их применения в обработке естественного языка было сделано улучшение точности этих методов в двух основных направлениях: использование нейронной сети с учителем для обучения классификатора и без учителя для оптимизации предварительной обработки данных и выбора характеристик. За последние несколько лет нейронные сети вновь появились в качестве мощных моделей машинного обучения, показали лучшие результаты в таких областях, как распознавание образов и обработки речи. Еще совсем недавно нейросетевые модели начали применяться также к различным задачам обработки естественного языка с очень хорошими результатами. Исследование предполагает рассмотрение метода обучения нейронной сети с учителем для классификации научных статей по принадлежности к тем или иным научным журналам.

Общая информация

Ключевые слова: искусственные нейронные сети, научный текст, машинное обучение, классификация

Рубрика издания: Моделирование и анализ данных для цифрового образования

Тип материала: материалы конференции

Для цитаты: Шмалько Ю.В. Применение искусственных нейронных сетей для решения задач классификации при обработке научных текстов (на примере Weka) // Цифровая гуманитаристика и технологии в образовании (DHTE 2023): сб. статей IV Международной научно-практической конференции. 16–17 ноября 2023 г. | Digital Humanities and Technology in Education (DHTE 2023): Сollection of Articles of the IV International Scientific and Practical Conference. November 16–17, 2023. / Под ред. В.В. Рубцова, М.Г. Сороковой, Н.П. Радчиковой. – Москва : ФГБОУ ВО МГППУ, 2023. С. 591–596.

Полный текст

Введение

Нейронные сети относятся к направлению искусственного интеллекта (ИИ) и применяются для распознавания скрытых закономерностей в необработанных данных, группировки и классификации, а также решения задач в области ИИ, машинного и глубокого обучения. В частности, нейронные сети могут использоваться для решения задач классификации при обработке научных текстов. Наше исследование предполагает рассмотрение метода обучения нейронной сети с учителем для классификации научных статей по принадлежности к тем или иным научным журналам.

Целью работы является изучение работы свободного программного обеспечения Weka при обработке научных статей физико-технического направления, анализ полученных результатов и выявление качественных и количественных показателей эксперимента.

Методы

Для работы с Weka (рис. 1.) был подготовлен некоторый модельный файл. Был взят набор наименований англоязычных статей из журналов, индексируемых в Scopus. Все журналы были на разные темы. Это проводилось с целью наблюдения за качеством обучаемости нейросети. Первый этап заключался в объединении статей из разных журналов в один файл (Train_text) для обучения нейронной сети. Журналы заведомо были определенной специфики. Работа проводится с *.arff файлами, которые поддерживает программа Weka. Задача состоит в том, чтобы обучить нейросеть определять по названию к какому журналу относится статья. Второй этап состоял в проверке работоспособности обученной нейронной сети, для чего был создан тестовый файл, содержащий 40 наименований статей из различных журналов. Третий этап был нацелен на анализ экспериментальных данных, полученных в ходе второго этапа. 

Рис. 1. Train_test файл для обучения нейронной сети

Начало *.arff файла, открытого при помощи Notepad, приведено на рисунке. Фактически у нас есть размеченный файл для обучения ИНС.

Тестовый файл содержит названия более 16000 статей физико-технической направленности из восьми известных научных журналов. Каждая строка тренировочного *.arff файла содержит название статьи и, через запятую, класс, к которому она относится, то есть название журнала. Для удобства, вместо полного названия журналов использовались аббревиатуры. Далее, подготовленный тренировочный файл необходимо загрузить в Weka Explorer

Рис. 2. – Отчет об обучении искусственной нейронной сети для решения задачи классификации научных текстов с использованием тренировочного файла.

По завершении процесса обучения, программа Weka выдаёт отчёт о работе с тренировочным набором данных (рис. 2.). Отчет содержит общую информацию об успешности классификации, детализированную информацию о весовых коэффициентах и матрицу путаницы (Confusion Matrix). Правильно классифицированными по названию оказались 65% научных статей, остальные 35% были отнесены к неверным журналам.

Для проверки работоспособности обученной нейронной сети был подготовлен тестовый файл (test_text), содержащий 40 наименований статей из различных журналов, по пять на каждый участвовавший в обучении нейронной сети журнал (рис. 3.).

Рис. 3. – Отчет о тестировании искусственной нейронной сети

Из рисунка 3 видно, что модель искусственной нейронной сети при обработке тестового файла определила принадлежность 70% статей к правильным журналам, и лишь остальные 30% статей были классифицированы неверно.

В целом, результат экспериментального исследования с моделью искусственной нейронной сети доказывает, что задача классификации научных текстов может быть успешно выполнена, и, хоть вероятность корректной классификации не достигает 100%, но модель показывает достойный результат. При более детальной настройке и более широком наборе тренировочных данных, вероятность успешной классификации может быть значительно увеличена.

Обсуждение

В ходе данной работы было проведено исследование возможности использования свободного программного обеспечения Weka для решения задач классификации научных текстов физико-технического направления. Для обучения искусственной нейронной сети был подготовлен тренировочный файл (Train_text.arff), содержащий более 16 000 наименований статей. Для каждой статьи тренировочного файла был определен атрибут – журнал, к которому относится эта статья. Вероятность успешной классификации на этапе обучения составила 65%. Далее для проверки работоспособности обученной искусственной нейронной сети был подготовлен тестовый файл (test_text.arff), содержащий 40 новых научных статей из журналов, которые использовались при обучении. После применения обученной нейронной сети к тестовому набору данных были получены следующие результаты – процент успешно классифицированных научных статей составил 70%, а остальные 30% были отнесены к неверным журналам.

Такой показатель говорит о достаточно высокой эффективности применения искусственных нейронных сетей для решения задачи классификации научных статей по принадлежности к журналам. Возможность применения данного метода значительно упрощает процесс обработки научных текстов.

Информация об авторах

Шмалько Юлия Витальевна, студентка 2 курса магистратуры кафедры экспериментальной физики, Крымский федеральный университет им. В.И. Вернадского (КФУ), Симферополь, Россия, ORCID: https://orcid.org/0000-0001-9760-5839, e-mail: uliasmalko73543@gmail.com

Метрики

Просмотров

Всего: 82
В прошлом месяце: 8
В текущем месяце: 6

Скачиваний

Всего: 38
В прошлом месяце: 7
В текущем месяце: 2