Применение искусственных нейронных сетей для решения задач классификации при обработке научных текстов (на примере Weka)

Шмалько Ю.В.

Применение искусственных нейронных сетей для решения задач классификации при обработке научных текстов (на примере Weka)

53

Аннотация

С появлением технологий глубокого обучения и их применения в обработке естественного языка было сделано улучшение точности этих методов в двух основных направлениях: использование нейронной сети с учителем для обучения классификатора и без учителя для оптимизации предварительной обработки данных и выбора характеристик. За последние несколько лет нейронные сети вновь появились в качестве мощных моделей машинного обучения, показали лучшие результаты в таких областях, как распознавание образов и обработки речи. Еще совсем недавно нейросетевые модели начали применяться также к различным задачам обработки естественного языка с очень хорошими результатами. Исследование предполагает рассмотрение метода обучения нейронной сети с учителем для классификации научных статей по принадлежности к тем или иным научным журналам.

Общая информация

Ключевые слова: искусственные нейронные сети, научный текст, машинное обучение, классификация

Рубрика издания: Моделирование и анализ данных для цифрового образования

Тип материала: материалы конференции

Для цитаты: Шмалько Ю.В. Применение искусственных нейронных сетей для решения задач классификации при обработке научных текстов (на примере Weka) // Цифровая гуманитаристика и технологии в образовании (DHTE 2023): сб. статей IV Международной научно-практической конференции. 16–17 ноября 2023 г. | Digital Humanities and Technology in Education (DHTE 2023): Сollection of Articles of the IV International Scientific and Practical Conference. November 16–17, 2023. / Под ред. В.В. Рубцова, М.Г. Сороковой, Н.П. Радчиковой. – Москва : ФГБОУ ВО МГППУ, 2023. С. 591–596.

Полный текст

Введение

Нейронные сети относятся к направлению искусственного интеллекта (ИИ) и применяются для распознавания скрытых закономерностей в необработанных данных, группировки и классификации, а также решения задач в области ИИ, машинного и глубокого обучения. В частности, нейронные сети могут использоваться для решения задач классификации при обработке научных текстов. Наше исследование предполагает рассмотрение метода обучения нейронной сети с учителем для классификации научных статей по принадлежности к тем или иным научным журналам.

Целью работы является изучение работы свободного программного обеспечения Weka при обработке научных статей физико-технического направления, анализ полученных результатов и выявление качественных и количественных показателей эксперимента.

Методы

Для работы с Weka (рис. 1.) был подготовлен некоторый модельный файл. Был взят набор наименований англоязычных статей из журналов, индексируемых в Scopus. Все журналы были на разные темы. Это проводилось с целью наблюдения за качеством обучаемости нейросети. Первый этап заключался в объединении статей из разных журналов в один файл (Train_text) для обучения нейронной сети. Журналы заведомо были определенной специфики. Работа проводится с *.arff файлами, которые поддерживает программа Weka. Задача состоит в том, чтобы обучить нейросеть определять по названию к какому журналу относится статья. Второй этап состоял в проверке работоспособности обученной нейронной сети, для чего был создан тестовый файл, содержащий 40 наименований статей из различных журналов. Третий этап был нацелен на анализ экспериментальных данных, полученных в ходе второго этапа.

Рис. 1. Train_test файл для обучения нейронной сети

Начало *.arff файла, открытого при помощи Notepad, приведено на рисунке. Фактически у нас есть размеченный файл для обучения ИНС.

Тестовый файл содержит названия более 16000 статей физико-технической направленности из восьми известных научных журналов. Каждая строка тренировочного *.arff файла содержит название статьи и, через запятую, класс, к которому она относится, то есть название журнала. Для удобства, вместо полного названия журналов использовались аббревиатуры. Далее, подготовленный тренировочный файл необходимо загрузить в Weka Explorer

Рис. 2. – Отчет об обучении искусственной нейронной сети для решения задачи классификации научных текстов с использованием тренировочного файла.

По завершении процесса обучения, программа Weka выдаёт отчёт о работе с тренировочным набором данных (рис. 2.). Отчет содержит общую информацию об успешности классификации, детализированную информацию о весовых коэффициентах и матрицу путаницы (Confusion Matrix). Правильно классифицированными по названию оказались 65% научных статей, остальные 35% были отнесены к неверным журналам.

Для проверки работоспособности обученной нейронной сети был подготовлен тестовый файл (test_text), содержащий 40 наименований статей из различных журналов, по пять на каждый участвовавший в обучении нейронной сети журнал (рис. 3.).

Рис. 3. – Отчет о тестировании искусственной нейронной сети

Из рисунка 3 видно, что модель искусственной нейронной сети при обработке тестового файла определила принадлежность 70% статей к правильным журналам, и лишь остальные 30% статей были классифицированы неверно.

В целом, результат экспериментального исследования с моделью искусственной нейронной сети доказывает, что задача классификации научных текстов может быть успешно выполнена, и, хоть вероятность корректной классификации не достигает 100%, но модель показывает достойный результат. При более детальной настройке и более широком наборе тренировочных данных, вероятность успешной классификации может быть значительно увеличена.

Обсуждение

В ходе данной работы было проведено исследование возможности использования свободного программного обеспечения Weka для решения задач классификации научных текстов физико-технического направления. Для обучения искусственной нейронной сети был подготовлен тренировочный файл (Train_text.arff), содержащий более 16 000 наименований статей. Для каждой статьи тренировочного файла был определен атрибут – журнал, к которому относится эта статья. Вероятность успешной классификации на этапе обучения составила 65%. Далее для проверки работоспособности обученной искусственной нейронной сети был подготовлен тестовый файл (test_text.arff), содержащий 40 новых научных статей из журналов, которые использовались при обучении. После применения обученной нейронной сети к тестовому набору данных были получены следующие результаты – процент успешно классифицированных научных статей составил 70%, а остальные 30% были отнесены к неверным журналам.

Такой показатель говорит о достаточно высокой эффективности применения искусственных нейронных сетей для решения задачи классификации научных статей по принадлежности к журналам. Возможность применения данного метода значительно упрощает процесс обработки научных текстов.

Информация об авторах

Шмалько Юлия Витальевна, студентка 2 курса магистратуры кафедры экспериментальной физики, Крымский федеральный университет им. В.И. Вернадского (КФУ), Симферополь, Российская Федерация, ORCID: https://orcid.org/0000-0001-9760-5839, e-mail: uliasmalko73543@gmail.com

Метрики

Просмотров web

За все время: 161
В прошлом месяце: 12
В текущем месяце: 1

Скачиваний PDF

За все время: 53
В прошлом месяце: 0
В текущем месяце: 0

Всего

За все время: 214
В прошлом месяце: 12
В текущем месяце: 1