Введение
Безопасность эксплуатации сложных технических систем (СТС) — воздушных судов, атомных электростанций, диспетчерских пунктов — во многом определяется психофизиологическим состоянием операторов. По данным Международной организации гражданской авиации (ICAO), человеческий фактор является причиной до 70–80 % авиационных инцидентов (ICAO. Doc 9859, 2018). Стресс, возникающий в нештатных ситуациях, снижает когнитивные способности оператора: ухудшаются внимание, скорость реакции и качество принимаемых решений (Feigh, Dorneich, Hayes, 2012). Данный вопрос имеет критическую значимость при пилотировании самолёта одним пилотом (так называемый «одночленный экипаж»), поскольку в случае его недееспособности воздушной судно остаётся без управления, следовательно, необходимо своевременно определить факт недееспособности пилота и предпринять соответствующие действия.
В ряде работ показано, что диагностика операторов СТС может эффективно осуществляться с использованием обучаемых структур — нейронных сетей и вероятностных моделей. В частности, предложены методы распознавания аномальной активности операторов на основе сопоставления паттернов их действий с типовыми эмпирическими данными (Kuravsky, Yuryev, 2020). Разработан комплекс математических моделей и программ для моделирования элементов информационно-управляющего поля кабины пилотов и последующей эргономической оценки действий экипажа (Грешников, 2022; Куравский и др., 2025). Показана возможность создания диагностических методик, основанных на сопоставлении фрагментов действий или поведения с типовыми паттернами (Куравский и др., 2026, Куравский и др., 2021).
Традиционные методы контроля психоэмоционального состояния предполагают использование контактных датчиков (ЭЭГ, ЭКГ, кожно-гальваническая реакция), что создаёт помехи в работе оператора (Sharma, Gedeon, 2012). Альтернативным подходом является анализ голосового сигнала, поскольку речевые характеристики человека тесно связаны с эмоциональным состоянием и могут регистрироваться дистанционно (Frampton et al., 2010). При стрессе наблюдаются характерные изменения основной частоты тона (F0), спектральных характеристик и темпа речи, обусловленные напряжением голосовых связок и изменением паттернов дыхания (Giddens et al., 2013).
Самоорганизующиеся карты Кохонена (SOM) — класс нейронных сетей с обучением без учителя (Kohonen, 1982, Kohonen, 2001). SOM обладают рядом свойств, делающих их привлекательным инструментом для решения задач классификации в психодиагностике: способность к визуализации многомерных данных, устойчивость к шуму, интерпретируемость результатов. В (Kuravsky, Baranov, 2001) продемонстрирована эффективность SOM для диагностики виброакустических систем. В (Куравский и др., 2006) предложено также применять SOM совместно с методом Монте-Карло для оценки адекватности факторных моделей психологических данных. Эти работы свидетельствуют об универсальности карт Кохонена как инструмента анализа данных различной природы. В (Куравский и др., 2026) карты Кохонена применены для обнаружения аномальных состояний пилотов по паттернам окуломоторной активности при количественной оценке когнитивной нагрузки.
Целью настоящего исследования является разработка и апробация метода идентификации акустических предикторов стрессового состояния операторов СТС на основе самоорганизующихся карт Кохонена с программной реализацией в виде системы мониторинга реального времени.
Методы
Акустические признаки речевого сигнала
Для описания голосового сигнала формируется девятимерный вектор признаков, извлекаемых из каждого временного сегмента речи (McFee et al., 2015):
1. Основная частота тона (F0) — медиана значений F0, определяемых алгоритмом YIN (de Cheveigné, Kawahara, 2002). F0 отражает частоту колебаний голосовых связок и является одним из наиболее надёжных индикаторов эмоционального состояния.
2. Спектральный центроид — «центр масс» частотного спектра, характеризующий субъективную «яркость» звука:
3. Спектральная ширина — мера разброса спектра относительно центроида:
4. Спектральный спад — частота, ниже которой сосредоточено 85 % общей энергии спектра. Данный параметр характеризует форму спектральной огибающей и используется для различения вокализованной и невокализованной речи:
5–9. Пиковые частоты спектра мощности — пять наиболее выраженных по амплитуде пиков в спектральной плотности мощности, оценённой методом Вельча (Virtanen et al., 2020). Эти частоты могут соответствовать формантам и другим резонансным характеристикам голосового тракта.
Перед подачей в SOM выполняется z-score нормализация:
Алгоритм самоорганизующейся карты Кохонена
SOM представляет собой двумерную решётку нейронов размером , каждый нейрон характеризуется весовым вектором (Kohonen, 2001). Обучение осуществляется итеративно:
2.Веса BMU и соседних нейронов обновляются:
3.Функция окрестности:
Для использования SOM в режиме классификации после обучения каждому нейрону присваивается статистика принадлежности к классам: для обучающих примеров с известными метками («норма» = 0, «стресс» = 1) подсчитывается, сколько примеров каждого класса активировало данный нейрон. Вероятность стресса для нового наблюдения вычисляется как:
Архитектура программного обеспечения
Программный комплекс «AudioStressPredictor» реализован на языке Python 3 и состоит из трёх модулей:
logic.py — модуль бизнес-логики: извлечение акустических признаков (библиотеки librosa, scipy), реализация класса SimpleSOM, обучение и применение моделей, захват аудиопотока в реальном времени (PyAudio);
-
•gui.py — модуль графического интерфейса (PyQt6): управление профилями операторов, страницы обучения, анализа файлов, онлайн-мониторинга и статистики;
-
•main.py — точка входа в приложение.
Архитектура соответствует паттерну MVC и обеспечивает разделение логики обработки данных и представления. Для каждого оператора создаётся персонализированный профиль, включающий обученную модель SOM, параметры нормализации и историю сессий, что позволяет учитывать индивидуальные особенности голоса — важное условие надёжной диагностики (Куравский и др., 2014).
Режим реального времени
Захват звука реализован в отдельном потоке с использованием циклического буфера (5 с при частоте дискретизации 16 кГц). Каждые 20 мс из буфера извлекается скользящее окно, вычисляется вектор признаков и оценивается вероятность стресса. Результат визуализируется цветовым индикатором и спектрограммой (рисунок 1). Такой подход обеспечивает задержку менее 100 мс от момента произнесения фразы до обновления диагностического заключения.
Рис. 1. Пример анализа речи в прямом эфире, во вкладке «Онлайн монитор»
Fig. 1. Example of live speech analysis in the "Online Monitor" tab
Параметры эксперимента
Сходимость обучения
Кривая ошибки квантизации демонстрирует характерную двухфазную динамику: быстрое снижение на первых 40 эпохах (фаза упорядочения) и плавное уменьшение на последующих итерациях (фаза тонкой настройки) (рисунок 2). Финальное значение ошибки квантизации составило менее 1,0 в нормализованном пространстве признаков, что свидетельствует об адекватном покрытии пространства признаков нейронами карты.
Рис. 2. Скриншот вкладки «Обучение» с графиком ошибки обучения
Fig. 2. Screenshot of the 'Training' tab with the training error graph
Классификация состояний
Тестирование показало, что система разделяет состояния «норма» и «стресс» для обученных профилей операторов без выявленных ошибок (рисунок 3). На карте Кохонена формируются различимые кластеры: нейроны, ассоциированные преимущественно с классом «норма», пространственно отделены от нейронов, ассоциированных с классом «стресс», что подтверждает информативность выбранного набора акустических признаков.
Рис. 3. Пример анализа звукового файла во вкладке «Анализ файла»
Fig. 3. Example of analyzing a sound file in the 'File Analysis' tab
При анализе длительных аудиофайлов система выявляет временную динамику уровня стресса, что позволяет определить моменты наибольшего напряжения оператора. В режиме реального времени система обеспечивает непрерывный мониторинг с обновлением индикатора состояния.
Информативность признаков
Анализ весов обученных нейронов позволяет оценить вклад отдельных признаков в разделение классов. Наибольшую дискриминативную способность продемонстрировали основная частота тона (F0) и спектральный центроид — их значения устойчиво повышаются при стрессе, что согласуется с данными литературы (Frampton, 2010; Giddens et al., 2013). Спектральная ширина и спектральный спад также вносят значимый вклад, отражая перераспределение энергии в высокочастотную область спектра при стрессе.
Обсуждение результатов
Полученные результаты согласуются с выводами предшествующих исследований о перспективности применения нейросетевых методов для диагностики операторов СТС. В (Kuravsky, Baranov, 2001) была показана эффективность карт Кохонена для диагностики технических систем по виброакустическим данным; настоящая работа расширяет область применения SOM на задачу диагностики психоэмоционального состояния оператора по речевому сигналу. Аналогичное применение SOM для детектирования превышения критического уровня когнитивной нагрузки пилотов по окуломоторным показателям описано в (Куравский и др., 2026).
Персонализированный подход к построению моделей — обучение индивидуальной SOM для каждого оператора — является существенным преимуществом предложенного метода. Индивидуальные особенности оператора играют ключевую роль в диагностике лётного состава по результатам работы на тренажёрах (Куравский и др., 2014). Аналогично, акустические характеристики голоса высоко индивидуальны, и универсальные модели, обученные на гетерогенной выборке, могут терять точность (Sharma, Gedeon, 2012).
Важно подчеркнуть связь предложенного подхода с проблематикой оценки действий экипажа в контексте безопасности полётов. Разработаны модели оценки вклада человеческого фактора в характеристики работы СТС (Куравский и др., 2025; Куравский и др., 2021, Kuravsky et al., 2020). Интеграция акустического мониторинга стресса в подобные системы позволит повысить полноту диагностической информации: наряду с анализом паттернов действий (Куравский, Козырев, Грешников, 2024) появляется возможность объективной оценки эмоционального состояния оператора.
Среди ограничений исследования следует отметить: (1) относительно небольшой объём обучающих данных; (2) отсутствие верификации на реальных записях переговоров экипажа в полётных условиях; (3) ограниченный набор акустических признаков (9 параметров). В перспективе планируется расширить вектор признаков за счёт включения мел-частотных кепстральных коэффициентов (MFCC) и показателей нестабильности тона (джиттер, шиммер), а также провести валидацию на данных реальных тренажёрных сессий.
Заключение
В работе предложен метод идентификации акустических предикторов стрессового состояния операторов СТС на основе самоорганизующихся карт Кохонена. Для проведения его оценки разработано программное обеспечение «AudioStressPredictor», реализующее цикл от создания персонализированного профиля оператора до мониторинга стресса в режиме реального времени. Экспериментальная апробация подтверждает работоспособность подхода и информативность выбранного набора акустических признаков (F0, спектральный центроид, спектральная ширина, спектральный спад, пиковые частоты).
Система интегрирована в комплекс моделирования перспективного воздушного судна с одночленным экипажем и прошла предварительную оценку лётными экспертами.
Результаты исследования могут быть использованы для создания систем поддержки принятия решений в авиационных учебных центрах и служить основой для бортовых систем мониторинга состояния экипажа. Дальнейшее развитие работы связано с расширением набора признаков, проведением валидации на реальных данных и интеграцией с существующими системами оценки действий экипажа.