Трансформеры в задачах прогнозирования временных рядов: теоретические основы архитектур

 
Аудио генерируется искусственным интеллектом
 168 мин. чтения

Резюме

Контекст и актуальность. Прогнозирование временных рядов критически важно для принятия решений, но классические методы (ARIMA) имеют ограничения, а LSTM страдает от затухания градиентов. Специализированные трансформеры требуют теоретического обоснования. Цель. Исследовать применение трансформеров для прогнозирования временных рядов и определить условия эффективности их модификаций. Гипотеза. Трансформеры превосходят классические методы в точности прогнозирования, а выбор архитектуры зависит от характеристик данных. Методы и материалы. Проведён теоретический анализ модификаций трансформеров и экспериментальное сравнение LSTM, базового трансформера, Autoformer и FEDformer на датасете потребления электроэнергии (1 млн записей). Результаты. Базовый трансформер показал лучшие результаты (RMSE = 0.5874), превзойдя LSTM на 8.7%. Эффективность специализированных архитектур зависит от характеристик данных: для электропотребления преимущества декомпозиции были минимальны. Выводы. Выбор архитектуры должен основываться на специфике временных рядов. Перспективны гибридные архитектуры и облегченные версии трансформеров для работы с ограниченными вычислительными ресурсами.

Общая информация

Ключевые слова: прогнозирование временных рядов, внимание, машинное обучение, глубокое обучение

Рубрика издания: Анализ данных

Тип материала: научная статья

DOI: https://doi.org/10.17759/mda.2025150402

Дополнительные данные. Наборы данных доступны по адресу: https://github.com/zhouhaoyi/ETDataset

Поступила в редакцию 20.11.2025

Поступила после рецензирования 23.11.2025

Принята к публикации

Опубликована

Для цитаты: Орищенко, В.А. (2025). Трансформеры в задачах прогнозирования временных рядов: теоретические основы архитектур. Моделирование и анализ данных, 15(4), 27–37. https://doi.org/10.17759/mda.2025150402

© Орищенко В.А., 2025

Лицензия: CC BY-NC 4.0

Полный текст

Введение

Прогнозирование временных рядов часто служит основой для принятия решений в различных предметных областях. Высокая адаптивность моделей способствует высокой точности прогнозирования, что несет высокую пользу в различных направлениях, включая принятие решений в бизнес-процессах, стабильную работоспособность сложных технических систем. Классические методы, например, ARIMA (авторегрессионное интегрированное скользящее среднее) (Бокс, Дженкинс, Рейнсел, 1974), требуют строгих предположений о стационарности данных и линейности зависимостей, что редко выполняется в условиях реального мира. Рекуррентные нейронные сети (RNN), в частности LSTM (долгая краткосрочная память) (Hochreiter, 1997), позволяют преодолеть эти ограничения, моделируя нелинейные паттерны в наблюдаемых данных. Однако их рекуррентная архитектура приводит к экспоненциальному затуханию градиентов при обработке последовательностей длиной более ~1000 шагов (Pascanu, 2013), а последовательные расчёты создает трудности для параллельных вычислений.

Появление трансформеров (Vaswani, 2017), частного случая глубоких нейронных сетей, в 2017 году стало прорывом в обработке последовательностей. Его механизм multi-head attention эффективно выявляет долгосрочные зависимости, а отсутствие рекуррентных связей позволяет обрабатывать данные параллельно. Эти преимущества делают трансформеры эффективным инструментом для прогнозирования временных рядов. Однако, имеется ряд ограничений:

  1. 1.Высокая вычислительная сложность O ) для последовательностей длины L делает обучение неэффективным при L > 10 4 ;
  2. 2.Отсутствие встроенных механизмов для работы с нестационарностью, характерной для данных с высокой степенью динамики характеристик;

  3. 3.Игнорирование структурных характеристик временных рядов (тренд, сезонность), которые легко моделируются классическими статистическими методами.

Современные исследования предлагают адаптировать трансформеры под специфику временных рядов. Например, Informer (Zhou, 2021) использует разреженное внимание для снижения сложности, Autoformer (Wu, 2021) интегрирует декомпозицию тренд-сезонность, а FEDformer (Liu, 2022) применяет частотные преобразования для подавления шума. Несмотря на эмпирически доказанную эффективность этих моделей, имеется ограниченное количество научных материалов, которые описывают механизм работы указанных выше алгоритмов с временными рядами.

В рамках данной статьи детально будет рассмотрен подход в прогнозировании временных рядов с использованием различных вариаций трансформеров.

Эволюция методов прогнозирования

Классические методы моделирования временных рядов опираются на гипотезу о том, что будущее состояние системы зависит от ее прошлого. Модель ARIMA ( p , d , q ) формализует это через линейную комбинацию авторегрессионных ( p ) и скользящих средних ( q ) членов с предварительным дифференцированием ( d порядка ) для достижения стационарности:
d y t = c + i = 1 p ( ϕ i y t i ) + j = 1 q ( θ j ε t j ) + ε t , ( 1 )
где d = — оператор дифференцирования ( B — оператор запаздывания), ε t N ( 0 , σ 2 ) . Несмотря на интерпретируемость, ARIMA не учитывает экзогенные переменные и нелинейные зависимости.
Рекуррентные нейросетевые подходы, например, LSTM (Hochreiter, 1997), заменяют линейные коэффициенты адаптивными весами. Обновление скрытого состояния h t в LSTM включает три типа «ворот» (input, forget, output):
{ f t = σ ( W f [ h t 1 , x t ] + b f ) , i t = σ ( W i [ h t 1 , x t ] + b i ) , C ~ t = tanh ( W c [ h t 1 , x t ] + b C ) , C t = f t C t 1 + i t C ~ t , h t = O t tanh ( C t ) , O t = σ ( W o [ h t 1 , x t ] + b o ) , ( 2 )
где σ — сигмоидная функция, — поэлементное умножение. Хотя LSTM эффективно моделирует локальные паттерны, его рекуррентная структура ограничивает параллельные вычисления, а градиенты затухают при L > 500 (Pascanu, 2013).

Трансформеры для временных рядов

Функция softmax является ключевым компонентом механизма внимания и определяется следующим образом. Пусть z = ( z 1 , z 2 , , z n ) R n – вектор входных значений. Функция softmax преобразует этот вектор в распределение вероятностей:

softmax ( z i ) = e z i j = 1 n e z j , i = 1 , 2 , , n , ( 3 )
где j = 1 n softmax ( z i ) = 1 и softmax ( z i ) > 0 для всех i . Эта функция обеспечивает нормализацию весов внимания и позволяет интерпретировать их как вероятности (Vaswani, 2017).
Исходная архитектура трансформера состоит из энкодера и декодера, каждый из которых содержит слои self-attention и feed-forward сетей. Self-attention вычисляет взвешенную сумму значений V с весами, зависящими от запросов Q и ключей K :
A ttention ( Q , K , V ) = softmax ( Q K T d K + M ) V , ( 4 )
где M — маска, обеспечивающая причинность (для t ' > t значение M t , t = . Сложность составляет O ( L 2 d k ) , что неприемлемо для длинных временных рядов (в таком случае необходимо оптимизировать вычисления, используя мощные графические ускорители – GPU).

Источник: данная формула впервые была представлена в работе Vaswani et al. и стала основой для всех последующих архитектур трансформеров. Оригинальное определение приведено в уравнении (1) статьи (Vaswani, 2017).

 

Для адаптации трансформеров к временным рядам предложены следующие стратегии:

  • Разреженное внимание (Informer): ProbSparse-механизм выбирает O ( log L ) ключей для каждого запроса, снижая сложность до O ( L log L ) (Zhou, 2021).
  • Декомпозиция компонент (Autoformer): разделяет ряд на тренд и сезонность через скользящее среднее (Wu, 2021):

T rend t = 1 2 k + 1 τ = t k t + k t τ . ( 5 )
  • Частотный анализ (FEDformer): применяет преобразование Фурье к Q , K , V , выделяя доминирующие частоты (Liu, 2022)

Эти подходы требуют теоретического обоснования, особенно в контексте устойчивости к шуму и способности аппроксимировать нестационарные процессы.

 

Математические основы и архитектурные модификации

Формализация задачи прогнозирования временных рядов

Рассмотрим многомерный временной ряд Y = { y 1 , , y t } R t × d , где d — количество признаков. Задача прогнозирования на H шагов вперёд формулируется как поиск отображения f θ : R L × d R H × d , минимизирующего ожидаемую ошибку:
θ = arg min θ Ε Y D [ L ( f 0 ( Y t L : t ) , Y t + 1 : t + H ) ] , ( 6 ) где L — функция потерь (например, средний квадрат отклонения), D — распределение данных.

Позиционное кодирование для временных рядов

Поскольку трансформер изначально не учитывает порядок последовательности, для прогнозирования временных рядов предложены улучшенные методы позиционного кодирования:

  • Временные эмбеддинги: для временной метки  t вектор кодируется как P E ( t ) = [ sin ( ω 1 t ) , cos ( ω 1 t ) , , sin ( ω d t ) , cos ( ω d t ) ] , где частоты ω i выбираются из логарифмического диапазона для охвата разных периодов.
  • Скользящие окна с адаптивным масштабированием: для нестационарных рядов вводится нормировка x t ' = x t μ t k : t σ t k : t , где μ , σ — локальные среднее и стандартное отклонение.

Sparse Attention

Informer заменяет полное внимание на ProbSparse, основанное на теореме о разреженном приближении (Zhou, 2021):

 

Теорема 1 (о разреженном приближении). Пусть Q , K R L × d k , тогда для любого ε > 0 существует матрица A ~ R L × L с O ( og L ε 2 ) ненулевыми элементами, такая что A A ~ F ε A F , где A = softmax ( Q K T d k ) .

Источник: данная теорема является адаптацией результатов из работы, где Zhou et al. доказали существование эффективного разреженного приближения для матриц внимания с использованием ProbSparse-механизма (Zhou, 2021).

 

Практически это реализуется выбором u ключей с максимальной информативностью:
u = arg max u q Q log ( k K u e qk d k ) , ( 7 )
где K u — подмножество ключей.

Декомпозиция тренда и сезонности в Autoformer

В работах по анализу временных рядов тренд и сезонность часто разделяются через скользящее среднее. тогда сезонная компонента определяется как Seasonal t = y t Trend t . Такой подход минимизирует дисперсию остатков и обеспечивает интерпретируемость компонент (Бокс, 1974).

Теоретический анализ преимуществ и ограничений

Вычислительная сложность

Сравнение сложности методов (Табл. 1) показывает, что Informer и FEDformer оптимальны для длинных последовательностей. Однако их эффективность зависит от степени разреженности данных. Для рядов с высокой корреляцией преимущества sparse-внимания снижаются.

Таблица 1 / Table 1

Теоретическая сложность методов (обучение)

Theoretical complexity of methods (training)

Метод

Сложность

Память

Условия применения

ARIMA

O ( L )
O ( 1 )

Стационарность

LSTM

O ( L d 2 )
O ( Ld )
L < 500

Transformer

O ( L 2 d )
O ( L 2 )
L < 10 3

Informer

O ( L log LD )
O ( L logL )
Низкая корреляция на больших H

Autoformer

O ( L log LD + NL )
O ( L logL )

Устойчивая авторегрессия

 

Трансформер обеспечивает параллельную обработку последовательностей, снижая количество последовательных операций с O ( n ) для RNN до O ( 1 ) при сохранении возможности моделировать сложные зависимости (Vaswani, 2017).

Экспериментальный анализ в теоретическом контексте

Для верификации теоретических положений, изложенных в разделах 3–4, проведен сравнительный анализ эффективности различных архитектур на датасете потребления электроэнергии Individual household electric power consumption (количество строк – около 1 миллиона). Эксперименты проводились на графическом программном ускорителе – RTX 5070 – для оптимизации вычислений. Данные содержат измерения активной мощности с интервалом 1 минуту за период с 2006 по 2010 гг. В качестве целевой переменной использовалась активная мощность, а в качестве метрик — RMSE и MAE. Длина входной последовательности L = 96 (96 минут), горизонт прогноза H = 24 (24 минуты). Обучающая и тестовая выборки содержали 70% и 30% данных соответственно. Для сравнения были протестированы следующие модели:
  1. 1.LSTM — классическая рекуррентная сеть;

  2. 2.Трансформер — базовая архитектура с механизмом внимания;

  3. 3.Autoformer — адаптация трансформера с декомпозицией тренд-сезонность;

  4. 4.FEDformer — версия с частотным анализом.

Результаты эксперимента

Результаты прогнозирования представлены в табл. 2 и на рис. 1. Базовый трансформер продемонстрировал наилучшие показатели: RMSE = 0.5874, MAE = 0.3188. Это на 8.7% лучше LSTM и на 0.2% превосходит Autoformer. FEDformer показал средние результаты (RMSE = 0.6091), что, вероятно, связано с упрощенной реализацией частотного анализа в эксперименте.

 

Таблица 2 / Table 2

Сравнение метрик моделей на тестовой выборке

Comparison of model metrics on a test dataset.

Model

RMSE

MAE

Correlation

LSTM

0.6387

0.3769

0.8029

Transformer

0.5874

0.3188

0.8040

Autoformer

0.5880

0.3162

0.8039

FEDFormer

0.6091

0.330

0.7875

Рис. 1

Рис. 1. Прогнозы моделей на первых 2000 точках тестовой выборки.

Fig. 1. Model predictions on the first 2,000 points of the test sample.

LSTM демонстрирует систематические отклонения в областях резких скачков мощности, что согласуется с теоретическим ограничением рекуррентных сетей при обработке долгосрочных зависимостей. Трансформер наиболее точно отслеживает динамику пиков и спадов, подтверждая гипотезу о преимуществе механизма внимания для захвата глобальных паттернов. Autoformer и FEDformer показывают схожие результаты, но с незначительным ухушением точности из-за избыточной сложности декомпозиции и частотного анализа для данного датасета.

Теоретическая интерпретация результатов

  1. Преимущество трансформера над LSTM. Снижение RMSE на 8.3% подтверждает тезис о том, что параллельная обработка данных и механизм внимания позволяют трансформерам эффективно моделировать долгосрочные зависимости. Корреляция 0.8040 у трансформера выше, чем у LSTM (0.8029), что указывает на лучшее соответствие прогнозов фактическим данным. Это согласуется с теоремой 1, где доказано, что разреженное внимание сохраняет информативность при снижении вычислительной сложности.

  2. Сравнение специализированных архитектур. Незначительное отставание Autoformer (RMSE = 0.5880 и 0.5874 у трансформера) объясняется особенностями датасета: потребление электроэнергии имеет слабо выраженный тренд, поэтому декомпозиция тренд-сезонность вносит незначительный вклад. Для данных со строгой периодичностью (например, датасет ETT) Autoformer, как показано в публикации (Wu, 2021), дает заметное преимущество. 

  3. Роль вычислительной сложности. Согласно табл. 1, базовый трансформер имеет сложность вычислений
    O ( L 2 d ) , тогда как Informer и Autoformer снижают её до
    O ( L log LD ) и O ( L log LD + NL ) соответственно. Однако в данном эксперименте L = 96 недостаточно велик для проявления преимуществ разреженного внимания, что объясняет незначительную разницу в метриках между моделями.

Ограничения эксперимента

  1. Упрощенные реализации. В эксперименте использованы упрощенные версии Autoformer и FEDformer из-за ограничений по времени, что может повлиять на их точность. В реальных сценариях применение ProbSparse-внимания (Zhou, 2021) и полного спектрального анализа (Liu, 2022) усилит их преимущества. 

  2. Короткая последовательность. Длина   L = 96 не отражает сложности прогнозирования ультрадлинных рядов ( L > 10 4 ), где различия между моделями становятся критическими.

Эти результаты подтверждают, что выбор архитектуры должен основываться на специфике данных:

  • Для рядов с длинной историей и слабой сезонностью (как в данном эксперименте) оптимальным выбором является базовый трансформер;  
  • Для данных с устойчивой автокорреляцией (например, энергопотребление с суточной и недельной цикличностью) предпочтительны Autoformer или Informer. 

Заключение и перспективы

Результаты проведенного исследования и экспериментального анализа подтверждают, что адаптированные архитектуры трансформеров обладают значительными преимуществами для задач прогнозирования временных рядов. Эксперименты на датасете потребления электроэнергии показали, что базовый трансформер превосходит LSTM на 8.7% по метрике RMSE при длине последовательности L = 96 , что согласуется с теоретическими преимуществами механизма внимания для захвата долгосрочных зависимостей (Vaswani, 2017).

Ключевые преимущества современных архитектур трансформеров включают:

  • Эффективную параллельную обработку последовательностей, что снижает время обучения по сравнению с рекуррентными сетями (Vaswani, 2017); 

  • Возможность адаптации через специализированные механизмы внимания, такие как ProbSparse в Informer (Zhou, 2021), позволяющие обрабатывать длинные последовательности; 

  • Повышенную интерпретируемость за счет визуализации весов внимания, что особенно ценно в прикладных задачах прогнозирования. 

Наиболее перспективными направлениями дальнейших исследований являются:

  • Разработка гибридных архитектур, сочетающих трансформеры с классическими статистическими методами (ARIMA, экспоненциальное сглаживание) для повышения устойчивости к нестационарности; 
  • Создание облегченных версий трансформеров с разреженным вниманием для применения в условиях ограниченных вычислительных ресурсов; 

Эти направления соответствуют текущим трендам в области временных рядов и имеют потенциал для практического применения в различных предметных областях.

Ограничения. Высокая вычислительная сложность базовых архитектур O ( L ² ) требует специальных оптимизаций для обработки очень длинных последовательностей. Модели демонстрируют повышенную чувствительность к качеству и объему обучающих данных, особенно для малых наборов временных рядов. Кроме того, для нестационарных данных требуется дополнительная предобработка, что подтверждено экспериментами с потреблением электроэнергии.
Limitations. High computational complexity of base architectures O ( L ² ) requires special optimizations for processing very long sequences. Models show increased sensitivity to the quality and volume of training data, especially for small time series datasets. Additionally, non-stationary data requires additional preprocessing, as confirmed by experiments with electricity consumption data.

Литература

  1. Бокс, Дж., Дженкинс, Г., Рейнсел, Г. (1974). Анализ временных рядов: прогнозирование и контроль. М.: Мир. 406 с.
    Box, G.E.P., Jenkins, G.M., Reinsel, G.C. (1974). Time Series Analysis: Forecasting and Control. Moscow: Mir. (In Russ.)
  2. Al-Selwi, S.M., Al-Shargabi, B., Al-Qutaish, R.A., Abusham, E.E. (2024). RNN-LSTM: From Applications to Modeling Techniques and Beyond—Systematic Review. Journal of King Saud University—Computer and Information Sciences, 36(5), 102068.
  3. Clarkson, K.L., Woodruff, D.P. (2017). Low-Rank Approximation and Regression in Input Sparsity Time. Journal of the ACM, 63(6), Article 54, 1–45.
  4. Cryer, J.D. (1986). Time Series Analysis. Boston: Duxbury Press.
  5. Dehghani, M., Gouws, S., Vinyals, O., Uszkoreit, J., Kaiser, Ł. (2018). Universal Transformers. arXiv preprint arXiv:1807.03819. https://arxiv.org/abs/1807.03819
  6. DiPietro, R., Hager, G.D. (2020). Deep Learning: RNNs and LSTM. In Handbook of Medical Image Computing and Computer Assisted Intervention (pp. 503–519). Academic Press.
  7. Greff, K., Srivastava, R.K., Koutník, J., Steunebrink, B.R., Schmidhuber, J. (2016). LSTM: A Search Space Odyssey. IEEE Transactions on Neural Networks and Learning Systems, 28(10), 2222–2232. https://doi.org/10.1109/TNNLS.2016.2582924
  8. Hamilton, J.D. (2020). Time Series Analysis. Princeton: Princeton University Press.
  9. Hochreiter, S., Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. https://doi.org/10.1162/neco.1997.9.8.1735
  10. Lim, B., Zohren, S. (2021). Time-series forecasting with deep learning: A survey. Philosophical Transactions of the Royal Society A, 379(2194), 20200209. https://doi.org/10.1098/rsta.2020.0209
  11. Liu, D., Wang, J., Liu, K., Wang, Y., Zhang, H. (2022). FEDformer: Frequency Enhanced Decomposed Transformer for Long-Term Series Forecasting. In Proceedings of the 39th International Conference on Machine Learning (ICML) (pp. 27268–27286).
  12. Pascanu, R., Mikolov, T., Bengio, Y. (2013). On the Difficulty of Training Recurrent Neural Networks. In Proceedings of the 30th International Conference on Machine Learning (ICML-13) (pp. 1310–1318). https://proceedings.mlr.press/v28/pascanu13.html
  13. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, Ł., Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30, 5998–6008. https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
  14. Wang, S.C. (2003). Artificial Neural Network. In Interdisciplinary Computing in Java Programming (pp. 81–100). Boston, MA: Springer US.
  15. Wu, H., Xu, J., Wang, J., Long, M. (2021). Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting. Advances in Neural Information Processing Systems, 34, 22410–22421.
  16. Zhou, H., Zhang, S., Peng, J., Zhang, S., Li, J., Xiong, H., Zhang, W. (2021). Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 35, № 12, pp. 11106–11115). https://ojs.aaai.org/index.php/AAAI/article/view/17325

Информация об авторах

Виталий Алексеевич Орищенко, магистрант, лаборант-исследователь, факультет информационных технологий, Московский государственный психолого-педагогический университет (ФГБОУ ВО МГППУ), Москва, Российская Федерация, ORCID: https://orcid.org/0009-0003-6696-5147, e-mail: vitalyorischenko@gmail.com

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов.

Метрики

 Просмотров web

За все время: 2
В прошлом месяце: 0
В текущем месяце: 2

 Скачиваний PDF

За все время: 2
В прошлом месяце: 0
В текущем месяце: 2

 Всего

За все время: 4
В прошлом месяце: 0
В текущем месяце: 4