Введение
В настоящее время машинное обучение [1,2], вероятно, самая перспективная область искусственного интеллекта. Предназначение машинного обучения в том, чтобы запрограммировать искусственный интеллект действовать как человек, или даже лучше него, при решении различных прикладных задач. Обучение осуществляется на основе больших массивов статистических данных. Как отмечено в работе [Хенрик, 2017], «машинное обучение быстро превращается в двигатель современной экономики, управляемой данными». Совсем недавно начало выделяться новое направление – интерпретируемое машинное обучение [3,4].
С помощью машинного обучения решаются различные типы задач: классификация, кластеризация, регрессия, понижение размерности данных, обнаружение аномалий и т.д. Данная статья посвящена задаче регрессии [5–7], состоящей, как правило, в прогнозировании одной или нескольких характеристик по имеющимся статистическим данным – выборке. На сегодняшний день известно множество математических форм связи между переменными в регрессионных моделях: линейные [5–7], полиномиальные [8,9], степенные [10,11], степенно-показательные [Базилевский, 2021], линейно-логарифмические [Базилевский, 2021], логистические [13,14], функции с фиксированными пропорциями факторов (функции Леонтьева) [Клейнер, 1986] и т.д. Тем не менее, процесс поиска новых спецификаций регрессионных моделей, позволяющих извлекать новые знания о функционировании изучаемого процесса или явления, продолжается.
В работе [Базилевский, 2020] впервые было проведено смешение линейных регрессий с двухфакторными функциями Леонтьева. Полученный синтез был назван неэлементарной линейной регрессией (НЛР). В той же работе был предложен алгоритм численного оценивания НЛР с помощью метода наименьших квадратов (МНК). В [Базилевский, 2021а] были предложены алгоритмы выбора оптимальной структуры НЛР. А в [Базилевский, 2022] впервые были введены НЛР с бинарными операциями min и max:
Цель данной работы состоит в обобщении НЛР (1), в разработке алгоритма её оценивания с помощью МНК и в решении задачи моделирования валового регионального продукта (ВРП) Иркутской области.
Обобщение НЛР

НЛР с -арной операцией min (max) без линейной части
Исключение из области области означает, что необходимо заменить знаки всех неравенств в таблице 1 на противоположные и внести полученные неравенства в систему. Таким образом, область представляет собой решение системы линейных неравенств, приведенных в таблице 2.
Неравенства из системы, идентифицирующей область

Заметим, что для НЛР с -арной операцией max область будет точно такой же.
Решение системы линейных неравенств, перечисленных в таблице 2, представляет собой открытый выпуклый многогранник (симплекс) в -мерном пространстве. Поскольку в НЛР (3) отсутствует линейная часть, то все неравенства в таблице 2 можно взять нестрогими. Тогда решение будет представлять собой замкнутый выпуклый многогранник.
Таким образом, для численного оценивания с помощью МНК НЛР (3) необходимо выбрать в области некоторое множество точек, в каждой из них найти МНК-оценки параметров и , и выбрать оценки, при которых сумма квадратов остатков регрессии минимальна.
Стоит отметить, что схожий алгоритм оценивания функций Леонтьева можно найти в монографии [Носков, 1996]. Однако в ней область предложено формировать как -мерный параллелепипед. Тем самым, представленный в настоящей работе алгоритм, очевидно, эффективнее с вычислительной точки зрения.
Пример
Для демонстрации предложенного математического аппарата решалась задача моделирования ВРП Иркутской области. Для этого на сайте Федеральной службы государственной статистики (https://rosstat.gov.ru/) были собраны ежегодные статистические данные за период с 2000 по 2020 гг. (таблица 3) по следующим переменным:
– ВРП (млн руб.);
– продукция сельского хозяйства (млн руб.);
– инвестиции в основной капитал (млн руб.);
– объем работ, выполненных по виду экономической деятельности «Строительство» (млн руб.).
Таблица 3
Статистические данные
|
Год |
y |
x1 |
x2 |
x3 |
Год |
y |
x1 |
x2 |
x3 |
|
2000 |
103013,8 |
10006,09 |
10814 |
6511,9 |
2011 |
634561,4 |
40990,2 |
145537 |
63825,4 |
|
2001 |
120240 |
14543,88 |
15233,84 |
8400,4 |
2012 |
737971,6 |
44079,1 |
177641 |
89331,9 |
|
2002 |
140195,9 |
14894,12 |
17313,01 |
7577,2 |
2013 |
805197,5 |
46630 |
200063 |
94617 |
|
2003 |
167927,1 |
15568,4 |
22122,58 |
10193,8 |
2014 |
916317,5 |
51765,4 |
214422 |
89312,6 |
|
2004 |
213244,2 |
17824,91 |
26013,87 |
14917,2 |
2015 |
1001718 |
53600,8 |
206075 |
98839,4 |
|
2005 |
258095,5 |
19670,4 |
36675 |
20544,4 |
2016 |
1139207 |
58721,7 |
247954,2 |
131836 |
|
2006 |
330834,3 |
21925,7 |
70671,53 |
28107,2 |
2017 |
1268312 |
61900,4 |
270018,6 |
130347,8 |
|
2007 |
402654,7 |
25942,8 |
121877,8 |
45445,2 |
2018 |
1460512 |
63549 |
318786,9 |
113826,4 |
|
2008 |
438852,4 |
29996,7 |
129951 |
50022,9 |
2019 |
1540238 |
62154 |
366723,7 |
158311,4 |
|
2009 |
458774,9 |
33196,1 |
106550 |
47795,8 |
2020 |
1505151 |
67043 |
389990,1 |
164413,5 |
|
2010 |
546141 |
35119,9 |
119395 |
55017,7 |
|
|
|
|
|
Область решений системы линейных неравенств (6) представлена на рис. 1.
Рис. 1. Область решений системы (6)
Как следует из рис. 1, область на плоскости представляет собой замкнутый выпуклый шестиугольник. Подчеркнём, что в системе (6) во всех неравенствах были взяты нестрогие знаки, поскольку оцениваемая НЛР представляет собой функцию Леонтьева и не содержит линейной части.
Для численного оценивания НЛР был разработан специальный скрипт на языке программирования hansl пакета Gretl. Скрипт работает по следующему алгоритму. Прямоугольник равномерно разбивается десятью тысячами точек. В каждой такой точке и на границе области проверяется выполнение условий . Если условия выполнены, то точка принадлежит области , поэтому для неё находятся МНК-оценки НЛР. Всего в область попало 3422 точки. Лучшая регрессия по величине суммы квадратов остатков была зафиксирована в точке вблизи границы области (см. рис. 1). Полученной точке соответствует следующая НЛР с тернарной операцией min:
(7)
В уравнении (7) в скобках под коэффициентом 23,026 приведено значение t-критерия Стьюдента, подтверждающее значимость регрессора . Для модели (7) . Мультиколлинеарности в регрессии (7) по определению нет, поэтому все коэффициенты при переменных можно интерпретировать. Недостаток НЛР (7) в том, что практически всегда в тернарной операции min срабатывает только переменная . Так происходит в 18 наблюдениях из 21 (2000 – 2017 гг.). Переменная срабатывает всего 2 раза (2019 и 2020 год), а переменная – 1 раз (2018 год). Всё это сигнализирует о том, что вместо модели (7) можно было обойтись простой парной линейной регрессией от . Действительно, такая регрессия имеет вид
(8)
для которой . Как видно, все коэффициенты и аппроксимационные характеристики моделей (7) и (8) практически не отличаются. В такой ситуации предпочтение следует отдать более простой модели (8). Заметим, что так произошло потому, что точка (см. рис. 1) оказалась практически на границе области , на которой нет гарантии срабатывания каждой переменной на выборке хотя бы 1 раз.
После чего с помощью МНК оценивалась НЛР с тернарной операцией max и без линейной части. Для такой модели область имеет точно такую же конфигурацию, что и на рис. 1. С помощью того же скрипта была найдена лучшая регрессия по величине суммы квадратов остатков. Она была зафиксирована в точке внутри области (см. рис. 1). Точке соответствует следующая НЛР с тернарной операцией max:
(9)
Коэффициент детерминации НЛР (9) равен 0,985536, что больше чем у любой из приведенных выше моделей (5), (7), (8). Коэффициент при регрессоре значим по t-критерию Стьюдента. Переменная срабатывает 13 раз (2000 – 2006, 2008 – 2011, 2014 и 2015 годы), переменная – 4 раза (2007, 2018 – 2020 годы), а переменная – 4 раза (2012, 2013, 2016, 2017 годы).
Мультиколлинеарности в регрессии (9) нет, поэтому все коэффициенты при переменных можно интерпретировать. Для этого представим НЛР (9) в кусочно-заданной форме:
Тогда модель (9) можно интерпретировать следующим образом.
- Если отношение продукции сельского хозяйства x1 к инвестициям в основной капитал x2 не меньше 0,223906 и отношение x1 к объемам строительных работ x3 не меньше 0,501629, то на ВРП оказывает влияние только продукция сельского хозяйства x1. Причем, с увеличением x1 на 1 млн руб. ВРП y увеличивается в среднем на 20,435 млн руб.
- Если отношение x1 к x2 меньше 0,223906 и отношение x2 к x3 не меньше 2,240355, то на ВРП оказывают влияние только инвестиции в основной капитал x2. Причем, с увеличением x2 на 1 млн руб. ВРП y увеличивается в среднем на 4,576 млн руб.
- Если отношение x1 к x3 меньше 0,501629 и отношение x2 к x3 меньше 2,240355, то на ВРП оказывают влияние только объемы строительных работ x3. Причем, с увеличением x3 на 1 млн руб. ВРП y увеличивается в среднем на 10,251 млн руб.
Заключение
В статье впервые введены неэлементарные линейные регрессии с линейной частью и со всеми возможными комбинациями бинарных, тернарных, ..., -арных операций min и max. Такие модели обобщают многие известные на сегодняшний день регрессионные модели, в частности, специфицированные на основе функций Леонтьева регрессии. Предложен алгоритм оценивания с помощью МНК НЛР с -арной операцией min (max). На первом шаге алгоритма строится область возможных значений угловых коэффициентов, представляющая собой решение системы линейных неравенств (таблица 2). На втором шаге из этой области выбирается точка, в которой сумма квадратов остатков НЛР минимальна. С помощью предложенного алгоритма решена задача моделирования ВРП Иркутской области. В результате была построена НЛР с тернарной операцией max, качество аппроксимации которой оказалось выше, чем у линейной регрессии. Дана интерпретация построенной модели. Таким образом, обобщенные НЛР (2) представляют собой довольно гибкий инструмент математического моделирования, просто интерпретируются и могут эффективно применяться в прогнозировании.
Очевидно, что для оценивания с помощью МНК обобщенной НЛР (2) требуется для каждой входящей в неё операции min или max формировать свою область возможных значений угловых коэффициентов, а затем в каждой из этих областей выбирать по одной точке так, чтобы минимизировать сумму квадратов остатков. Такая задача довольно сложна с вычислительной точки зрения, поэтому требует в будущем разработки специализированного программного продукта.



