Моделирование и анализ данных
2019. Том 9. № 2. С. 63–72
ISSN: 2219-3758 / 2311-9454 (online)
Оценка рыночной стоимости квартир с помощью методов регрессионного анализа
Аннотация
Общая информация
Ключевые слова: Линейная регрессия, метод наименьших квадратов, оценка стоимости недвижимости
Рубрика издания: Анализ данных
Тип материала: научная статья
Для цитаты: Горобцова А.Б. Оценка рыночной стоимости квартир с помощью методов регрессионного анализа // Моделирование и анализ данных. 2019. Том 9. № 2. С. 63–72.
Полный текст
В работе рассматриваются способы формирования стоимости строящейся недвижимости, влияния различных характеристик на цену квартир и построение моделей оценки стоимости.
1. ВВЕДЕНИЕ
Оценка стоимости недвижимости является актуальной темой, так как рынок недвижимости активно развивается. В Москве около тысячи строящихся и готовых для заселения жилых комплексов. Целью работы является определение реальной стоимости жилья. Большинство публикаций об оценке посвящено рынку вторичного жилья. В данной статье изучается рынок первичного жилья города Москвы, то есть уже готовые новостройки, а также только строящиеся дома.
В ходе исследования предполагается определить характеристики, которые сильнее всего влияют на формирование стоимости недвижимости, построить модель зависимости стоимости от этих характеристик. С помощью метода наименьших квадратов найти оценки неизвестных параметров в линейной модели регрессии. На основе построенной модели провести анализ недооцененных квартир, т.е. квартир, стоимость которых значительно ниже прогнозируемого значения.
2. СБОР ДАННЫХ
Основной задачей данной работы является создание модели стоимости недвижимости. Рассмотрены квартиры в новостройках, готовых и строящихся. Полученные данные являются как количественными, так и качественными. Качественные характеристики были переформированы: при наличии признака ставится «1», при отсутствии - «0».
Таблица 1. Характеристики недвижимости.
Параметр |
Описание |
price |
Стоимость жилья, тыс. руб. |
mkad |
Расстояние до МКАДа, км. |
distance to metro |
Расстояние до ближайшего метро, км. |
centre_time |
Расстояние от объекта недвижимости до станция метро «Охотный ряд», км. |
metro_time |
Время поездки от ближайшей к дому станции метро до станции «Охотный ряд», мин. |
total time |
Общее время от дома и до станции «Охотный ряд» , мин. |
total space |
Общая площадь, кв.м. |
living space |
Жилая площадь, кв.м. |
kitchen_space |
Площадь кухни, кв.м. |
Количество комнат number rooms |
Количество комнат, шт. |
bathroom |
Тип санузла |
ecology |
Данный параметр является рейтинговым от 1 до 4, где «1» - плохая экология, «4» - очень хорошая. |
year |
Год сдачи |
ipoteka |
Возможность ипотеки. |
reliability |
Надежность застройщика. |
shops |
Наличие торговых центров. |
elevator |
Количество лифтов, шт. |
number flats |
Количество квартир для продажи, шт. |
finishing |
Наличие отделки. |
class |
Класс недвижимости «1» - эконом, «2» - комфорт, «3» - бизнес. |
tipe house |
Тип дома, где «1» - монолитный, «0» - панельный. |
kindergarten |
Наличие детсада |
school |
Наличие школы |
hospital |
Наличие поликлиники |
balcony |
Наличие балкона |
В работе для сбора данных был использован сайт cian.ru, где для большинства характеристик, представленных в табл. 1, доступна выгрузка в формате Excel. Однако часть необходимых данных приходится выгружать вручную. В итоге была получена таблица с данными более чем трех с половиной тысяч квартир в новостройках.
После формирования такой таблицы выяснилось, что имеются пропущенные значения. Для определения пропущенных характеристик была подобрана информация из других источников, в частности на официальном сайте жилого комплекса. При невозможности получения данных из других источников в случае количественных характеристик значения можно заменить средним, если же характеристика качественна, то данное наблюдение исключается из анализа. Для анализа стоимости квартир в работе построены модели линейной регрессии с помощью метода наименьших квадратов. Задача заключается в нахождении коэффициентов линейной зависимости, при которых функция потерь принимает наименьшее значение, т.е. при данных коэффициентах сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. Более подробно изучить линейную регрессию и метод наименьших квадратов можно в специальной литературе [1, 2].
3. ОБЗОР ЛИТЕРАТУРЫ
Целью большинства работ, связанных с моделями стоимости недвижимости, является выявление основных факторов формирования цены, таких работ существует немало [36]. Помимо параметров, представленных в таблице 1, в работах встречается: степень износа инфраструктуры, доля благоустройства территории, доля промышленных объектов в общей площади территории, доля озеленения территории общего пользования, количество развлекательных элементов и т.д. Но такие характеристики требуют более подробного изучения и их выяснение - трудоемкий процесс. Некоторые характеристики при анализе нашей выборки квартир можно исключить, так как они являются одинаковыми для всех квартир. Такими характеристиками оказались «наличие школы», «наличие детсада» «наличие поликлиники» «наличие торговых центров», «возможность ипотеки».
Влияния наличия школ на формирование цен на жилье были проведены исследования, в том числе, о взаимосвязи стоимости квартир и характеристики близлежащих школ. В работе [7] было рассмотрено вторичное жилье в городе Перми. Для выявления зависимости были проанализированы результаты ЕГЭ. Они показали, что при улучшении балла ЕГЭ на одно стандартное отклонение увеличивается стоимость квартиры на 30 тысяч рублей, а также в работе выявлена отрицательная зависимость между ценой квартиры и уровнем преступности среди учеников. Покупатели, приобретающие жилье с большим количеством комнат, готовы доплатить за школу с более высокими показателями, так как обычно большая квартира покупается при наличии детей.
Также важно учитывать такую переменную как «экология», так как она может существенно влиять на цену квартиры. В работе [8] сделан акцент при оценке стоимости квартир в городе Москве на экологические факторы, а именно влиянии на стоимость содержание в воздухе оксида углерода, оксида азота и двуокиси азота. При использовании линейной модели регрессии наблюдается зависимость: чем меньше концентрация угарного газа и больше расстояние до промышленного предприятия, тем выше цена квартиры. В работе показано, что диоксид азота и оксид азота не оказывают существенное влияние на формирование стоимости квартиры, а расстояние до ближайшего промышленного предприятия и концентрация угарного газа значимо связаны с ценой недвижимости в городе Москве. В таблице 1 экология рассматривается как рейтинговая переменная. «1» — плохая экология, «4» — очень хорошая. Данные были взяты с сайта [9], где указаны различные характеристики округов, а также дана общая оценка по многим показателям каждого района.
В работе [10] рассмотрена модель ценообразования методом географически взвешенной регрессии в городе Саратове на рынке вторичного жилья. Были изучены несколько различных пространственных эконометрических моделей с постоянными и переменными коэффициентами. Для изначальных данных были добавлены также координаты объектов. Эмпирическим методом выявилась зависимость от расположения цены за квадратный метр. Чем ближе к центру — тем дороже. Также было выяснено, что в центре дополнительный метр кухни стоит дороже, чем метр жилой площади, в отличие от окраин, где эти цены примерно равны.
Существуют работы анализирующие влияние транспортной доступности на цену жилья, как в России, так и за рубежом. Было выявлено, что данный показатель играет важную роль при оценке стоимости квартир. В работе [6] сделан акцент не только на близость остановок рядом с домом, но и на число маршрутов. Кроме того в работе [6] отмечено, что существенное влияние на формирование стоимости квартиры оказывает расположение квартиры на первом этаже. Построенная модель показала, что при увеличении площади квартиры на 1м2 цена повышается на 1,5%. Показано, что расстояние до остановки не является суще
ственным фактором при оценке стоимости, а вот появление каждого нового маршрута общественного транспорта приводит к увеличение цены. Также на ее формирование влияют время, за которое можно добраться до центра города, уровень загрязненности воздуха, наличие дошкольных образовательных учреждений и торговых центров.
4. АНАЛИЗ ДАННЫХ
На рис. 1 представлено распределение цены в зависимости от количества комнат, по графику можно заметить, что разброс цен достаточно большой, особенно у трехкомнатных квартир.
Рис. 1
На рис. 2 можно увидеть, что на рынке в основном представлены квартиры стоимостью от 4 до 10 миллионов руб.
Рис. 2
Расчеты в работе проведены в программной среде R. R — язык программирования и среда для статистической обработки данных и работы с графикой. R широко используется как статистическое программное обеспечение для анализа данных и в последнее время стал стандартом для статистических программ.
Корреляционный анализ показал, что часть характеристик является сильно зависимыми, в особенности жилая и общая площади квартиры. Это вполне ожидаемо, поэтому было принято решение при построении регрессии оставить только общую площадь. Площадь кухни слабо связана с другими площадями, что не удивительно: сейчас существует очень много планировок, зачастую они индивидуальны, также довольно распространенное явление - студии, где отдельное пространство для кухни и вовсе не предусмотрено.
Таблица 2. Корреляционный анализ величин площадей
|
total space |
living space |
kitchen space |
total space |
1,0 |
0,7578 |
0,4004 |
living space |
0,7578 |
1,0 |
0,0803 |
kitchen space |
0,4004 |
0,0803 |
1,0 |
Аналогичный анализ для характеристик расстояния и времени позволили исключить из рассмотрения все переменные кроме «время на метро» и «общее время».
Далее модель стоимости квартиры строится отдельно по числу комнат, так как каждая квартира относительно этого параметра будет иметь свои особенности. Первыми были рассмотрены однокомнатные квартиры. Однокомнатные квартиры преимущественно продаются с отделкой и совмещенным санузлом в монолитных домах комфорт-класса. В таблице 3 представлены описательные статистики количественных переменных: выборочное среднее, среднее квадратическое отклонение, максимальное и минимальное значение, медиана.
Таблица 3. Описательные статистики.
пар-р./хар-ка |
mean |
sd |
median |
min |
max |
metro_time |
28,36 |
3,98 |
30 |
20 |
39 |
total_time |
63,22 |
24,74 |
66 |
25 |
96 |
total_space |
36,61 |
4,44 |
36,6 |
18 |
54,93 |
kitchen_space |
12,94 |
3,9 |
12,5 |
2,1 |
22,4 |
floor |
9,62 |
6,65 |
9 |
1 |
37 |
floors |
16,91 |
7,64 |
17 |
5 |
39 |
class |
1,77 |
0,66 |
2 |
1 |
3 |
ecology |
1,66 |
0,65 |
2 |
1 |
3 |
number_flats |
460,58 |
260,72 |
247 |
6 |
1166 |
price |
5160,2 |
1857,8 |
4551 |
2126 |
9747 |
year |
2019,5 |
1,11 |
2020 |
2018 |
2022 |
elevator |
2,03 |
0,56 |
2 |
1 |
6 |
Таблица 4. Результаты оценивания параметров модели 1
|
Estimate |
Std. error |
Pr(>|t|) |
|
(Intercept) |
-2,44E+05 |
67850 |
0,000343 |
*** |
metro_time |
1,24E+02 |
54,6 |
0,023326 |
* |
total_time |
-3,64E+01 |
11,89 |
0,002269 |
** |
total_space |
1,13E+02 |
5,9 |
<2e-16 |
*** |
kitchen_space |
1,11E+01 |
7,891 |
0,159392 |
|
floor |
3,01E+01 |
2,988 |
<2e-16 |
*** |
floors |
1,50E+01 |
3,237 |
4,24E-06 |
*** |
tipe_house |
-2,08E+02 |
341,8 |
1,51E-09 |
*** |
finishing |
-5,29E+02 |
455,3 |
0,245828 |
|
class |
2,15E+03 |
3,46E-02 |
7,15E-10 |
*** |
reliability |
-2,84E+02 |
2226 |
0,898389 |
|
ecology |
-2,39E+00 |
528,6 |
0,9964 |
|
number_flats |
-5,35E-01 |
2,717 |
0,843887 |
|
balcony |
5,32E+01 |
64,88 |
0,412299 |
|
bathroom |
-8,40E+01 |
116,5 |
0,471277 |
|
year |
1,22E+02 |
33,32 |
0,000273 |
*** |
elevator |
-3,54E+02 |
47,37 |
1,60E-13 |
*** |
AIC |
18475,5 |
|
Adjusted R- squared |
0.9179 |
Скорректированный коэффициент детерминации R ^ = 0,9179 (чем ближе Рк к 1, тем луше построенная нами модель) оказался высоким. Также было вычислено значение информационного критерия Акаике (AIC) [11], который используется при выборе одной из нескольких моделей регрессии. Меньшее значение этого критерия говорит о том, что данная модель лучше других.
После исключения статистически незначимых характеристик была построена новая модель регрессии с меньшим количеством переменных. Исключение переменных проводилось по одному и в зависимости от поведения скорректированного коэффициента детерминации были приняты решения о том, исключать переменную или нет. В итоге была получена следующая модель.
Таблица 5. Результаты оценивания параметров модели 2
|
Estimate |
Std. error |
Pr(>|t|) |
|
(Intercept) |
-2,37E+05 |
6,52E+04 |
0,000282 |
*** |
metro_time |
7,89E+01 |
1,11E+01 |
1,80E-12 |
*** |
total_time |
-2,60E+01 |
1,31E+00 |
<2e-16 |
*** |
total_space |
1,19E+02 |
4,13E+00 |
<2e-16 |
*** |
floor |
3,06E+01 |
2,96E+00 |
<2e-16 |
*** |
floors |
1,48E+01 |
3,08E+00 |
1,82E+06 |
*** |
tipe_house |
-1,98E+03 |
8,43E+01 |
<2e-16 |
*** |
class |
1,18E+03 |
7,97E+02 |
<2e-16 |
*** |
reliability |
-1,92E+03 |
1,92E+01 |
<2e-16 |
*** |
ecology |
-4,24E+02 |
5,20E+01 |
8,08E-16 |
*** |
number_flats |
-2,64E+00 |
1,52E-01 |
<2e-16 |
** |
year |
1,19E+02 |
3,23E+01 |
0,00023 |
*** |
elevator |
-3,41E+02 |
3,47E+01 |
<2e-16 |
*** |
AIC |
18469,8 |
|
Adjusted R-squared |
0,9179 |
В новой модели коэффициент детерминации не изменился, а критерий Акаике оказался меньше, что указывает на то, что выбор нужно сделать в пользу второй модели, тем более что в ней меньше регрессоров, что делает данную модель проще для анализа. По модели 2 определены прогнозные цены и получен следующий график, изображенный на рис. 3.
Рис.3
Квартиры, которые находятся выше линии регрессии, переоценены, то есть предсказанная цена оказалась ниже рыночной, квартиры под линией регрессии соответственно недооценены. Для покупателей наибольший интерес представляют вторые. В таблице 6 приведены квартиры, предсказанные цены которых наиболее значительно отличаются от рыночной цены (отношение предсказанной и рыночной цен).
Таблица 6. Недооцененные квартиры для модели 2
Номер наблюдения |
786 |
777 |
789 |
787 |
795 |
Отношение цен |
1,338 |
1,337 |
1,335 |
1,327 |
1,322 |
Так, квартира 786 недооценена более чем на 33%. Такая разница между ценами может возникать по разным причинам, как под воздействием человеческого фактора, то есть ошибки или продавец может быть заинтересован в быстрой продажи квартиры, так и от того, что есть еще какие-то характеристики, которые не учтены в данной модели, но влияют на цену этой квартиры. Для выяснения причин такое разницы в ценах требуется более подробно изучать описание квартиры, отзывы, посмотреть квартиру и т.п.
Была также рассмотрена модель 3, где были взяты логарифмы от цен на квартиру, что достаточно часто позволяет построить более точную модель линейной регрессии при анализе цен на недвижимость.
Таблица 7. Результаты оценивания параметров модели 3
|
Estimate |
Std. error |
Pr(>|t|) |
|
(Intercept) |
2,77E+01 |
1,00E+01 |
0,00601 |
** |
metro_time |
9,56E-03 |
1,75E-03 |
5,88E-08 |
*** |
total_time |
-6,49E-03 |
2,53E-04 |
<2e-16 |
*** |
total_space |
2,52E-02 |
6,39E-04 |
<2e-16 |
*** |
floor |
4,19E-03 |
4,59E-04 |
<2e-16 |
*** |
floors |
4,43E-03 |
4,75E-04 |
<2e-16 |
*** |
tipe_house |
-3,84E-01 |
1,31E-02 |
<2e-16 |
*** |
class |
1,91E-01 |
2,24E-02 |
<2e-16 |
*** |
reliability |
-4,83E-01 |
2,95E-02 |
<2e-16 |
*** |
ecology |
-7,50E-02 |
8,16E-03 |
<2e-16 |
*** |
number_flats |
-5,71E-04 |
2,39E-05 |
<2e-16 |
*** |
balcony |
2,11E-02 |
9,90E-03 |
0,0331 |
* |
year |
-9,46E-03 |
4,97E-03 |
0,05735 |
|
elevator |
-7,63E-02 |
5,36E-03 |
<2e-16 |
*** |
AIC |
-2508 |
|
Adjusted R-squared |
0,9524 |
Скорректированный коэффициент детерминации в этом случае был выше, чем в предыдущих двух моделях. Данная модель похожа на вторую, только здесь можно исключить еще и характеристику «наличие балкона».
Рис. 4
График получился похожим на тот, который был построен по второй модели.
Таблица 8. Недооцененные квартиры для модели 3
Номер наблюдения |
786 |
777 |
789 |
787 |
795 |
Отношение цен |
1,271 |
1,270 |
1,268 |
1,254 |
1,254 |
Видно, что номера самых недооцененных квартир остались теми же, что и для модели 2.
Аналогично были исследованы двухкомнатные и трехкомнатные квартиры; модели оказались схожими и результаты недооцененности этих квартир тоже доходили до 30%.
Однако для четырехкомнатных квартир ситуация оказалась иной. Недооцененных четырехкомнатных квартир практически нет. Конечная модель стоимости четырехкомнатных квартир выглядит следующим образом:
Цены, предсказанная и рыночная, почти совпадают: самая большая разница — 3%. Отдельно были рассмотрены квартиры-студии, так как отдельного пространства для кухни в них не предусмотрено, соответственно переменная «площадь кухни» равна нулю, но результаты оказались схожими с однокомнатными квартирами.
5. ЗАКЛЮЧЕНИЕ
В ходе работы были рассмотрены более трех тысяч квартир-новостроек в Москве и Подмосковье. В зависимости от количества комнат были построены линейные модели регрессии. Выяснилось, что среди всех выборок, кроме четырехкомнатных квартир, имеются сильно переоцененные и недооцененные квартиры. Отличие рыночной цены от предсказанной может доходить до 30%. При построении моделей исключить большое количество показателей не удалось, модели все равно имеют достаточное большое число регрессоров, это говорит о том, что, вероятно, каждый из этих регрессоров оказывает существенно влияние на формирование цены.
Предложенные модели позволяют выделить из общей масс квартир наиболее интересные кандидаты для более подробного рассмотрения. Например, определить для себя наиболее важные параметры, а потом, относительно них, рассматривать недооцененные квартиры. Данный метод также может быть использован при оценке стоимости недвижимости, например, когда покупатель брал ипотечный кредит, после получения акта приема- передачи объекта недвижимости. Со стороны продавца могут быть рассмотрены переоцененные квартиры, на которые следует обратить внимание в случае, если на них нет покупательского спроса.
Литература
- Себер Дж. Линейный регрессионный анализ. М.: Мир, 1980.
- Демиденко Е.З. Линейная и нелинейная регрессии. М.: Финансы и статистика, 1981.
- Вязова Г.А., Попелюк В.С. Прогнозирование стоимости двухкомнатной квартиры на вторичном рынке недвижимости в г. Хабаровска с использованием модели множественной регрессии // Молодой ученый. 2011. №25. С. 87–88.
- Хлюпина М.А., Исавнин А.Г. Моделирование зависимости и анализ цен на квартиры от ряда факторов на примере города Елабуга // Фундаментальные исследования. 2011. №5. С. 213–217.
- Березина А. В. Эконометрическая модель стоимости вторичного жилья на примере г. Челябинска// Современные научные исследования и инновации. 2015. №7.
- Сидоровых А.С. Оценка влияния транспортной доступности на цены недвижимости // Прикладная эконометрика. 2015. №37. С. 43–56.
- Ожегов Е.М., Косолапов Н.А., Позолотина Ю.А. О взаимосвязи между стоимостью жилья и характеристиками близлежащих школ // Прикладная эконометрика. 2017. №47. С. 28–48.
- Катышев П.К., Хакимова Ю.А. Экологические факторы и ценообразование на рынке недвижимости (на примере г. Москвы) // Прикладная эконометрика. 2012. №28. С. 113–123.
- https://www.novostroy-m.ru/analitika/ekologicheskiy_reyting_rayonov_moskvy
- Балаш В.А., Балаш О.С., Харламов А.В. Экономический анализ геокодированных данных о ценах на жилую недвижимость // Прикладная эконометрика. 2011. №22. С. 62–77.
- Akaike, H. A new look at the statistical model identification. IEEE Transactions on Automatic Control. 1974. P. 716–723 .
Информация об авторах
Метрики
Просмотров
Всего: 1024
В прошлом месяце: 31
В текущем месяце: 10
Скачиваний
Всего: 1981
В прошлом месяце: 16
В текущем месяце: 21