Использование методов машинного обучения для решения задач прогнозирования суммы и вероятности покупки на основе данных электронной коммерции

251

Аннотация

Работа направлена на исследование возможности применения методов машинного обучения для построения моделей прогнозирования вероятности покупки и суммы покупки клиентов интернет магазинов. Предлагаются к рассмотрению ранее не используемые в рамках конкретной задачи подходы к решению. В качестве выборки использованы данные о транзакциях пользователей сайта ponpare.jp в период с 01.07.2011 по 23.06.2012. Приводится описание и сравнительный анализ наиболее распространенных методов решения аналогичных задач. Описываются метрики, использованные для оценки результатов в случае прогнозирования факта и суммы покупки. Полученные результаты дают понять, что в рамках задачи предсказания вероятности покупки градиентный бустинг, а именно его реализация LGBMClassifier, показывает наиболее точную оценку. Для задачи прогнозирования суммы покупки клиента использование градиентного бустинга также дало наилучшие результаты.

Общая информация

Ключевые слова: прогноз вероятности покупки, прогноз суммы покупки, классификация, регрессия, анализ данных, обработка данных, машинное обучение

Рубрика издания: Анализ данных

DOI: https://doi.org/10.17759/mda.2020100403

Для цитаты: Мамиев О.А., Финогенов Н.А., Сологуб Г.Б. Использование методов машинного обучения для решения задач прогнозирования суммы и вероятности покупки на основе данных электронной коммерции // Моделирование и анализ данных. 2020. Том 10. № 4. С. 31–40. DOI: 10.17759/mda.2020100403

Литература

  1. Day, D., Gan, B., Gendall, P. and Esslemont, D. Predicting purchase behaviour // Marketing Bulletin. 1991. P.18–30.
  2. Starostin, V.S. and CHERNOVA, V.Y. E-commerce development in Russia: trends and prospects // The Journal of Internet Banking and Commerce. 2016.
  3. Kuhn M, Johnson K. Applied predictive modeling // New York: Springer. 2013.
  4. Glasbey, C.A. An analysis of histogram-based thresholding algorithms // CVGIP: Graphical models and image processing. 1993. P. 532–537.
  5. https://github.com/dmlc/xgboost
  6. Yang S, Zhang H. Comparison of several data mining methods in credit card default prediction // Intelligent Information Management. 2018. P. 115.
  7. Wu, H., Jiao, H., Yu, Y., Li, Z., Peng, Z., Liu, L. and Zeng, Z. Influence factors and regression model of urban housing prices based on internet open access data // Sustainability. 2018. P. 1676.
  8. Liu, L., Ji, M. and Buchroithner, M. Combining partial least squares and the gradient-boosting method for soil property retrieval using visible near-infrared shortwave infrared spectra // Remote Sensing. 2017. P. 1299.
  9. Wu, J.Y. Housing Price prediction Using Support Vector Regression. 2017.
  10. Limsombunchai, V. House price prediction: hedonic price model vs. artificial neural network // In New Zealand agricultural and resource economics society conference. 2004. P. 25–26.
  11. Li, J.Z. Monthly Housing Rent Forecast Based on LightGBM (Light Gradient Boosting) Model // International Journal of Intelligent Information and Management Science, 2018.

Информация об авторах

Мамиев Олег Аланович, Московский авиационный институт (национальный исследовательский университет), Москва, Россия, ORCID: https://orcid.org/0000-0003-1137-4019, e-mail: olegios@mail.ru

Финогенов Никита Андреевич, Московский авиационный институт (национальный исследовательский университет), Москва, Россия, ORCID: https://orcid.org/0000-0001-7680-9496, e-mail: finogenov.nik@gmail.com

Сологуб Глеб Борисович, кандидат физико-математических наук, доцент кафедры математической кибернетики института «Информационные технологии и прикладная математика», Московский авиационный институт (национальный исследовательский университет), Москва, Россия, ORCID: https://orcid.org/0000-0002-5657-4826, e-mail: glebsologub@ya.ru

Метрики

Просмотров

Всего: 465
В прошлом месяце: 11
В текущем месяце: 6

Скачиваний

Всего: 251
В прошлом месяце: 4
В текущем месяце: 5