پديدآورندگان :
طالبي مهدي mtalebi@gmail.com استاديار، گروه مهندسي كامپيوتر، دانشگاه آزاد اسلامي واحد لارستان، لارستان، ايران , عليزاده قاسم qasema1377@gmail.com دانشجوي كارشناسي ارشد، گروه مهندسي كامپيوتر، دانشگاه آزاد اسلامي واحد لارستان، لارستان، ايران
كليدواژه :
يادگيري ماشين , رگرسيون , پيشبيني فروش , مجموعه داده سوپرماركت
چكيده فارسي :
بسياري از سوپرماركتها پيشبيني خوبي از فروش سالانه خود ندارند كه بيشتر به دليل كمبود مهارت، منابع و دانش براي تخمين فروش است. امروزه در عصر كلانداده، همراه با دسترسي به توان محاسباتي عظيم، يادگيري ماشين تبديل به ابزاري براي پيشبيني فروش شده است. رگرسيون يك ابزار قدرتمند در يادگيري ماشين و تحليل دادهها است كه به تجزيه و تحليل روابط و پيشبيني مقادير عددي بسيار كمك ميكند. در اين تحقيق، از مجموعه داده فروش يك سوپرماركت با ۱۰۰۰ ركورد و ۱۷ فيلد استفاده ميشود و در فرآيند ساخت يك مدل پيشبيني فروش، چندين الگوريتم يادگيري ماشين ارزيابي ميشوند كه هر كدام سطوح متفاوتي از عملكرد را ارائه ميدهند. اين تحقيق، با زبان برنامهنويسي پايتون پيادهسازي ميشود و الگوريتمهاي مورد استفاده عبارت هستند از XGBoost ، شبكه عصبي (پرسپترون چندلايه)، CatBoost ، LightGBM ، رگرسيون لاسو، رگرسيون ستيغي، كي-نزديكترين همسايه، جنگل تصادفي و ماشين بردار پشتيبان. در خروجي انواع نمودارهاي نقطهاي و هيستوگرام باقيمانده تجزيه و تحليل ميشوند و سپس با استفاده از معيارهاي ارزيابي و تجزيه و تحليل دادهها، بهترين مدل آموزشي انتخاب ميگردد. نتايج نشان ميدهند كه مدل رگرسيون ستيغي براي سادگي، دقت و ثبات آن، بهترين مدل است؛ هر چند مدلهاي ديگر مانند جنگل تصادفي و رگرسيون لاسو نيز در ارزيابي، عملكرد خوبي داشتهاند.
چكيده لاتين :
Many supermarkets do not have a good prediction of their annual sales, mostly due to lack of skills, resources and knowledge to estimate sales. Today, in the age of big data with access to huge computing power, machine learning has become a tool for sales prediction. Regression is a powerful tool in machine learning and data analysis that helps to analyze relationships and predict numerical values. In this research, the sales dataset of a supermarket with 1000 records and 17 fields is used, and in the process of building a sales prediction model, several machine learning algorithms are evaluated, each of which provides different levels of performance. This research is implemented with Python programming language, and the algorithms used are XGBoost, neural network (multilayer perceptron), CatBoost, LightGBM, lasso regression, ridge regression, K-nearest neighbor, random forest and support vector machine. In the output, all types of scatter plots and residual histograms are analyzed and then the best training model is selected using data analysis and evaluation criteria. The results show that the ridge regression model is the best model for its simplicity, accuracy and stability; However, other models such as random forest and lasso regression have also performed well in evaluation