كليدواژه :
پيش بيني درماندگي مالي , رگرسيون لجستيك لاسو , يادگيري ماشين , داده كاوي , بورس اوراق بهادار تهران
چكيده فارسي :
هدف اين مقاله، كشف درماندگي مالي بالقوه و هشدار زودهنگام درماندگي مالي قريب الوقوع شركت هاي پذيرفته شده در فرابورس و بورس اوراق بهادار است. بدين منظور، دامنه گسترده اي از ويژگي ها از جمله متغيرهاي حسابداري تعهدي، حسابداري نقدي، بازار سهام، مكانيسم هاي حاكميت شركتي و شاخص هاي اقتصاد كلان براي پيش بيني درماندگي مالي شركت هاي نمونه شناسايي شده اند. نمونه نهايي شامل 421 شركت و در نتيجه، 3670 شركت-سال مشاهده است. سپس، داده آماده شده با استفاده از نسبت 70 به 30 به مجموعه داده آموزشي و آزمايشي تفكيك شد. در اين پژوهش، تكينك هاي پيش پردازش داده يادگيري ماشين نظير استانداردسازي نمره Z، وان-هات انكدينگ، اعتبارسنجي متقابل K لايه طبقه اي، همراه با مهندسي ويژگي براي بهبود عملكرد طبقه بندي كننده بكار گرفته شدند. روش اعتبارسنجي متقابل K لايه طبقه اي با (5=K) براي برآورد عملكرد پيش بيني مدل طي مرحله آموزش استفاده شد. طي مرحله آموزش، ميزان سازي ابرپارامتر مدل با استفاده از جستجوي حريص انجام شد. افزون بر اين، رويكرد فرايادگيري حساس به هزينه همراه با معيار مختص مسايل نامتوازن يعني نمره F1 براي غلبه بر مساله نامتوازني افراطي كلاسها استفاده شده است. بر اساس نتايج تجربي، مدل لجستيك لاسو به نمره F1، ضريب همبستگي متيوز، فراخواني و دقتي به ترتيب برابر با 50%، 50%، 73% و 38% بر روي مجموعه آموزشي دست يافت. سرانجام، مدل پيشنهادي بر روي مجموعه آزمايشي كنار گذاشته شده آزمون شد كه به نمره F1، ضريب همبستگي متيوز، فراخواني و دقتي به ترتيب برابر با 51%، 51%، 73% و 38% بر روي مجموعه آزمايشي منجر شد.
چكيده لاتين :
The ability to predict corporate financial distress is important to business individuals as well as to the economy in general. Therefore, the purpose of this article is the detection of potential financial distress and early warnings of impending financial distress among the listed companies on Tehran Stock Exchange (TSE) and Iran Fara Bourse (IFB). To do so, a wide range of features including accrual accounting variables, cash-based accounting variables, market-based variables, corporate governance mechanisms, and macroeconomic indicators have been identified to prospectively predict the financial distress in the companies.
The final sample includes 421 firms leading to 3,670 firm-year observations. The prepared data, was then split into a train and test data set using a 70/30 ratio.
In this research, various data pre-processing machine learning techniques i.e., Z-score standardization, one-hot encoding, stratified K-fold validation combined with feature engineering are applied to improve classifier performance. Stratified K-fold cross validation method, (with k = 5) was used for estimation of model prediction performance during training phase. During the training phase, hyper-parameter tuning of a model was carried out using a grid-search. Furthermore, a cost-sensitive meta-learning approach in conjunction with the proposed imbalance-oriented metric i.e., F1 score were used to overcome the extreme class imbalance issue.
Based on the experimental results, the tuned LASSO logistic model achieved a f1-score, MCC, recall and precision of respectively, 50%, 50%, 73% and 38% on the training set. Finally, the proposed model was tested on the hold-out test set which resulted in a f1-score, MCC, recall and precision of 51%, 51%, 73% and 39%, respectively.