شماره ركورد كنفرانس :
5394
عنوان مقاله :
مقابله با عدم تعادل طبقاتي دادهها در يادگيري ماشين: ارزيابي و مقايسه تكنيكهاي متعادلسازي مجموعه دادههاي نامتعادل
عنوان به زبان ديگر :
class imbalance handing in machine learning: evaluation and comparison of balancing techniques for unbalanced datasets
پديدآورندگان :
شجاعيان ابوذر aboozarshojaiyan1378@gmail.com مجتمع آموزش عالي لارستان , مويدي فاطمه fmoayyedi@gmail.com گروه مهندسي كامپيوتر، مجتمع آموزش عالي لارستان، لار
كليدواژه :
متعادل سازي ديتاست , مديريت دادههاي نامتعادل , ديتاست نامتعادل , نمونهگيري مصنوعي , handling imbalanced dataset
عنوان كنفرانس :
دومين كنفرانس ملي تحول ديجيتال و سيستم هاي هوشمند
چكيده فارسي :
در عصر ديجيتال امروزي، يادگيري ماشين به يك فناوري ضروري براي سازمانها و افراد تبديل شده است. با رشد تصاعدي دادهها و اطلاعات ديجيتال، قابليتهاي پردازش كارآمد داده يك نياز ضروري است. با اين حال، يادگيري ماشين با چالشهاي متعددي مواجه مي شود، از جمله مسئله عدم تعادل كلاس، كه اغلب با افزايش حجم دادهها به وجود مي آيد. عدم تعادل كلاس به حالتي گفته مي شود كه در آن تعداد نمونههاي يك كلاس به طور قابل توجهي از كلاس ديگر بيشتر است و منجر به توزيع نامتوازن مي شود. اين عدم تعادل طبقاتي ميتواند اثرات مضري بر عملكرد طبقهبندي داشته باشد كه باعث ميشود توسعه استراتژيهاي موثر براي مديريت مجموعه دادههاي نامتعادل و بهبود نتايج طبقهبندي را ضروري ميكند. پرداختن به اين موضوع نيازمند روشهاي متعادلسازي مؤثر براي افزايش عملكرد مدل و كاهش حساسيت است. در اين مقاله، ما يك بررسي كامل از تكنيكهاي متعادلسازي SMOTE، ADASYN، SMOTEBoost، RUSBoost و AdaBoost انجام دادهايم. ارزيابي بر روي مجموعه دادههاي نامتعادل مختلف بهدستآمده از Kaggle با استفاده از ماتريس در همريختگي انجام شده است كه دامنههاي متنوع و نسبتهاي عدم تعادل طبقاتي را نشان ميدهد و از نمايش گسترده چالشهايي كه در عمل با آن مواجه ميشوند اطمينان حاصل ميكند. هر روش به طور سيستماتيك از نظر توانايي آن براي افزايش عملكرد پيشبيني، كاهش تأثير عدم تعادل كلاس و بهبود استحكام كلي مدل ارزيابي شده است.