عنوان مقاله :
طبقه بندي دادههاي نامتوازن در تشخيص اوليه بيماريهاي پستان با روشهاي آدابوست، شبكه عصبي احتمالي و K تا نزديكترين همسايه
عنوان به زبان ديگر :
Imbalanced Data Classification for Primary Diagnosis of Breast Diseases by AdaBoost.M1, K-Nearest Neighbor and Probabilistic Neural Network
پديد آورندگان :
درزي، محمد پژوهشكده فناوري اطلاعات و ارتباطات جهاد دانشگاهي، تهران - گروه پژوهشي سيستم هاي اطلاعاتي پيشرفته , الفت بخش، آسيه مركز تحقيقات سرطان پستان جهاد دانشگاهي، تهران - گروه پژوهشي بيماري هاي پستان , گرگين، سعيد سازمان پژوهش هاي علمي و صنعتي ايران، تهران - گروه فناوري اطلاعات و سامانه هاي هوشمند , اويسي، فريد پژوهشكده فناوري اطلاعات و ارتباطات جهاد دانشگاهي، تهران - گروه پژوهشي سيستم هاي اطلاعاتي پيشرفته , هاشمي، عصمت السادات مركز تحقيقات سرطان پستان جهاد دانشگاهي، تهران - گروه پژوهشي بيماري هاي پستان , علوي، نسرين السادات مركز تحقيقات سرطان پستان جهاد دانشگاهي، تهران - گروه پژوهشي بيماري هاي پستان
كليدواژه :
عدم توازن داده , طبقه بندي , بيماري پستان , AdaBoost.M1 , k تا نزديكترين همسايه , شبكه عصبي احتمالي , نمونه گيري مجدد
چكيده فارسي :
مقدمه: سرطان پستان يكي از سرطان هاي شايع در ايران بوده و هرگونه اقدام تشخيصي به هنگام در اين مورد مي تواند جان بسياري از مبتلايان به اين سرطان را نجات بخشد. هدف از اين پژوهش طبقه بندي داده هاي نامتوازن مربوط به بانوان مراجعه كننده به كلينيك پژوهشكده سرطان پستان جهاد دانشگاهي به منظور تعيين وضعيت ايشان و طبقه بندي نرمال و يا غيرنرمال بودن پستان مراجعه كنندگان بود. مجموعه داده هاي نامتوازن يكي از چالش هاي پيش روي طراحي سيستم هاي پزشك يار براي طبقه بندي و تعيين وضعيت بيمار محسوب مي شود كه در اين پژوهش از روش هاي سطح داده براي حل آن استفاده شد. روش بررسي: در اين مطالعه براي طبقه بندي دادههاي 918 نفر، سه الگوريتم AdaBoost.M1، k تا نزديكترين همسايه و شبكه عصبي احتمالي به خدمت گرفته شد. از آنجا كه داده هاي اين مطالعه نامتوازن بود، براي حل اين مساله از روش بيش نمونه برداري تصادفي كلاس اقليت، زيرنمونه برداري تصادفي كلاس اكثريت و بيش نمونه برداري مصنوعي كلاس اقليت استفاده شد. به منظور پياده سازي الگوريتم ها از امكانات و ابزارهاي نرم افزار «متلب» و «آر» استفاده گرديد. همچنين براي ورودي الگوريتم هاي طبقه بندي از 60 متغير مندرج در كاربرگ هاي شرح حال و معاينه فيزيكي مراجعان استفاده شد. معيارهاي دقت و F-measure به منظور ارزيابي در مرحله آزمون الگوريتمها مورد استفاده قرار گرفت. يافته ها: بر اساس معيارهاي دقت و F-measure، بهترين عملكرد الگوريتم هاي سه گانه اين مطالعه در مواجهه با مجموعه داده توليد شده با روش بيش نمونه برداري مصنوعي كلاس اقليت بود. در اين راستا عملكرد الگوريتم هاي AdaBoost.M1، k تا نزديكترين همسايه و شبكه عصبي احتمالي در مواجهه با مجموعه داده مذكور و بر اساس معيارهاي دقت و F-measure به ترتيب عبارتند از: 93/5 و 93/6، 79/5 و 87/7 و 86 و 91/9 بدست آمد. نتيجه گيري: روشهاي مختلفي براي حل مساله عدم توازن مجموعه داده ها به منظور طبقه بندي وجود دارد؛ نمونه گيري مجدد كه از روش هاي سطح داده محسوب مي شود يكي از متداول ترين آنهاست. از سه روش نمونه گيري مجددي كه در اين مطالعه استفاده شد، بهترين عملكرد طبقه بندها در مواجهه با مجموعه داده ايجاد شده در نتيجه نمونه گيري مجدد به روش بيش نمونه برداري مصنوعي كلاس اقليت بود. از بين الگوريتم هاي به خدمت گرفته شده و بر اساس معيارهاي دقت و F-measure بهترين عملكرد در تمامي مجموعه داده هاي اين مطالعه متعلق به الگوريتم AdaBoost.M1 بود.
چكيده لاتين :
Introduction: Breast Cancer is one of the common cancers in Iran. Each Prediagnosis of that can survive women from different risks. The aim of this research is classifying imbalanced dataset for detecting normal vs. abnormal women who came to ACECR Breast Cancer Clinic. Imbalanced datasets are one of the main challenges for designing medical decision support system. So, in this article, imbalanced data classification was addressed via data level solutions. Methods: In this research for classifying of 918 women’ breast situation, the “AdaBoost.M1”, “K-nearest neighbor”, and “probabilistic neural network” as triple algorithms were used. Because of facing with imbalanced dataset, for solving that, “random over sampling”, “Random under sampling”, and “Synthetic Minority Over-sampling Technique” were used as 3 re-sampling methods. So, Mat lab and R as software tools were used for implementing of methods and algorithms. Also, the values of 60 features that extracted from women’s historical and physical exam forms were used as input data in triple algorithms. Finally, “precision” and “F-Measure” as two criteria were used for evaluating in test state of triple algorithms. Results: Based on “precision” and “F-Measure” as two useful criteria, the best performance of this research’s classification algorithms were through dataset that generated by Synthetic Minority Over-sampling Technique. So, the performance of “AdaBoost.M1”, “K-nearest neighbor”, and “probabilistic neural network” for classification of that dataset based on “precision” and “F-Measure” were “93.5,93.6”, “79.5,87.7”,and “86,91.9”respectively. Conclusion: There are different methods for solving imbalanced datasets problem through classification of that. Re-Sampling is one of the popular data level methods. Through 3 re-sampling methods, the best classification algorithm performance belongs datasets that generated by “Synthetic Minority Over-sampling Technique”, So among triple algorithms and four datasets that were used in this research and the based on “precision” and “F-Measure”, AdaBoost.M1 had the best performance in classification.
عنوان نشريه :
بيماري هاي پستان ايران
عنوان نشريه :
بيماري هاي پستان ايران