شماره ركورد كنفرانس :
5402
عنوان مقاله :
بررسي 6 روش طبقه بندي جهت يافتن بهترين روش پيش بيني سرطان ريه مبتني داده هاي نامتعادل
عنوان به زبان ديگر :
Review of 6 classification methods to find the best Lung Cancer Prediction method based on unbalanced data
پديدآورندگان :
صادقي رقيه roghayesadeghi893@gmail.com دانشگاه آزاد اسلامي واحد كرج , باستان فرد اعظم azambastanfard1397@gmail.com دانشگاه آزاد اسلامي واحد كرج
تعداد صفحه :
6
كليدواژه :
سرطان ريه , يادگيري ماشين , پيشبيني , طبقه بنديهاي نظارت شده
سال انتشار :
1402
عنوان كنفرانس :
اولين كنفرانس ملي پژوهش و نوآوري در هوش مصنوعي
زبان مدرك :
فارسي
چكيده فارسي :
هدف ما از ارائه اين مقاله يافتن بهترين الگوريتم جهت پيش بيني سرطان ريه است. اين مقاله به بررسي طبقه بندي هاي نظارت شده و ارزيابي عملكرد شش روش طبقه بندي مي پردازد. در اين مقاله، مجموعه‌اي از روش‌هاي نظارت شده براي پيش‌بيني سرطان ريه پيشنهاد شده است و نتايج بر روي مجموعه داده‌هاي سرطان ريه آزمايش مي‌شوند. پس از حذف داده هاي تكراري، با بررسي مجموعه داده هاي اوليه، عدم تعادل مجموعه داده ها مشخص مي شود و تمايل مجموعه داده ها به سمت نمونه هاي مثبت (مبتلا به سرطان) است. يكي از چالش هاي مجموعه داده ها عدم تعادل است كه بر كارايي مدل تأثير مي گذارد. با اين حال، مجموعه داده به دو بخش آموزش و آزمايش تقسيم مي شود و مجموعه داده با تمام الگوريتم ها مدل سازي شده است. در مرحله بعد تكنيك وزن دهي براي متعادل كردن توزيع داده ها اعمال مي شود و تمام الگوريتم ها مجددا روي مجموعه داده اجرا مي شود. مقايسه اي بين خروجي هر دو حالت صورت مي گيرد و بهترين الگوريتم براي پيش بيني سرطان ريه انتخاب مي شود. ماشين بردار پشتيبان (SVM)، k-نزديكترين همسايه (KNN)، درختان تصميم (DT)، جنگل تصادفي (RF)، بيزين (NB)، رگرسيون لجستيك (RL) روي مجموعه داده حاصل اعمال مي شوند و نتايج با هم مقايسه مي شوند. ارزيابي مدل ها به كمك چهار معيار دقت كلي، نرخ مثبت كاذب، دقت، يادآوري انجام مي شود. جهت اجراي مدل ها از زبان برنامه نويسي پايتون استفاده مي شود. مجموعه داده مورد استفاده در اين بررسي شامل 309 ركورد و 16 ويژگي است كه از سايت Kaggle به دست آمده است.
چكيده لاتين :
Our goal in presenting this article is to find the best algorithm for predicting lung cancer. This article examines supervised classifications and evaluates the performance of six classification methods. In this article, after removing the duplicate data, by examining the primary data set, the imbalance of the data set is determined that the tendency of the data set is towards positive samples (with cancer). One of the challenges of the data set is imbalance, which affects the efficiency of the model. However, the data set is divided into two parts, training and testing, and the data set is modeled with all algorithms. In the next step, the weighting technique is applied to balance the data distribution and all the algorithms are run again on the data set. A comparison is made between the output of both modes and the best algorithm is selected for predicting lung cancer. Supervised classification algorithms are applied to the dataset and the results are compared. The evaluation of the models is done with the help of four general accuracy criteria, false positive rate, precision and recall. Python programming language is used to run the models. The dataset used in this study consists of 309 records and 16 features obtained from the Kaggle site.
كشور :
ايران
لينک به اين مدرک :
بازگشت