عنوان مقاله :
تشخيص نوع لوسمي به كمك يادگيري ماشين: كاهش ابعاد و متوازن سازي
عنوان به زبان ديگر :
Diagnosis of Leukemia Type by Machine Learning: Dimension Reduction and Balancing
پديد آورندگان :
قرائتي، زينب دانشگاه يزد - گروه مهندسي كامپيوتر , پژوهان، محمدرضا دانشگاه يزد - گروه مهندسي كامپيوتر
كليدواژه :
دادههاي ژنتيكي , تشخيص نوع سرطان خون , دادهكاوي و متوازنسازي دادهها , كاهش ابعاد و متوازنسازي , يادگيري ماشين
چكيده فارسي :
تركيب تكنيك هاي محاسباتي هوش مصنوعي و داده كاوي در پزشكي به پيشرفت هاي قابل توجهي در پيش گيري و تشخيص بيماري ها منجر شده است. در تشخيص لوسمي حاد از اطلاعات ژنتيكي، مدل هاي پيچيده اي تاكنون ارائه شده؛ اما نتايج قابل توجهي را ارائه نكرده است. اين مطالعه به تشخيص نوع سرطان خون با بررسي محدوده گسترده اي از توابع پارامتري و غيرپارامتري و به منظور افزايش قابلت تعميم آن ها در يادگيري با استخراج ويژگي هاي ذاتي كم تر از نمونه ها مي پردازد.روش: اين مطالعه توصيفي تحليلي، بر روي داده هاي leukemia1 از دانشگاه واندربيلت آمريكا انجام شد. اين داده ها مجموعه اي از نمونه هاي مغز استخوان و خون بيماران لوسمي است كه براي طبقه بندي بر اساس سه زير گروه سرطان خون all b-cell، all t-cell و aml استفاده مي شود. دسته بندي پارامتري با الگوريتم هاي خطي، بيز ساده، فاصله اقليدسي، نزديك ترين ميانگين، تطبيق قالب و دسته بندي غيرپارامتري با الگوريتم هاي تخمين گرهاي پايه، هسته، k-همسايه نزديك تر و k-همسايه نزديك تر مبتني برهسته انجام گرديد.نتايج: با در نظر گرفتن تمامي ويژگي ها بهترين الگوريتم نزديك ترين ميانگين بود كه به دقت پيش بيني 92/86 % رسيد. با اعمال روش كاهش ويژگي pca، باز هم بهترين نتيجه مربوط به الگوريتم نزديك ترين ميانگين بود و با متوسط تعداد ويژگي 6/8 به دقت 96% دست يافت. در نهايت با متوازن سازي داده هاي leukemia1، متوسط تعداد ويژگي و دقت توسط الگوريتم درجه 2 به ترتيب 5/41 و 98/59 حاصل گرديد.نتيجه گيري: نتايج به دست آمده بيانگر اثربخشي استخراج ويژگي هاي ذاتي و متوازن سازي در بهبود دقت مدل مبتني بر قاعده بيز و برتري آن نسبت به مدل هاي پيچيده تر كنوني مي باشد.
چكيده لاتين :
Introduction: Combination of artificial intelligence and data mining has been resulted to considerable progress in the prevention and diagnosis of diseases. Complex models have been proposed for the diagnosis of acute leukemia from genetic information, but significant results have not been achieved. This study aimed to predict the type of blood cancer by examining a wide range of parametric and non-parametric methods and to increase the generalization of learning by extracting fewer essential features.
Methods: This descriptive and analytical study used Leukemia1 dataset from the Vanderbilt University of USA. This dataset contains a set of bone marrow and blood samples of patients having leukemia used for classification based on three subgroups of leukemia, namely ALL B-cell, ALL T-cell and AML. Parametric classification including linear algorithms, Naïve Bayes, Euclidean distance, nearest average, template matching as well as non-parametric classification using basic estimator algorithms, kernel, k-nearest neighbors and k-nearest neighbors based on the kernel has been used.
Results: Considering all features, the best method was nearest mean prediction method achieving the accuracy of 92.86%. By applying the PCA feature reduction method, too, the best result was related to the nearest mean algorithm and by average number of features of 6.8, the accuracy became 96%. Finally, using data-balancing methods and quadratic algorithm resulted in the average number of features and the accuracy of 5.41 and 98.59% respectively.
Conclusion: The results show the effectiveness of essential features extraction in improving the accuracy of Bayes-based models and its preference over the existing complex models.
عنوان نشريه :
مجله انفورماتيك سلامت و زيست پزشكي
عنوان نشريه :
مجله انفورماتيك سلامت و زيست پزشكي