عنوان مقاله :
تشخيص بيماري ديابت نوع 2 با استفاده از درخت تصميم C4.5
عنوان به زبان ديگر :
A Detection of Type2 Diabetes using C4.5 Decision Tree
پديد آورندگان :
صباغ گل، حامد دانشگاه پيام نور بيرجند - گروه كامپيوتر
كليدواژه :
دادهكاوي بيماري ديابت نوع 2 , درخت تصميم C4.5 , بيماري قند
چكيده فارسي :
يكي از شايعترين بيماريها در دنياي امروز بيماري ديابت است و سالانه شيوع ديابت در سطح جهان حدود درصد افزايش مييابد. استفاده از تكنيكهاي دادهكاوي براي ايجاد مدلهاي پيشگويي كننده، جهت شناسايي افراد در معرض خطر براي كاهش عوارض ناشي از بيماري بسيار كمككننده است. در اين پژوهش با استفاده از درخت تصميم C4.5 به روشهاي پيشگيري و تشخيص اين بيماري پرداخته شد.
روش: در اين پژوهش كاربردي- توصيفي از دادههاي استاندارد UCI و مجموعه داده pima-indians-diabetes استفاده شد. اين پايگاه داده شامل 768 ركورد با 8 فيلد ميباشد. تجزيه و تحليل به كمك نرمافزار Weka 3.6 با بهكارگيري روش CRISP3 انجام شد. در بخش مدلسازي درخت تصميم C4.5 با بهكارگيري متغيرهاي ورودي و تعيين متغير هدف ايجاد شد. همچنين جهت ارزيابي مدل از شاخصهاي حساسيت، ويژگي، دقت، ارزش اخباري مثبت و منفي استفاده شد.
نتايج: با توجه به مدل استفاده شده مشخص شد كه به ترتيب متغيرهاي ميزان بالاي قند خون دوساعته، تعداد دفعات بالاي حاملگي، سن بالا، فشارخون دياستوليك بالا، سابقه خانوادگي و شاخص توده بدني (BMI) بالا، بيشترين تأثير را در ابتلا به بيماري ديابت نوع 2 دارا هستند. نرخ دستهبندي برابر با 73/8% و دقت الگوريتم C4.5 برابر با 79% بهدست آمد.
نتيجهگيري: در مقايسه با نتايج مطالعات انجام شده در حوزه دادهكاوي بيماري ديابت، دقت بهدستآمده الگوريتم پيشنهادي قابل قبول است. بيشترين عوامل تأثيرگذار بر بيماري ديابت شناسايي شدند. همچنين قوانيني استخراج شد كه ميتواند به عنوان الگويي در جهت پيشگويي احتمال ابتلا افراد به بيماري ديابت استفاده شود.
چكيده لاتين :
Introduction: One of the most common diseases in the world is diabetes and the global prevalence of
diabetes increases by about six percent annually. The use of data mining techniques to create predictive
models is very helpful in identifying people at risk and reducing the complications of the disease. In
this study, through using decision tree C4.5, methods of prevention and treatment of diabetes were
investigated.
Methods: In this applied and descriptive study, we used the standard UCI data and the pima-Indiansdiabetes
data set. This database contains 768 records with 8 fields. The analysis was done using Weka
software using the CRISP3 methodology. In modeling decision tree, C4.5 was created using input
variables and determining target variables. Also, the sensitivity, specificity, accuracy, as well as
positive and negative predictive values were used to evaluate the model.
Results: According to the model, high blood sugar levels, high gravidity, high age, high diastolic
blood pressure, familial history and high BMI have respectively the highest effects on type 2 diabetes
mellitus. The ranking rate was 73.8% and the accuracy of the C4.5 algorithm was 79%.
Conclusion: Compared to the results of studies in the field of data mining for diabetes, the accuracy
of the proposed algorithm is acceptable. The most effective factors on diabetes were identified. Also,
rules were developed that can be used as a model to predict the risk of diabetes in people.
عنوان نشريه :
مجله انفورماتيك سلامت و زيست پزشكي
عنوان نشريه :
مجله انفورماتيك سلامت و زيست پزشكي