عنوان مقاله :
استفاده از الگوريتم هاي دسته بندي و خوشه بندي براي پيش بيني تعداد قرص مصرفي: مورد كاوي بيماري ديابت
عنوان فرعي :
Classification and Clustering Algorithm Application for Prediction of Tablet Numbers: Case Study Diabetes Disease
پديد آورندگان :
عاشوري، مريم نويسنده , , ناجي مقدم,، وجيهه نويسنده MSc student, Information Technology Engineering, K. N. Toosi University of Technology, Tehran, Iran , , عليزاده، سميه نويسنده Assistant Professor, Industrial Engineering, K. N. Toosi University of Technology, Tehran, Iran , , صفي، مهسا نويسنده MSc student, Industrial engineering, K. N. Toosi University of Technology, Tehran, Iran ,
اطلاعات موجودي :
فصلنامه سال 1392 شماره 33
كليدواژه :
خوشهبندي , ديابت , دستهبندي , شاخص Dunn , درخت تصميم
چكيده فارسي :
مقدمه: امروزه با شيوع بيماري ديابت پيشبيني تعداد قرص مصرفي Glibenclamid و Metformin روزانه براي بيماران به پزشكان در جهت تشخيص تعداد قرص مصرفي بيمار و همچنين مهار عوارض شديد و خطرناك مصرف بيش از حد دارو كمك مينمايد، زيرا ميزان نياز بيماران ديابتي به دارو داراي اهميت بسيار ميباشد. از اينرو در پژوهش حاضر بهمنظور پيشبيني تعداد قرص مصرفي روزانهي بيماران ديابتي، از تكنيكهاي دادهكاوي استفاده شد. در پايان الگوريتمي كه نتيجهي بهتري در فرآيند ارزيابي بدست ميدهد، با توجه به مجموعه دادههاي تحت بررسي، انتخاب ميشود.
روش بررسي: مطالعهي حاضر به روش توصيفي- مقطعي صورت گرفت. نمونهگيري به روش سرشماري بود و تمامي بيماران (2783 بيمار) را در فاصلهي زماني فروردين 87 تا خرداد 91 در برگرفت. جامعهي پژوهش متشكل از دادههاي مركز تحقيقات ديابت يزد وابسته به دانشگاه علوم پزشكي شهيد صدوقي يزد بود و محتواي ركوردها مورد تاييد مسوولين مركز ديابت قرار گرفت. در مرحلهي پيش پردازش دادهها، با نظر افراد خبره در مراكز تحقيقاتي ركوردهايي كه مقادير برخي فيلدهاي آنها خالي بود، حذف شد و تعداد بيماران تحت بررسي به 740 مورد رسيد. اين يافتهها با مراجعهي مستقيم پژوهشگر به مركز تحقيقات ديابت يزد حاصل شده و روايي روش جمعآوري اطلاعات توسط استاد راهنما و متخصصين امر مورد تاييد قرار گرفت. با سنجش صحت مجموعه دادههاي آزمون، ميزان پايايي دو الگوريتم مورد استفاده نيز مقايسه شد. در اين مطالعه جهت تحليل دادهها و اجراي الگوريتمهاي دادهكاوي از نرمافزار Clementine 12.0 استفاده شد. دو الگوريتم متفاوت از الگوريتمهاي استنتاج قانون به نامهاي C5.0 و CHAID روي دادهها اعمال گرديد و سپس صحت مدلهاي توليد شده بدست آمد. در نهايت براي تاييد صحت مدلهاي توليد شده از خوشهبندي استفاده گرديد.
يافتهها: مقادير بهدست آمده براي صحت مدلهاي ايجاد شده از اجراي الگوريتمهاي C5.0 و CHAID روي مجموعه دادههاي تحت بررسي 52/45 و 38/28 درصد بود. صحت بالاي مدل C5.0 عملكرد بهتر اين الگوريتم براي پيشبيني تعداد قرص مصرفي را نشان داد. از طرفي پايين بودن مقدار صحت اين مدل نشاندهندهي اين بود كه برخي مقادير بهطور صحيح در جاي خود دستهبندي نشدهاند. بنابراين مقايسهي مقادير واقعي و مقادير پيشبيني شده براي تعداد قرص مصرفي در توليد مدل ميتواند بيانگر علل كاهش صحت هر مدل باشد. علت كاهش صحت مدل به مقادير پيشبيني شدهاي وابسته بود كه در مقايسه با مقادير واقعي صحت و ضريب اطمينان پاييني دارند. خوشهبندي نتايج بدست آمده از اجراي الگوريتم C5.0 تعداد قرص مصرفي 3، 5، 6 و 7 با صحت مقدار پيشبيني شدهي به ترتيب 83/46، 36/36، 71/55 و 15 درصد را در يك خوشه قرار داد، زيرا نمونه دادههايي كه داراي صحت پاييني در پيشبيني تعداد قرص مصرفي بود و يا تعداد نمونه دادهي كمي داشت، در يك خوشه قرار گرفتند. همچنين خوشهبندي نتايج اجراي الگوريتم CHAID نيز تعداد قرص مصرفي 5 با صحت مقدار پيشبيني شدهي 93/20 را در يك خوشه قرار داد.
نتيجهگيري: اين مقاله حاصل پروژهي تحقيقاتي گروه دادهكاوي دانشگاه خواجه نصير بود كه در نهايت در قالب فعاليت گروهي تكميل و بهصورت پژوهش حاضر درآمد. در مراكز تحقيقات ديابت وجود رويكرد سازماندهي شده جهت پيشبيني تعداد قرص مصرفي بيمار بهمنظور كمك به پزشك براي افزايش صحت تشخيص و جلوگيري ازعوارض جانبي ناشي از تشخيص نادرست در تعداد قرص خوراكي ضروري است. با توجه به لزوم استفاده از فنآوريهاي رايانهاي، اينترنت و نرمافزارهاي تحليلي و بهمنظور مهار اثرات خطرناك بيماري، بهتر است اقدامات لازم جهت ابداع رويكردهاي پيشنهادي با مشاورهي متخصصان مربوط انجام شود.
واژههاي كليدي: ديابت؛ درخت تصميم؛ دستهبندي؛ خوشهبندي؛ شاخص Dunn
چكيده لاتين :
Abstract
Introduction: By diabetes outbreak in these days, prediction of tablet daily usage like Glibenclamid and Metformin helps doctors to recognize number of tablets. Also, it should be considered that the need of diabeticto drug is critical. So, in this paper we have used data mining techniques to predict the number of daily usage of tablets for diabetes.
Methods: This study done by descriptive-cross sectional method. It done by Census sampling method and contains all 2783 patients from March 2008 to May 2012. In data preprocessing step the number of patients reduced to 740 cases. Data gathering method validity confirmed by supervisor and specialists. Also reliability value has compared. In this study Clementine 12.0 has been used for data analysis and data mining algorithms application. Two different algorithms namely CHAID and C5.0 have been used on data and then the generated models accuracy has been achieved. At the end, to confirm the accuracy, we have used clustering method.
Results: The obtained values for generated models accuracy by C5.0 and CHAID algorithmʹs execution on dataset was 45/52 and 28/38 respectively. The clustering of obtained results of C5.0 algorithm executing, put 3, 5, 6 and 7 of tablet usage with 46/83, 36/36, 55/71 and 15 percent of predicted value accuracy, respectively, in one cluster because the cases which have low accuracy or have low samples will be located in the same cluster. Also the clustering of CHAID algorithm executing results put 5 of tablet usage with 20/93 percent of predicted value accuracy in a cluster.
Conclusion: In Diabetes Center, an organized approach to predict number of daily usage tablets and prediction from side effects of false recognition in number of tablets is necessary. In order to prevent dangerous effects of diabetes, it is better to invent novel approaches by the help of expert consultant and use of computerized technologies, internet and analytical softwares.
Keywords: Diabetes; Decision Tree; Classification; Clustering; Dunn Index
عنوان نشريه :
مديريت اطلاعات سلامت
عنوان نشريه :
مديريت اطلاعات سلامت
اطلاعات موجودي :
فصلنامه با شماره پیاپی 33 سال 1392
كلمات كليدي :
#تست#آزمون###امتحان