پديد آورندگان :
سعدي، پريا دانشگاه آزاد اسلامي واحد علوم و تحقيقات تهران - دانشكده فني و مهندسي - گروه مهندسي صنايع , زينال نژاد، معصومه دانشگاه آزاد اسلامي تهرن غرب - دانشكده فني و مهندسي - گروه مهندسي صنايع , موحدي سبحاني، فرزاد دانشگاه آزاد اسلامي واحد علوم و تحقيقات تهران - دانشكده فني و مهندسي - گروه مهندسي صنايع
كليدواژه :
بيماري قلبي - عروق كرونري , پيش بيني , ماشين بردار پشتيبان , شبكه عصبي , جنگل تصادفي
چكيده فارسي :
بيماري قلبي عروق كرونري يكي از شايع ترين علت هاي مرگ ومير در بزرگ سالان است، درحالي كه، با تشخيص سريع و دقيق، درمان به موقع و نجات بيمار تا حد زيادي امكان پذير است. از اين رو، هدف اين پژوهش شناسايي فاكتورهاي موثر در ابتلاء به اين بيماري و ارايه مدلي داده محور جهت كمك به پزشكان در پيش بيني و تشخيص آن است.
روش
پژوهش حاضر از نوع تحقيق كاربردي-توسعه اي است كه در آن 2038 ركورد گردآوري شده در مدت 5 سال در بيمارستان قلب شهيد رجايي تهران، طي عمليات پيش پردازش و آماده سازي، با استفاده از نمونه برداري تصادفي متوازن، به 1000 ركورد، 500 بيمار و 500 فرد سالم، كاهش يافت. مرور ادبيات تحقيق، مشاوره با پزشكان متخصص، و وزن دهي با استفاده از روش كاي دو، منجر به تعيين ويژگي ها شد. مدل ها با استفاده از الگوريتم هاي ماشين بردار پشتيبان، شبكه عصبي و جنگل تصادفي در محيط نرم افزارهاي رپيدماينر و پايتون ايجاد شدند.
نتايج
در ميان 35 متغير شناسايي شده، مهم ترين ويژگي ها عبارت اند از بيماري دريچه هاي قلبي، درد قفسه سينه، كلسترول بد، اختلال حركت ديواره اي قلب، تري گليسيريد، سديم، پتاسيم، فشارخون و وزن. معيار F، دقت، صحت، و بازخواني، به ترتيب، براي الگوريتم جنگل تصادفي برابر با 82/11%، 81/40%، 79/07%، 85/40% و نرخ خطاي مدل 18/6% محاسبه شد.
نتيجه گيري:
جنگل تصادفي با دقت قابل قبولي احتمال ابتلاء به بيماري قلبي عروق كرونري را پيش بيني نمود. در مقايسه مدل ها، به علت زياد بودن تعداد گره هاي ورودي، خطاي مدل شبكه عصبي، 23/6%، نسبتا بيشتر بود.
چكيده لاتين :
Coronary artery disease (CAD) is one of the most common causes of death in adults while accurate and early diagnosis can lead to treatment and survival of patients to a great extent. Therefore, the objective of this study was to identify the effective factors leading to this disease and develop a data-driven model to assist physicians in predicting and diagnosing it.
Method
This is an applied research, considering 2038 medical records, collected from Shahid Rajaei Heart Hospital in Tehran, during 5 years. A data preprocessing was carried out and random balanced sampling reduced the dataset into 1000 records, with 500 CAD and 500 Normal. Literature review, consultation with specialist physicians, and weighting using the Chi-square method led to the determination of important features. Support Vector Machine, Neural Network and Random Forest algorithms were applied in RapidMiner and Python.
Results
Among the 35 identified variables, the most important features included VHD, Chest pain, LDL, RWMA, TG, Na, K, BP, and weight. The F-measure, precision, accuracy, and recall for random forest algorithm were calculated as 82.11%, 81.40%, 79.07%, and 85.40%, respectively, and the error rate was 18.6%.
Conclusion
Random Forest predicted the risk of CAD with a reasonable precision. In comparison, due to the large number of input nodes, the error rate of the Neural Network model was relatively higher (23.6%).