پديد آورندگان :
ويسي هادي دانشگاه تهران - دانشكده علوم و فنون نوين , قايدشرف حميدرضا دانشگاه تهران - دانشكده علوم و فنون نوين , ابراهيمي مرتضي دانشگاه تهران - دانشكده علوم و فنون نوين
چكيده فارسي :
قلب يكي از مهم ترين اعضاي بدن بوده و بيشترين علت مرگ ومير در دنيا و ايران، بيماري هاي قلبي است. ازاين رو تشخيص زودهنگام و بموقع، يكي از اركان مهم براي جلوگيري و كاهش مرگ ومير ناشي از اين بيماري است. هدف از اين پژوهش، ايجاد مدل هاي تشخيص بيماري هاي قلبي با استفاده از روش هاي يادگيري ماشيني است. مدل ها بر روي مجموعه داده هاي قلب كليولند دانشگاه كاليفرنيا، ايروين ايجاد شده است. با توجه به روش پيشنهادي پژوهش، پس از پردازش كامل داده ها كه شامل شناسايي داده هاي پرت، نرمال سازي، گسسته سازي و انتخاب ويژگي مي باشد، با توجه به ماهيت الگوريتم ها، داده ها به دو شكل داده هاي عددي نرمال شده و گسسته شده به بازه هاي بهينه، تغيير يافته است. همچنين ورودي الگوريتم هاي مورد استفاده، يك بار ويژگي هاي پردازش شده و بار ديگر ويژگي هاي ايجادشده توسط الگوريتم تحليل مولفه هاي اصلي مي باشد. از طرفي با استفاده از روش هاي جست وجوي تصادفي با اعتبارسنجي متقابل و جست وجوي شبكه اي از طريق Talos Scan پارامتر هاي مناسب هر الگوريتم انتخاب و مدل ها ايجاد و ارزيابي شده است. در بين الگوريتم هاي درخت تصميم، جنگل تصادفي، ماشين بردار پشتيبان و XGBoost، بيشترين صحت مربوط به ماشين بردار پشتيبان به ميزان 92/9% و در بين شبكه هاي عصبي بيشترين صحت به ميزان 94/6%، مربوط به شبكه عصبي پرسپترون چندلايه است.
چكيده لاتين :
Heart is one of the most important members of the body, and heart disease is the major cause of death in the world and Iran. This is why the early/on time diagnosis is one of the significant basics for preventing and reducing deaths of this disease. So far, many studies have been done on heart disease with the aim of prediction, diagnosis, and treatment. However, most of them have been mostly focused on the prediction of heart disease. The purpose of this study is to develop models for heart disease diagnosis using machine learning, neural network, and deep learning algorithms. The models have been developed using the Cleveland heart disease dataset from University of California Irvine (UCI) repository. After complete data processing, including outlier detection, normalization, discretization, feature selection and feature extraction, the dataset is transformed into two normalized data and discretized data, according to the nature of the algorithms. Moreover, in constructing models of machine learning and neural networks, two randomized searches with cross-validation and grid search with Talos scan approaches are used for model tuning. Among evaluated models, including decision tree algorithms, random forest, support vector machine (SVM) and XGBoost, the highest accuracy is 92.9% using SVM, and among neural network models, multilayer perceptron (MLP) has resulted in the highest accuracy of 94.6%.