عنوان مقاله :
مقايسه روش الگوريتم EM و روشهاي متداول جانهي دادههاي گمشده: مطالعهروي پرسشنامه خوددرماني بيماران ديابتي
عنوان فرعي :
Comparison Of EM Algorithm and Standard Imputation Methods For Missing Data: A Questionnaire Study On Diabetic Patients
پديد آورندگان :
افشاریصفوی، علیرضا نويسنده Assistant Professor, Chronic Diseases ReseaarchCommittee, Isfahan University of Medical Sciences, Isfahan, Iran Afshari Safavi, A , كاظمزاده قرهچبق، حسین نويسنده MSc of Statistics, Social Security Organization, Tehran Kazemzadeh Gharechobogh, H , رضایی، منصور نويسنده Department of Biostatistics and Epidemiology, Kermanshah University of Medical Sciences, Kermanshah, Iran Rezaei, M
اطلاعات موجودي :
فصلنامه سال 1394 شماره 0
كليدواژه :
الگوريتم EM , خوددرماني , دادههاي گمشده , ديابت , رگرسيون , Algorithm EM , diabetes , Missing data , Self-Treatment , Kappa statistics , آماره كاپا , Regression
چكيده فارسي :
مقدمه و اهداف: دادههای گمشده، چالش بزرگی در پژوهشها بهشمار میآیند. به فراخور نوع مطالعه و نوع متغیرهای مورد بررسی، روشهای گوناگونی برای كار با این دادهها تا كنون معرفی شده است. هدف این مطالعه مقایسه پنج روش جانهی متداول در برخورد با گمشدگی در دادههای پرسشنامهای بود.
روش كار: در این مطالعه تعداد500 پرسشنامه مربوط به خوددرمانی در بیماران دیابتی مورد استفاده قرار گرفت. گمشدگی در مشاهدهها بهصورت تصنعی و با انتخاب تصادفی سؤالاتسؤالات و سپس حذف آنها تولید شد. پنج روش جانهی عبارت بودند از: 1- میانگین سؤالاتسؤالات؛ 2- میانگین فردی؛ 3- نمای فردی؛ 4- رگرسیون خطی؛ و 5- الگوریتم EM. برای هر روش میانگین و انحراف معیار نمرات جانهی شده با مقادیر اصلی مقایسه گردید. همچنین ضریب همبستگی اسپیرمن، درصد دستهبندی اشتباه و آماره كاپا نیز محاسبه شد.
یافته ها: مقدار آماره كاپای بالاتر از 81/0 برای سطح گمشدگی 10 درصد بیانگر توافق تقریباً كامل در این سطح از گمشدگی بود. الگوریتم EM بالاترین میزان توافق با نتایج دادههای واقعی را با مقدار آماره كاپای 886/0 نشان داد. همچنین با افزایش میزان گمشدگی اطلاعات به 30 درصد، الگوریتم EM و روش میانگین فردی با مقدار كاپای 697/0 و 687/0از توافق نسبتاً مشابهی برخوردار بودند.
نتیجه گیری: در این مطالعه الگوریتم EM دقیقترین روش برای كار با دادههای گمشده در تمام الگوهای مورد ارزیابی شناخته شد. روش میانگین فردی به دلیل سادگی كار با دادههای گمشده بهویژه برای بیشتر خوانندگان غیرآماری میتواند مورد توجه قرار گیرد.
چكيده لاتين :
Background and Objectives: Missing data is a big challenge in the research. According to the type of the study and of the variables, different ways have been proposed to work with these data. This study compared five popular imputation approaches in addressing missing data in the questionnaires.
Methods: In this study, 500 questionnaires were used for self-medication in diabetic patients. Missing in the observations was artificially generated by random selection of questions and then deleting them. Five imputation ways included: 1) the mean of the questions, 2) the mean of the person, 3) the mode of the person, 4) linear regression, and 5) EM algorithm. For each method, the mean and standard deviation were compared with imputation. The Spearman correlation coefficient, the percentage of incorrectly classified and kappa statistic were also calculated.
Results: A kappa higher than 0.81 represented almost perfect agreement at 10% missingness. The EM algorithm showed the highest level of agreement with the results of actual data with a Kappa of 0.886. With increasing missingness to 30%, the EM algorithm and the mean of the person showed a rather similar agreement with a Kappa of 0.697 and 0.687, respectively.
Conclusion: In this study, the EM algorithm was the most accurate method for handling missing data in all models. The mean of the person method is easy for handling missing data, especially for most non statisticians.
عنوان نشريه :
اپيدميولوژي ايران
عنوان نشريه :
اپيدميولوژي ايران
اطلاعات موجودي :
فصلنامه با شماره پیاپی 0 سال 1394
كلمات كليدي :
#تست#آزمون###امتحان