شماره ركورد :
556584
عنوان مقاله :
آناليز جنگل هاي تصادفي: يك روش آماري مدرن براي غربالگري در مطالعات با بعد بالا و كاربرد آن در يك مطالعه همبستگي ژنتيكي جمعيت-پايه
عنوان فرعي :
Random Forests Analysis: A modern statistical method for screening in high-dimensional studies and its application in a population-based genetic association study
پديد آورندگان :
نوري، سحر نويسنده , , نوري جلياني، كرامت نويسنده دانشگاه علوم پزشكي تهران Nourijelyani , K , محمد، كاظم نويسنده mohammad, kazem , نيكنام ، محمدحسين نويسنده , , محمودي، مهدي نويسنده Mahmoudi, M , آندونيان ، لاريس نويسنده , , اكابري، آرش نويسنده دانشگاه علوم پزشكي خراسان شمالي,بجنورد,ايران Akaberi, arash
اطلاعات موجودي :
فصلنامه سال 1390 شماره 5
رتبه نشريه :
علمي پژوهشي
تعداد صفحه :
9
از صفحه :
93
تا صفحه :
101
كليدواژه :
جنگل هاي تصادفي (RF) , random forests , داده هاي بعد بالا , رگرسيون لجستيك , اثرمتقابل , درخت , CART , High-dimensional data , Interaction , logistic regression
چكيده فارسي :
زمينه و هدف: پيشرفت هاي سريع تكنولوژي قرن اخير در زمينه مطالعات ژنتيكي ما را با حجم زياد اطلاعات مواجه كرده و چالشي را در تحليل اين قبيل داده هاي با تعداد بسيار زياد متغير پيشگو بوجود آورده است. مطالعه حاضر با در نظر گرفتن داده ها با تعداد متغيرهاي بسيار زياد همراه با اثرات متقابل آنها كه ممكن است در تحليل آماري داده هاي ژنتيكي با آن مواجه شويم و با هدف بررسي روش هاي نوين براي تحليل اينگونه داده هاي با بعد زياد انجام پذيرفت. مواد و روش كار: در اين مطالعه روش آماري ناپارامتري و نوين جنگل هاي تصادفي براي تعيين فاكتورهاي مهم و اثرگذار ژنتيكي بر روي بيماري آنكيلوزان اسپونديليت بكار برده شد. داده ها حاوي اطلاعات مربوط به ژن HLA-B27 و 12 پلي مرفيسم تك نوكليوتيدي ژني موسوم به ERAP-1 از 401 بيمار مبتلا به آنكيلوزان اسپونديليت و 316 كنترل سالم بود. تحليل هاي فوق متعاقبا به كمك رگرسيون لجستيك نيز اجرا شد و نتايج آن با جنگل هاي تصادفي مقايسه گرديد. يافته ها: بر اساس نتايج مدل رگرسيون لجستيك گام به گام متغيرهاي HLA-B27 و پلي مرفيسم rs28096 به طور معني دار در ارتباط با بيماري مذكور بودند در حاليكه روش جنگل هاي تصادفي متغيرهاي HLA-B27 و rs1065407 را متغيرهاي اصلي اثرگذار روي اين بيماري تشخيص داد و rs28096 در رتبه سوم اهميت قرار داشت. نتيجه گيري: نتايج حاصل از اين مطالعه حاكي از ارتباط زياد HLA-B27 با بيماري آنكيلوزان اسپونديليت بود. روش كلاسيك و متداول رگرسيون لجستيك پلي مرفيسم rs28096 را مهم ترين فاكتور خطر در رابطه با بيماري معرفي كرد در حاليكه روش جنگل هاي تصادفي rs1065407 را نيز مهمترين پلي مرفيسم تشخيص داد. لذا محققين بايستي نتايج آماري حاصل از روش هاي متداول كلاسيك را با روش هاي جامع و كامل تر نوين از قبيل جنگل هاي تصادفي در مطالعات غربالگري مدنظر داشته باشند.
چكيده لاتين :
Background & Objectives: Technology advances in this century, especially, in molecular generics yields high volume, high dimensional data. This creates many unprecedented challenges for statisticians who are responsible for analysis of such data. Although logistic regression method is quite popular in association analysis in medical researches but it has some serious limitations in handling high dimensional data. In present study, our goal is introduce a modern model-free statistical method called random forest that we believe is able to overcome difficulties of the classical statistical methods in finding association between predictors and a trait. Material & Methods: In this study, the nonparametric random forest technique was employed to determine the important factors associated with ankylosing spondylitis (AS) disease. Genetic materials including information on HLA-B27 status (positive/negative) and 12 polymorphisms of the ERAP-1 gene were collected on 401 patients and 316 healthy controls. The data were analyzed both with the logistic regression method and random forests technique and the results were compared. Results: Based on a stepwise logistic regression, HLA-B27 and rs28096 polymorphism were significantly associated with the disease. However, using the random forests technique, we found that HLA-B27 and rs1065407 were the main factors associated with diseases and in fact rs28096 polymorphism becomes the third in importance ranking. Conclusion: The results from our study indicate some discrepancies between logistic regression and random forest analyses of high-dimensional data such as the genetic data that we are dealing here. Although logistic regression is quite popular, easy to employ, and is a predominant statistical method among researchers, but it has some serious limitations. On the other hand, more modern statistical such random forest enjoy a more methodological sophistication and yield more accurate and reliable results. Therefore, researchers should be aware of such alternatives and should use these alternatives accordingly and as situation arise in screening tests especially in genetic data analyses.
سال انتشار :
1390
عنوان نشريه :
مجله دانشگاه علوم پزشكي خراسان شمالي
عنوان نشريه :
مجله دانشگاه علوم پزشكي خراسان شمالي
اطلاعات موجودي :
فصلنامه با شماره پیاپی 5 سال 1390
كلمات كليدي :
#تست#آزمون###امتحان
لينک به اين مدرک :
بازگشت