كليدواژه :
بيز LASSO , سطح زير منحني مشخصه عملكرد , صحت ژنومي , يادگيري ماشين
چكيده فارسي :
سابقه و هدف: بسياري از صفات برجسته در دامهاي اهلي شامل: مقاومت به بيمارها و سختي زايش مشمول يك توزيع طبقه بندي از فنوتيپ هستند. اين صفات به علت اهميت در آسايش حيوان و گرايشات انساني به توليدات با كيفيت بالا و سالم از اهميت ويژهاي در اصلاح دام برخوردار ميباشند. بنابراين شناسايي و تشخيص واريانت هاي ژنتيكي موثر بر صفات آستانهاي اعم از مقاومت به بيماري يكي از اهداف اصلي در ژنتيك حيواني است. در اين رأستا گزينش ژنومي ميتواند نقش مهمي در افزايش پيشرفت ژنتيكي صفات آستانهاي ايفا كند. هدف از تحقيق حاضر، ارزيابي سطح زير منحني مشخصه عملكرد (AUROC) ژنومي روشهاي ماشين بردار پشتيباني (SVM)، GBLUP و بيز لاسو (LASSO) براي نرخ مختلف توزيع فنوتيپ دودويي در جمعيت مرجع بود.
مواد و روشها: يك جمعيت پايه 1000 رأسي براي 1000 نسل با استفاده از نرم افزار QMSimشبيهسازي شد. جمعيتهاي ژنومي براي سطوح مختلف وراثتپذيري (05/0 و 2/0)، عدم تعادل پيوستگي (221/0 و 435/0) و تعداد متفاوت جايگاه صفات كمي (100 و 1000) بر روي 29 كروموزوم شبيهسازي شدند. جهت ايجاد نسبتهاي مختلف فنوتيپ آستانهاي دودويي، فنوتيپ افراد جمعيت مرجع وابسته به اين كه باقيمانده آنها كمتر از ميانگين باقيمانده (e ̅ : رويكرد اول)، e ̅〖-1SD〗_e (رويكرد دوم) يا e ̅〖+1SD〗_e باشد كد يك (فنوتيپ نامطلوب) و ساير حيوانات كد صفر (فنوتيپ مطلوب) اختصاص داده شدند. جهت آناليز دادههاي شبيهسازي شده سه مدل آماري شامل: SVM، بيز لاسو و GBLUP به كار گرفته شد.
نتايج: بهترين نرخ آستانه جمعيت مرجع هنگامي بود كه فنوتيپ نامطلوب اين مجموعه نسبتي نزديك به شرايط واقعي داشت (1〖SD〗_e-e ̅) و منجر به ايجاد بيشترين سطح زير منحني مشخصه عملكرد در روشهاي ماشين بردار پشتيباني، بيز لاسو و GBLUP شد. بيشترين (813/0) و كمترين (521/0) ميزان سطح زير منحني مشخصه عملكرد براي روش ماشين بردار پشتيباني مشاهده شد. به طور كلي وراثت پذيري صفت عاملي مؤثر بر سطح زير منحني مشخصه عملكرد ژنومي روشهاي آماري ماشين بردار پشتيباني، بيز لاسو و GBLUP بود. به طوري كه با افزايش وراثت پذيري سطح زير منحني مشخصه عملكرد ژنومي در هر سه روش آماري افزايش يافت. ميانگين LDبراي جمعيتهاي LLD و HLD در فاصله 05/0 سانتي مورگان به ترتيب 221/0 و 435/0 بود و سطح زير منحني مشخصه عملكرد ناشي از روشهاي GBLUP، بيز LASSO و ماشين بردار پشتيباني با افزايش سطح عدم تعادل پيوستگي افزايش يافت. نتايج اين تحقيق نشان داد كه سطح بالاي LD ميان QTLها و نشانگرها، باعث افزايش احتمال نمونهگيري نشانگرهاي مجاور در روشهاي باز نمونهگيري ميشود، كه اين امر عملكرد مثبت ماشين بردار پشتيباني را به همراه داشت.با وجود سطح زير منحني مشخصه عملكرد ژنومي بالاتر بيز لاسو و GBLUP در جمعيتهاي مختلف، هنگامي كه صفات گسسته توسط تعداد زيادي QTL كنترل شدند، روش ماشين بردار پشتيباني عملكرد بهتري داشت.
نتيجهگيري: عليرغم نقش مهم نرخ توزيع فنوتيپ دودويي در جمعيت مرجع، بهترين پيشبيني سطح زير منحني مشخصه عملكرد ژنومي صفات گسسته دودويي روش ماشين بردار پشتيباني به ساختار ژنتيكي جمعيت مورد آناليز و پارامتر جريمه وابسته بود.
چكيده لاتين :
Background and objectives: Many prominent traits in livestock including disease resistance and dystocia, present a classification distribution of phenotypes. These traits are important in animal breeding due to importance of animal welfare and human tendency for healthy and high quality products. Therefore, identifying and characterizing the genetic variants that impact threshold traits, ranging from disease susceptibility, is one of the central objectives of animal genetics. In this regard, genomic selection can have an important role in increasing the genetic progress of the threshold traits. The objective of current study was genomic evaluation of area under receiver operating characteristic curve (AUROC) of support vector machine (SVM), GBLUP and Bayes LASSO methods for different rates of binary phenotype distribution in training set.
Materials and methods: A population of 1000 animals genotyped for 10,000 markers was simulated using QMSim software. Genomic population were simulated to reflect variations in heritability (0.05 and 0.2), number of QTL (100 and 1000) and linkage disequilibrium (low and high) for 29 chromosomes. In order to create different rates of discrete phenotype, the animal’s phenotype of training set was coded as 1 (inappropriate phenotype) depending on whether their phenotype residuals was less than the average of residuals (e ̅), e ̅- 1〖SD〗_eor e ̅+ 1〖SD〗_efor the first, second and third approaches, respectively, and other individuals was defined as code 0 (appropriate phenotype). Three statistical models were implemented to analyze the simulated data including SVM, GBLUP and Bayes LASSO methods.
Results: Optimal training sets were characterized by inappropriate phenotype rate that were similar to the population real, leading to the highest AUROC in SVM, GBLUP and Bayes LASSO methods, in which concluded for e ̅- 1〖SD〗_e threshold point to the training set. The highest (0.813)and lowest(0.521) AUROC were observed for SVM method.Generally, heritability of trait was a factor affecting on genomic AUROC of SVM, GBLUP and Bayes LASSO methods; so that we recognized an increase in genomic AUROC with increase in heritability in all three statistical methods. Average r2 in the low and high LD scenarios was 0.221 and 0.435 at distances of 0.05 cM and the results showed an increase in genomic AUROC using GBLUP, Bayes LASOO and SVM methods with increasing in linkage disequilibrium. The result of current study showed that high level of LD between SNP and QTLs increased the probability of adjacent markers sampling for re-sampling methods. Therefore, this resulted in a positive performance of SVM. Despite of the higher AUROC of GBLUP and Bayes LASSO methods at different scenarios, SVM method showed a better performance when discrete traits were controlled by a large number of QTLs.
Conclusions: Despite the important role of different rates of binary phenotype distribution in training set, SVM method to predict genomic AUROC of discrete traits depends on genetic basis of the population analyzed and cost parameter.