شماره ركورد :
1006024
عنوان مقاله :
مطالعات درخت تصميم در برآورد ريسك ابتلا به سرطان سينه با استفاده از چند شكلي هاي تك نوكلوئيدي
عنوان به زبان ديگر :
The Studies of Decision Tree in Estimation of Breast Cancer Risk by Using Polymorphism Nucleotide
پديد آورندگان :
سيدمير، فريدا دانشگاه آزاد اسلامي واحد يزد - گروه مهندسي كامپيوتر , ميرزايي، كمال دانشگاه آزاد اسلامي واحد ميبد - گروه مهندسي كامپيوتر , بيطرف ثاني، مرتضي دانشگاه جامع علمي كاربردي - مركز تحقيقات و آموزش كشاورزي و منابع طبيعي
تعداد صفحه :
11
از صفحه :
300
تا صفحه :
310
كليدواژه :
درخت تصميم , سرطان سينه , چندشكلي تك نوكلئوتيدي
چكيده فارسي :
مقدمه: درختان تصميم از ابزارهاي داده كاوي براي جمع آوري ، پيش بيني دقيق و غربال كردن اطلاعات از حجم عظيم داده هاست كه كاربرد گسترده اي در زمينه زيست شناسي محاسباتي و بيوانفورماتيك پيدا كرده اند. در بيوانفورماتيك مي توان پيش بيني هايي بر روي بيماريها ازجمله سرطان سينه را داشت. استفاده از داده هاي zwj; ژنومي از جمله چند شكلي هاي تك نوكلئوتيدي در پيش بيني ريسك ابتلا به بيماريهاي چند عامله از اهميت خاصي برخوردار است. تعداد هفت snp مهم از بين صدها هزار ماركر ژنتيكي به عنوان عوامل مرتبط با سرطان سينه شناسايي شدند. هدف ازاين تحقيق بررسي داده هاي آموزش روي خطاي درخت تصميم پيش بيني كننده ريسك ابتلا به سرطان سينه با استفاده از ژنوتيپ چند شكلي هاي تك نوكلئوتيدي است.روش بررسي:احتمال ابتلا به سرطان سينه با استفاده از snp هاي مرتبط با فرمول [در پي دي اف] محاسبه گرديد. براي پيش بيني احتمال بيماري با استفاده از چندشكلي هاي تك نوكلئوتيدي در انسان مي توان از درختان تصميم استفاده كرد. هفت snp با نسبت هاي مختلف بخت مرتبط با سرطان سينه درنظرگرفته و كد نويسي و طراحي درخت تصميم مدل c4.5، با زبان برنامه نويسي csharp2013 انجام شد. در درخت تصميم ايجادشده با كدنويسي، چهار snp مهم مرتبط لحاظ شد. خطاي درخت تصميم دردو حالت كدنويسي و استفاده از نرم افزارwekaارزيابي و درصد دقت درخت تصميم در پيش بيني بروز سرطان سينه محاسبه گرديد. تعداد نمونه آموزش داده شده با نمونه گيري سيستماتيك استخراج گرديد. باكدنويسي، دو سناريو و همچنين با نرم افزار weka ، سه سناريو با تعداد مجموعه داده هاي مختلف، تعداد مجموعه آموزش و آزمايش مختلف، مورد ارزيابي قرار گرفت.نتايج: با روش كدنويسي در دو سناريو با افزايش درصد آموزش از 66/66 به 86/42 ، خطا از 55/56 به 9/09 كاهش يافت. همچنين با اجراي نرم افزار weka در سه سناريو با تعداد مجموعه داده هاي مختلف، تعداد مجموعه آموزش مختلف، و آزمايش مختلف با افزايش تعداد ركوردها از 81 به 2187، ميزان خطا از 48/15 به 13/46 كاهش يافت. همچنين در اكثر سناريوها درصد شيوع بيماري در ميزان خطا در كد و weka تاثيري نداشت.نتيجه گيري: نتايج نشان مي دهد با افزايش ميزان آموزش، خطاي درخت تصميم كاهش و درنتيجه دقت پيش بيني ريسك ابتلا به سرطان سينه با استفاده از درخت تصميم افزايش مي يابد. در داده هاي بيولوژي به دليل حساسيت مدلهاي پيش بيني كننده، خطاي درخت تصميم حتي با 66/66% آموزش بالا است. از طرفي با افزايش تعداد snp درخت تصميم از 4 به 7 ماركر، خطاي درخت تصميم با 70/1 % آموزش، به طور چشمگيري كاهش داشت. در مجموع مي توان گفت كه با افزايش ركوردهاي مجموعه آموزش و همچنين افزايش تعداد ويژگي snpدر درخت تصميم، دقت پيش بيني افزايش و خطا كاهش مي يابد. همچنين درصد شيوع بيماري در ميزان خطا به دليل انتخاب مجموعه هاي آموزش و آزمايش به روش سيستماتيك، در كد طراحي شده در اين تحقيق و نرم افزار موجود weka تاثيري ندارد.
چكيده لاتين :
Introduction: Decision tree is the data mining tools to collect، accurate prediction and sift information from massive amounts of data that are used widely in the field of computational biology and bioinformatics. In bioinformatics can be predict on diseases، including breast cancer. The use of genomic data including single nucleotide polymorphisms is a very important factor in predicting the risk of diseases. The number of seven important SNP among hundreds of thousands genetic markers were identified as factors associated with breast cancer. The objective of this study is to evaluate the training data on decision tree predictor error of the risk of breast cancer by using single nucleotide polymorphism genotype. Methods: The risk of breast cancer were calculated associated with the use of SNP formula:xj = fo * In human، The decision tree can be used To predict the probability of disease using single nucleotide polymorphisms .Seven SNP with different odds ratio associated with breast cancer considered and coding and design of decision tree model، C4.5، by Csharp2013 programming language were done. In the decision tree created with the coding، the four important associated SNP was considered. The decision tree error in two case of coding and using WEKA were assessment and percentage of decision tree accuracy in prediction of breast cancer were calculated. The number of trained samples was obtained with systematic sampling. With coding، two scenarios as well as software WEKA، three scenarios with different sets of data and the number of different learning and testing، were evaluated. Results: In both scenarios of coding، by increasing the training percentage from 66/66 to 86/42، the error reduced from 55/56 to 9/09. Also by running of WEKA on three scenarios with different sets of data، the number of different education، and different tests by increasing records number from 81 to 2187، the error rate decreased from 48/15 to 13/46. Also in the majority of scenarios، prevalence of the disease، had no effect on errors in the WEKA and code. Conclusion: The results suggest that with increased training، and thus the accuracy of prediction error decision tree to reduce the risk of breast cancer increases with the use of decision trees. In Biological data، decision trees error is high even with a 66/66% training. On the other hand by increasing the number of SNP from 4 to 7 decision tree، decision tree error dramatically decreased at 70/1% training. In general we can say that with increased training and increasing the number of SNP in the decision tree، the prediction accuracy increased and errors reduced. In the CODING and WEKA، percentage of disease prevalence had no significant effect on errors،” Because of selecting set of training and testing by systemic method “.
سال انتشار :
1396
عنوان نشريه :
مجله دانشگاه علوم پزشكي و خدمات بهداشتي درماني شهيد صدوقي يزد
فايل PDF :
7443947
عنوان نشريه :
مجله دانشگاه علوم پزشكي و خدمات بهداشتي درماني شهيد صدوقي يزد
لينک به اين مدرک :
بازگشت