عنوان مقاله :
مقايسه دقت الگوريتمهاي يادگيري ماشين در تخمين دادههاي گمشده حاصل از آزمايشهاي ريزآرايه DNA
عنوان به زبان ديگر :
Comparison of machine learning algorithms on missing values estimation accuracy of microarray datasets
پديد آورندگان :
مشيري، مريم نويسنده دانشكده كشاورزي,گروه علوم دامي,دانشگاه فردوسي مشهد,مشهد,ايران , , قادري زفره اي، مصطفي نويسنده دانشكده كشاورزي,گروه علوم دامي,دانشگاه ياسوج,ياسوج,ايران , , قانع گلمحمدي، فرزان نويسنده گروه زيستشناسي سيستمها,پژوهشكده بيوتكنولوژي كشاورزي,كرج,ايران ,
اطلاعات موجودي :
فصلنامه سال 1394
كليدواژه :
الگوريتمهاي بر پايه يادگيري ماشين , تخمين دادههاي گمشده , ريزآرايه
چكيده فارسي :
وجود دادههاي گمشده در دادههاي ريزآرايه، سبب كاهش دقت رسم شبكههاي تنظيمي ژن، ايجاد اشتباه در خوشه بندي و تقسيمبندي تخصصي ژنها و ساير تحليلها ميشود. بنابراين تخمين دادههاي گمشده مرحله مهمي در پيش پردازش دادههاي ريزآرايه، محسوب ميشود. عملكرد الگوريتمهاي تخمين در مجموعه دادههاي مختلف و با درصدهاي متفاوت گمشدگي، متغير است. همواره انتخاب مناسبترين الگوريتم به منظور دستيابي به بيشترين دقت در محاسبات دادههاي گمشده از اهميت خاصي برخوردار است. در اين مطالعه از سه مجموعه داده آزمايشهاي ريزآرايه استفاده شد. پس از مشخص كردن ابعاد ماتريس بياني و نرمال كردن دادهها، درصدهاي مختلفي از گمشدگي، بر مجموعه دادههاي مورد مطالعه اعمال شد. سپس نتايج حاصل با استفاده از 11 الگوريتم بر پايه يادگيري ماشين، به منظور بررسي ميزان دقت هر يك از الگوريتمها در تعيين ميزان درصد گمشدگي، مورد مقايسه قرار گرفت. بر اساس نتايج، دقت الگوريتمهاي مختلف به مجموعه داده به كار رفته، درصد گمشدگي و توزيع گمشدگي دادهها وابسته است. همچنين تعداد نمونههاي آزمايشي موجود در مجموعه دادهها نيز مي تواند بر دقت الگوريتمهاي تخمين دادههاي گمشده موثر باشد. نتايج بيانگر كاهش دقت تمامي الگوريتمها با افزايش درصد دادههاي گمشده بود، اما الگوريتمهاي Least Square Adaptive و Local least square دقت بيشتري در مقابل افزايش درصد گمشدگي دادهها نسبت به ساير الگوريتمها نشان دادند.
چكيده لاتين :
Existence of missing values in DNA microarray data would decrease the accuracy of regulatory gene networks construction and may cause mistake in clustering and classifying gene expression for downstream analysis. Therefore, missing value imputation is a pivotal step in preprocessing of DNA microarray data. Selection a proper algorithm for achieving the most accurate conclusions in missing values imputation remains to be quite compelling. In this study, three microarray datasets were used to compare the performance of different machine learning algorithms in imputing DNA microarray missing values. In this way, after determining the dimensions of matrix of expression data and normalizing the data, different missing percentages were applied on each datasets. By running 11 machine learning algorithms on these datasets, the accuracy of each algorithm under different conditions were measured. Based on the results, the accuracy of different algorithms depended on missing value percentages and its distribution in the dataset. Also, the number of experimental samples in the datasets affected the accuracy of missing values imputation algorithms. The results showed a decreasing trend in accuracy by increasing the percentage of missing data in the dataset. In general, Least Square Adaptive and Local Least Square algorithms shown to be more robust in terms of accuracy when the level of missing values percentage increased in the dataset. Therefore, we would suggest these algorithms could be considered in working out sound missing values imputation in DNA microarray data.
عنوان نشريه :
پژوهشهاي سلولي و مولكولي
عنوان نشريه :
پژوهشهاي سلولي و مولكولي
اطلاعات موجودي :
فصلنامه با شماره پیاپی سال 1394
كلمات كليدي :
#تست#آزمون###امتحان