مقايسه دقت الگوريتم‌هاي يادگيري ماشين در تخمين داده‌هاي گمشده حاصل از آزمايش‌هاي ريزآرايه DNA

عنوان به زبان ديگر

Comparison of machine learning algorithms on missing values estimation accuracy of microarray datasets

پديد آورندگان

مشيري، مريم نويسنده دانشكده كشاورزي,گروه علوم دامي,دانشگاه فردوسي مشهد,مشهد,ايران , , قادري زفره اي، مصطفي نويسنده دانشكده كشاورزي,گروه علوم دامي,دانشگاه ياسوج,ياسوج,ايران , , قانع گلمحمدي، فرزان نويسنده گروه زيست‌شناسي سيستم‌ها,پژوهشكده بيوتكنولوژي كشاورزي,كرج,ايران ,

اطلاعات موجودي

فصلنامه سال 1394

رتبه نشريه

علمي پژوهشي

تعداد صفحه

از صفحه

612

تا صفحه

622

كليدواژه

الگوريتم‌هاي بر پايه يادگيري ماشين , تخمين داده‌هاي گمشده , ريزآرايه

چكيده فارسي

وجود داده‌هاي گمشده در داده‌هاي ريزآرايه، سبب كاهش دقت رسم شبكه‌هاي تنظيمي ژن، ايجاد اشتباه در خوشه بندي و تقسيم‌بندي تخصصي ژن‌ها و ساير تحليل‌ها مي‌شود. بنابراين تخمين دادههاي گمشده مرحله مهمي در پيش پردازش داده‌هاي ريزآرايه، محسوب مي‌شود. عملكرد الگوريتمهاي تخمين در مجموعه داده‌هاي مختلف و با درصدهاي متفاوت گمشدگي، متغير است. همواره انتخاب مناسب‌ترين الگوريتم به منظور دستيابي به بيشترين دقت در محاسبات داده‌هاي گمشده از اهميت خاصي برخوردار است. در اين مطالعه از سه مجموعه داده آزمايش‌هاي ريزآرايه استفاده شد. پس از مشخص كردن ابعاد ماتريس بياني و نرمال كردن داده‌ها، درصدهاي مختلفي از گمشدگي، بر مجموعه داده‌هاي مورد مطالعه اعمال شد. سپس نتايج حاصل با استفاده از 11 الگوريتم بر پايه يادگيري ماشين، به منظور بررسي ميزان دقت هر يك از الگوريتم‌ها در تعيين ميزان درصد گمشدگي، مورد مقايسه قرار گرفت. بر اساس نتايج، دقت الگوريتم‌هاي مختلف به مجموعه داده به كار رفته، درصد گمشدگي و توزيع گمشدگي داده‌ها وابسته است. همچنين تعداد نمونه‌هاي آزمايشي موجود در مجموعه داده‌ها نيز مي تواند بر دقت الگوريتم‌هاي تخمين داده‌هاي گمشده موثر باشد. نتايج بيانگر كاهش دقت تمامي الگوريتم‌ها با افزايش درصد داده‌هاي گمشده بود، اما الگوريتم‌هاي Least Square Adaptive و Local least square دقت بيشتري در مقابل افزايش درصد گمشدگي داده‌ها نسبت به ساير الگوريتم‌ها نشان دادند.

چكيده لاتين

Existence of missing values in DNA microarray data would decrease the accuracy of regulatory gene networks construction and may cause mistake in clustering and classifying gene expression for downstream analysis. Therefore, missing value imputation is a pivotal step in preprocessing of DNA microarray data. Selection a proper algorithm for achieving the most accurate conclusions in missing values imputation remains to be quite compelling. In this study, three microarray datasets were used to compare the performance of different machine learning algorithms in imputing DNA microarray missing values. In this way, after determining the dimensions of matrix of expression data and normalizing the data, different missing percentages were applied on each datasets. By running 11 machine learning algorithms on these datasets, the accuracy of each algorithm under different conditions were measured. Based on the results, the accuracy of different algorithms depended on missing value percentages and its distribution in the dataset. Also, the number of experimental samples in the datasets affected the accuracy of missing values imputation algorithms. The results showed a decreasing trend in accuracy by increasing the percentage of missing data in the dataset. In general, Least Square Adaptive and Local Least Square algorithms shown to be more robust in terms of accuracy when the level of missing values percentage increased in the dataset. Therefore, we would suggest these algorithms could be considered in working out sound missing values imputation in DNA microarray data.

سال انتشار

1394

عنوان نشريه

پژوهشهاي سلولي و مولكولي

عنوان نشريه

پژوهشهاي سلولي و مولكولي

اطلاعات موجودي

فصلنامه با شماره پیاپی سال 1394

كلمات كليدي

#تست#آزمون###امتحان

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=899803