عنوان مقاله :
روش انتخاب ويژگي براساس يادگيري زيرفضا و تجزيه ماتريس پايه براي دادههاي ميكرو-آرايهاي DNA
عنوان به زبان ديگر :
Feature Selection Method Based on Subspace Learning and Factorization of Basis Matrix for DNA Micro-Array Datasets
پديد آورندگان :
ده تقي زاده، مهلا دانشگاه تحصيلات تكميلي صنعتي و فناوري پيشرفته - دانشكده علوم و فناوريهاي نوين - گروه رياضي كاربردي، كرمان , صابري موحد، فريد دانشگاه تحصيلات تكميلي صنعتي و فناوري پيشرفته - دانشكده علوم و فناوريهاي نوين - گروه رياضي كاربردي، كرمان , افتخاري، مهدي دانشگاه شهيد باهنر كرمان - دانشكده مهندسي كامپيوتر، كرمان
كليدواژه :
داده هاي ميكرو-آرايهاي DNA , انتخاب ويژگي , يادگيري زيرفضا , تجزيه ماتريسي
چكيده فارسي :
دادههاي ميكرو-آرايهاي DNA در يادگيري ماشين و تشخيص انواع مختلف ساختارهاي سرطاني نقش مهمي را ايفا ميكنند. دادههاي ميكرو-آرايهاي، به طور معمول شامل تعداد زيادي از ويژگيها و تعداد كمي نمونه ميباشند. همچنين، اينگونه دادهها به دليل داشتن برخي ويژگيهاي نامرتبط ميتوانند موجب بيشبرازش و دقت پيشبيني پايين طبقهبند كنندهها شوند. بنابراين، آناليز دادههاي ميكرو-آرايهاي امري مهم و پرچالش در يادگيري ماشين و فناوري ژنتيك مولكولي محسوب ميشوند. راه مستقيم براي مقابله با اين چالش، كاهش بعد داده ميباشد. در اين راستا، روش انتخاب ويژگي به عنوان يك راهكار مهم براي كاهش ابعاد و افزايش كارآيي الگوريتمهاي يادگيري عمل ميكند. در اين مقاله، با استفاده از مفهوم پايه براي مجموعه دادههاي ميكرو-آرايهاي، يك روش جديد انتخاب ويژگي معرفي ميشود. به عبارت ديگر، يك پايه كه شامل يك زيرمجموعه بسيار كوچك از ژنها است، بجاي كل مجموعه دادههاي ميكرو-آرايهاي در تعريف مسئله انتخاب ويژگي استفاده ميشود. در اين روش، مسئله انتخاب ويژگي براساس ديدگاه يادگيري زيرفضا و تجزيه ماتريس پايه فرمولبندي ميشود. در نهايت، با استفاده از مجموعه دادههاي ميكرو-آرايهاي DNA، كارايي روش پيشنهادي بررسي ميشود و نتايج بدست آمده با چند روش انتخاب ويژگي مشهور با نظارت مقايسه ميشوند.
چكيده لاتين :
DNA micro-array datasets play crucial role in machine learning and recognition of various kinds of cancer structures. Micro-array datasets are typically characterized by the high number of features and the small number of samples. Such problems may result in overfitting and low prediction accuracy of classifiers due to the irrelevant features, and therefore, they are considered as a challenging task in machine learning. The direct way to deal with such challenges is dimensionality reduction of data. In this regard, feature selection method acts as an effective solution for dimensinality reduction and increasing efficiency of learning algorithms. In this paper, by using the concept of “the basis for the DNA micro-array datasets”, a new feature selection method is introduced. To be more specific, rather than utilizing the entire micro-array dataset for tackling the problem of feature selection, a basis that is a much more smaller subset of the micro-array dataset is used. This method is based on subspace learning and matrix factorization. Finally, by making use of the DNA micro-array datasets, the effectiveness of the proposed method is evaluated, and the obtained results are compared with some state-of-the-art supervised feature selection methods.
عنوان نشريه :
مهندسي پزشكي زيستي