عنوان مقاله :
اﻧﺘﺨﺎب وﯾﮋﮔﯽ ﻧﯿﻤﻪﻧﻈﺎرﺗﯽ ﺗُﻨﮏ ﻣﺒﺘﻨﯽ ﺑﺮ ﻣﻨﻈﻢﺳﺎزي ﻫﺴﯿﻦ و آﻧﺎﻟﯿﺰ ﺗﺸﺨﯿﺼﯽ ﻓﯿﺸﺮ
عنوان به زبان ديگر :
Semi-supervised Sparse Feature Selection based on Hessian Regularization and Fisher Discriminant Analysis
پديد آورندگان :
شيخ پور، راضيه دانشگاه اردكان - دانشكده فني و مهندسي - گروه مهندسي كامپيوتر، اردكان، ايران
كليدواژه :
مدلهاي تُنك , انتخاب ويژگي نيمهنظارتي , منظمسازي هسين , آناليز تشخيصي فيشر , نُرم-l2 1
چكيده فارسي :
انتخاب ويژگي يكي از تكنيكهاي مهم در يادگيري ماشين و شناسايي الگو است كه با حذف ويژگيهاي نامناسب و انتخاب زيرمجموعهاي مفيد از ويژگيها باعث اجتناب از بيشبرازش در هنگام ساخت مدل، بهبود كارايي و سادگي مدل ميشود. در بسياري از كاربردها، تعيين برچسب دادهها هزينهبر بوده و مستلزم صرف زمان زيادي است، درحاليكه دادههاي بدون برچسب به آساني در دسترس هستند. بنابراين، استفاده از روشهاي انتخاب ويژگي نيمهنظارتي كه بتوانند در فرآيند انتخاب ويژگي از دادههاي برچسبدار و بدون برچسب استفاده نمايند، بسيار ارزشمند است. در اين مقاله، يك روش انتخاب ويژگي تُنك نيمهنظارتي مبتني بر منظمسازي هسين و آناليز تشخيصي فيشر پيشنهاد ميشود كه ميتواند با استفاده از دادههاي برچسبدار و اطلاعات توزيع و ساختار محلي دادههاي برچسبدار و بدون برچسب مناسبترين ويژگيها را انتخاب نمايد. در روش پيشنهادي، تابع هدفي مبتني بر ماتريس پراكندگي نيمهنظارتي و نُرم- l2,1 براي انتخاب ويژگي ارائه ميشود كه از منظمسازي هسين و آناليز تشخيصي فيشر در ساخت ماتريس پراكندگي نيمهنظارتي استفاده ميكند و همبستگي بين ويژگيها را در هنگام انتخاب ويژگي در نظر ميگيرد. براي حل تابع هدف پيشنهادي مبتني بر منظمسازي هسين و آناليز تشخيصي فيشر، الگوريتمي موثر با رويكرد تكراري به كار ميرود و همگرايي آن به صورت تئوري و عملي اثبات ميشود. نتايج بهدست آمده از آزمايشها بر روي پنج مجموعه داده حاكي از برتري روش پيشنهادي در مقايسه با ديگر روشهاي انتخاب ويژگي استفاده شده در اين مقاله است.
چكيده لاتين :
Feature selection is one of the most important techniques in machine learning and pattern recognition, which eliminates redudant features and selects a suitable subset of features. This avoids overfitting when building the model and improves the model performance. In many applications, obtaining labeled data is costly and time consuming, while unlabeled data are readily available. Therefore, semi-supervised feature selection methods can be used to consider both labeled and unlabeled data in the feature selection process. In this paper, a semi-supervised sparse feature selection method is proposed based on hessian regularization and Fisher discriminant analysis which selects the appropriate features using the labeled data and the local structure of both labeled and unlabeled data. In the proposed method, an objective function based on semi-supervised scatter matrix and l2,1-norm is presented for feature selection which considers the correlation among features. To solve the proposed objective function, an iterative algorithm is used and its convergence is experimentally and theoretically proved. The results of the experiments on five data sets indicate that the proposed method improves the selection of relevant features compared to other methods used in this paper.
عنوان نشريه :
مهندسي برق دانشگاه تبريز