عنوان مقاله :
يك الگوريتم انتخاب ويژگي برخط در جريان دادهها با استفاده از اطلاعات متقابل چندمتغيره
عنوان به زبان ديگر :
A Feature Selection Algorithm in Online Stream Dataset Based on Multivariate Mutual Information
پديد آورندگان :
رحماني نيا، مريم دانشگاه آزاد اسلامي واحد قصرشيرين - گروه مهندسي كامپيوتر , مرادي، پرهام دانشگاه كردستان - گروه مهندسي كامپيوتر
كليدواژه :
انتخاب ويژگي , داده هاي آموزشي برخط , اطلاعات متقابل , متغير تصادفي مشترك
چكيده فارسي :
امروزه در بسياري از مسايل دنياي واقعي همچون شبكههاي اجتماعي، با جريان داده مواجه هستيم كه در هر لحظه داده جديدي به مجموعه دادههاي موجود اضافه ميشود. از آنجا كه كارايي بيشتر الگوريتمهاي دادهكاوي با افزايش ابعاد دادهها كاهش مييابد، تحليل اين جريان دادهها در سالهاي اخير به يكي از مسايل مهم در دادهكاوي تبديل شده است. روشهاي انتخاب ويژگي در جريان دادههاي برخط، روشهاي كارآمدي هستند كه با حذف ويژگيهاي افزونه و نامربوط باعث كاهش ابعاد كلان دادهها و در نتيجه بهبود كارايي الگوريتمها ميشوند. از چالشهاي اساسي در رابطه با الگوريتمهاي انتخاب ويژگي برخط، در دسترس نبودن همه دادهها قبل از شروع الگوريتم، مقياسپذيري، دقت ويژگيهاي انتخابشده و اندازه زيرمجموعه انتخابي را ميتوان نام برد. تا كنون الگوريتمهاي انتخاب ويژگي موجود تنها توانستهاند بخش محدودي از اين چالشها را به صورت همزمان مرتفع كنند. به همين منظور در اين مقاله يك راهكار انتخاب ويژگي برخط به نام MMIOSFS با استفاده از اطلاعات متقابل ارائه دادهايم كه حد واسط بهتري را ميان چالشهاي ذكرشده به دست ميآورد. در روش پيشنهادي در ابتدا مجموعه ويژگيها با استفاده از تكنيك متغيرهاي تصادفي توأم به يك ويژگي نگاشت و سپس اطلاعات متقابل ويژگي جديد با برچسب به عنوان ميزان ارتباط مجموعه ويژگيهاي اوليه در نظر گرفته ميشود. كارايي روش پيشنهادي با چند الگوريتم انتخاب ويژگي برخط با استفاده از دستهبندهاي مختلف مورد ارزيابي قرار گرفته و نتايج به دست آمده نشان ميدهد الگوريتم پيشنهادي معمولاً حد واسط بهتري ميان چالشها به دست ميآورد.
چكيده لاتين :
Today, in many real-world applications, such as social networks, we are faced with data streams which new data is appeared every moment. Since the efficiency of most data mining algorithms decreases with increasing data dimensions, analysis of the data has become one of the most important issues recently. Online stream feature selection is an effective approach which aims at removing those of redundant features and keeping relevant ones, leads to reduce the size of the data and improve the accuracy of the online data mining methods. There are several critical issues for online stream feature selection methods including: unavailability of the entire feature set before starting the algorithm, scalability, stability, classification accuracy, and size of selected feature set. So far, existing methods have only been able to address a few numbers of these issues simultaneously. To this end, in this paper, we present an online feature selection method called MMIOSFS that provides a better tradeoff between these challenges using Mutual Information. In the proposed method, first the feature set is mapped to a new feature using joint Random variables technique, then the mutual information of new feature with the class label is computed as the degree of relationship between the features set. The efficiency of the proposed method was compared to several online feature selection algorithms based on different categories. The results show that the proposed method usually achieves better tradeoff between the mentioned challenges.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران