عنوان مقاله :
ارائه روش انتخاب ويژگي مبتني بر خوشه بندي در مسئله تشخيص هرزنامه
پديد آورندگان :
نصرتي ، وحيد دانشگاه اراك - دانشكده فني و مهندسي , رحماني ، محسن دانشگاه اراك - دانشكده فني و مهندسي
كليدواژه :
انتخاب ويژگي , ايميل , خوشه بندي , دسته بندي , كاهش ويژگي , هرزنامه
چكيده فارسي :
يكي از راه هاي تشخيص هرزنامه، دسته بندي ايميل ها به دو دسته هرزنامه و غيرهرزنامه است. كارايي بالاي روشهاي يادگيري ماشين در مسائل گوناگون، باعث توسعه وسيع آنها در دستهبندي متون شده است. استفاده از يك سازوكار كاهش ويژگي كارآمد در الگوريتمهاي يادگيري ماشين مبتني بر محتوا بهمنظور استخراج يك بردار ويژگي كارآمد از ميان تعداد بسيار زيادي ايميل نقش مهمي دارد. برخلاف روشهاي پيشين كه فقط ويژگيهاي برتر را انتخاب كرده و باقي ويژگيها را ناديده ميگيرند، در روش پيشنهادي در اين مقاله سعي شده است از ويژگيهاي انتخابنشده نيز استفاده شود. روش كار به اين صورت است كه ابتدا يك انتخاب ويژگي اوليه اعمال شده و تعدادي ويژگي انتخاب ميشود. سپس، ويژگيهاي انتخابنشده خوشهبندي شده و هر خوشه به يك ويژگي جديد نگاشت ميشود و بردار ويژگي نهايي شامل ويژگيهاي انتخابشده و ويژگيهاي نگاشتشده از هر خوشه خواهد بود. در پژوهش حاضر، با اعمال دو روش انتخاب ويژگي اوليه و همچنين دو تابع نگاشت ويژگيهاي خوشه، در مجموع، چهار روش ارائه شد و نتايج با استفاده از دو پايگاه داده PU2 و PU3 تجزيه و تحليل شدند. نتايج حاصل از تجزيه و تحليل انجامشده نشان داد كه روش مبتني بر انتخاب ويژگي اوليه DF و تابع نگاشت پيشرفته، در بين كليه روشهاي پيشنهادي، داراي بالاترين كارايي است. همچنين، روشهاي پيشنهادي در مقايسه با انتخاب ويژگي اوليه (بدون خوشهبندي) داراي كارايي بهتري هستند.
عنوان نشريه :
مديريت اطلاعات
عنوان نشريه :
مديريت اطلاعات