شماره ركورد :
1395379
عنوان مقاله :
ارائه روش انتخاب ويژگي مبتني بر خوشه‌ بندي در مسئله تشخيص هرزنامه
پديد آورندگان :
نصرتي ، وحيد دانشگاه اراك - دانشكده فني و مهندسي , رحماني ، محسن دانشگاه اراك - دانشكده فني و مهندسي
از صفحه :
202
تا صفحه :
224
كليدواژه :
انتخاب ويژگي , ايميل , خوشه ‌بندي , دسته ‌بندي , كاهش ويژگي , هرزنامه
چكيده فارسي :
يكي از راه‌ هاي تشخيص هرزنامه، دسته ‌بندي ايميل ‌ها به دو دسته هرزنامه و غيرهرزنامه است. كارايي بالاي روش‌هاي يادگيري ماشين در مسائل گوناگون، باعث توسعه وسيع آنها در دسته‌بندي متون شده است. استفاده از يك سازوكار كاهش ويژگي كارآمد در الگوريتم‌هاي يادگيري ماشين مبتني بر محتوا به‎‏منظور استخراج يك بردار ويژگي كارآمد از ميان تعداد بسيار زيادي ايميل نقش مهمي دارد. برخلاف روش‌هاي پيشين كه فقط ويژگي‌هاي برتر را انتخاب كرده و باقي ويژگي‌ها را ناديده مي‌گيرند، در روش پيشنهادي در اين مقاله سعي شده است از ويژگي‌هاي انتخاب‌نشده نيز استفاده شود. روش كار به اين صورت است كه ابتدا يك انتخاب ويژگي اوليه اعمال شده و تعدادي ويژگي انتخاب مي‌شود. سپس، ويژگي‌هاي انتخاب‎نشده خوشه‌بندي شده و هر خوشه به يك ويژگي جديد نگاشت مي‌شود و بردار ويژگي نهايي شامل ويژگي‌هاي انتخاب‎شده و ويژگي‌هاي نگاشت‎شده از هر خوشه خواهد بود. در پژوهش حاضر، با اعمال دو روش انتخاب ويژگي اوليه و همچنين دو تابع نگاشت ويژگي‌هاي خوشه، در مجموع، چهار روش ارائه شد و نتايج با استفاده از دو پايگاه داده PU2 و PU3 تجزيه و تحليل شدند. نتايج حاصل از تجزيه ‌و تحليل انجام‎شده نشان داد كه روش مبتني بر انتخاب ويژگي اوليه DF و تابع نگاشت پيشرفته، در بين كليه روش‌هاي پيشنهادي، داراي بالاترين كارايي است. همچنين، روش‏هاي پيشنهادي در مقايسه با انتخاب ويژگي اوليه (بدون خوشه‌بندي) داراي كارايي بهتري هستند.
عنوان نشريه :
مديريت اطلاعات
عنوان نشريه :
مديريت اطلاعات
لينک به اين مدرک :
بازگشت