شماره ركورد كنفرانس :
4148
عنوان مقاله :
بررسي تأثير كاهش ويژگي بر افزايش نرخ دقت تشخيص صفحات وب هرز
پديدآورندگان :
سليماني ايوري علي solimani_ali@shahroodut.ac.ir دانشگاه صنعتي شاهرود , اصدقي فائزه asdaghi@shahroodut.ac.ir دانشگاه صنعتي شاهرود
تعداد صفحه :
5
كليدواژه :
وب اسپم , انتخاب ويژگي , روش‌هاي جستجو , ارزيابي ويژگي.
سال انتشار :
1396
عنوان كنفرانس :
سومين كنفرانس ملي پردازش سيگنال و سيستم هاي هوشمند
زبان مدرك :
فارسي
چكيده فارسي :
وب اسپم روشي غيرقانوني و غيراخلاقي به منظور افزايش رتبه صفحات اينترنتي توسط فريب الگوريتم‌هاي موتورهاي جستجو است. از آنجا كه كيفيت نتايج براي موتورهاي جستجو اهميت بسياري دارد، ويژگي‌هاي زيادي جهت تشخيص صفحات وب هرز پيشنهاد شده است. چالشي كه تنوع ويژگي‌ها با آن روبرو است افزايش ابعاد ويژگي و در نتيجه كاهش نرخ تشخيص است. به همين دليل استفاده از روش‌هاي كاهش ويژگي به عنوان يك پيش پردازش امري اجتناب‌ناپذير به نظر مي‌رسد. در اين مقاله سعي داريم با بررسي ويژگي‌هاي مستخرج از صفحات وب و انتخاب زيرمجموعه‌اي مناسب از آنها، نرخ تشخيص صفحات وب‌هرز را افزايش دهيم. بدين منظور ابتدا با استفاده از 11 روش جستجو و هشت معيار ارزيابي، 26 زيرمجموعه مختلف از مجموع كليه ويژگي‌ها انتخاب شد. سپس با استفاده از الگوريتم Naïve Bayes ميزان كارايي و مؤثر بودن هر يك از اين زيرمجموعه‌ها در تشخيص صفحات وب‌هرز با استفاده از معياري به نام IBA اندازه‌گيري شد. نتايج اين بررسي كه با استفاده از ابزار weka و بر روي مجموعه داده معتبر WEBSPAM-UK2007 صورت گرفت نشان داد كه از مجموع 275 ويژگي موجود در اين پايگاه داده، 32 ويژگي كه با روش جستجوي رتبه‌بندي و معيار chi square انتخاب شده‌اند باعث بهبود عملكرد طبقه‌بندي و افزايش آن از 337/0به 0.369 شد.
كشور :
ايران
لينک به اين مدرک :
بازگشت