شماره ركورد كنفرانس :
4148
عنوان مقاله :
بررسي تأثير كاهش ويژگي بر افزايش نرخ دقت تشخيص صفحات وب هرز
پديدآورندگان :
سليماني ايوري علي solimani_ali@shahroodut.ac.ir دانشگاه صنعتي شاهرود , اصدقي فائزه asdaghi@shahroodut.ac.ir دانشگاه صنعتي شاهرود
كليدواژه :
وب اسپم , انتخاب ويژگي , روشهاي جستجو , ارزيابي ويژگي.
عنوان كنفرانس :
سومين كنفرانس ملي پردازش سيگنال و سيستم هاي هوشمند
چكيده فارسي :
وب اسپم روشي غيرقانوني و غيراخلاقي به منظور افزايش رتبه صفحات اينترنتي توسط فريب الگوريتمهاي موتورهاي جستجو است. از آنجا كه كيفيت نتايج براي موتورهاي جستجو اهميت بسياري دارد، ويژگيهاي زيادي جهت تشخيص صفحات وب هرز پيشنهاد شده است. چالشي كه تنوع ويژگيها با آن روبرو است افزايش ابعاد ويژگي و در نتيجه كاهش نرخ تشخيص است. به همين دليل استفاده از روشهاي كاهش ويژگي به عنوان يك پيش پردازش امري اجتنابناپذير به نظر ميرسد. در اين مقاله سعي داريم با بررسي ويژگيهاي مستخرج از صفحات وب و انتخاب زيرمجموعهاي مناسب از آنها، نرخ تشخيص صفحات وبهرز را افزايش دهيم. بدين منظور ابتدا با استفاده از 11 روش جستجو و هشت معيار ارزيابي، 26 زيرمجموعه مختلف از مجموع كليه ويژگيها انتخاب شد. سپس با استفاده از الگوريتم Naïve Bayes ميزان كارايي و مؤثر بودن هر يك از اين زيرمجموعهها در تشخيص صفحات وبهرز با استفاده از معياري به نام IBA اندازهگيري شد. نتايج اين بررسي كه با استفاده از ابزار weka و بر روي مجموعه داده معتبر WEBSPAM-UK2007 صورت گرفت نشان داد كه از مجموع 275 ويژگي موجود در اين پايگاه داده، 32 ويژگي كه با روش جستجوي رتبهبندي و معيار chi square انتخاب شدهاند باعث بهبود عملكرد طبقهبندي و افزايش آن از 337/0به 0.369 شد.