تشخيص وبسايت هاي صياد با استفاده از فاصله لِوِن اِشتاين فراوان ترين كلمات با دامنه صفحه

پديدآورندگان

محمودي عماد emad.mahmodi@mail.um.ac.ir دانشگاه فردوسي مشهد،گروه مهندسي كامپيوتر، آزمايشگاه امنيت داده ها و ارتباطات , قائمي بافقي عباس ghaemib@um.ac.ir دانشگاه فردوسي مشهد،گروه مهندسي كامپيوتر، آزمايشگاه امنيت داده ها و ارتباطات

تعداد صفحه

كليدواژه

تشخيص حملات صياد , فاصله ي لون اشتاين , شناسه ي صفحه , تشخيص هدف صياد , موتور جست وجو

سال انتشار

1396

عنوان كنفرانس

چهاردهمين كنفرانس بين المللي انجمن رمز ايران

زبان مدرك

فارسي

چكيده فارسي

حملات صياد با بكارگيري صفحات جعلي بدنبال بدست آوردن اطلاعات شخصي افراد است. نرخ رشد صفحات جعلي مدام درحال افزايش است و صيادان با استفاده از شيوه هاي متفاوت به دنبال قانع كردن كاربران و سوق دادن آنها به اين صفحات هستند. برخي شيوه هاي تشخيص مبتني بر ليست مي باشد ولي بروز نگه داشتن ليست و مصرف زمان و حافظه براي آن دشوار است. شيوه هاي متفاوتي براساس يادگيري ماشين براي برخورد با اين گونه حملات وجود دارد كه عموما داراي پيچيدگي زياد و اجراي زمانبر هستند. استخراج شناسه از روي كلمات كليدي و بررسي نتايج جست وجو در اينترنت يكي از روشهايي است كه علي رغم دقت بالا، داراي كارايي بالايي نمي باشد . طرح تشخيص پيشنهادي در اين مقاله شامل سه فاز استخراج اطلاعات صفحه، تعيين شناسه صفحه و اصالت سنجي است. ابتدا بهترين لغات مبتني بر فراواني وزني و فاصله ي لِوِنِ اِشتاين از صفحات استخراج و سپس با استفاده از دسته قواعد، بهترين شناسه ي صفحه مشخص مي گردد و در نهايت شناسه ي استخراج شده به موتور جست وجوي گوگل جهت تشخيص اصالت صفحه داده مي شود. براي ارزيابي و مقايسه ي طرح پيشنهادي با مقاله ي پايه، آنها را بر روي يك سيستم با پردازنده ي 7 هسته اي 46 بيتي با 8گيگابايت فضاي حافظه ي اصلي پياده سازي و برروي مجموعه داده ي اصلي و جعلي از منبع Alexa و Phishtank اآزمايش شده است . نرخ تشخيص درست صفحات اصلي و جعلي بترتيب 97/2%و 99/31% بوده كه نرخ تشخيص درست صفحات اصلي در حدود 4 درصد بهبود يافته است. از طرفي ، ميانگين زمان اجرايي طرح پيشنهادي براي شناسايي 1500 صفحه 327 ميلي ثانيه است كه حدود 20 برابر بهبود يافته است .

كشور

ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=221024