شماره ركورد كنفرانس :
4058
عنوان مقاله :
تشخيص وبسايت هاي صياد با استفاده از فاصله لِوِن اِشتاين فراوان ترين كلمات با دامنه صفحه
پديدآورندگان :
محمودي عماد emad.mahmodi@mail.um.ac.ir دانشگاه فردوسي مشهد،گروه مهندسي كامپيوتر، آزمايشگاه امنيت داده ها و ارتباطات , قائمي بافقي عباس ghaemib@um.ac.ir دانشگاه فردوسي مشهد،گروه مهندسي كامپيوتر، آزمايشگاه امنيت داده ها و ارتباطات
كليدواژه :
تشخيص حملات صياد , فاصله ي لون اشتاين , شناسه ي صفحه , تشخيص هدف صياد , موتور جست وجو
عنوان كنفرانس :
چهاردهمين كنفرانس بين المللي انجمن رمز ايران
چكيده فارسي :
حملات صياد با بكارگيري صفحات جعلي بدنبال بدست آوردن اطلاعات شخصي افراد است. نرخ رشد صفحات جعلي مدام درحال افزايش است و صيادان با استفاده از شيوه هاي متفاوت به دنبال قانع كردن كاربران و سوق دادن آنها به اين صفحات هستند. برخي شيوه هاي تشخيص مبتني بر ليست مي باشد ولي بروز نگه داشتن ليست و مصرف زمان و حافظه براي آن دشوار است. شيوه هاي متفاوتي براساس يادگيري ماشين براي برخورد با اين گونه حملات وجود دارد كه عموما داراي پيچيدگي زياد و اجراي زمانبر هستند.
استخراج شناسه از روي كلمات كليدي و بررسي نتايج جست وجو در اينترنت يكي از روشهايي است كه علي رغم دقت بالا، داراي كارايي بالايي نمي باشد .
طرح تشخيص پيشنهادي در اين مقاله شامل سه فاز استخراج اطلاعات صفحه، تعيين شناسه صفحه و اصالت سنجي است. ابتدا بهترين لغات مبتني بر فراواني وزني و فاصله ي لِوِنِ اِشتاين از صفحات استخراج و سپس با استفاده از دسته قواعد، بهترين شناسه ي صفحه مشخص مي گردد و در نهايت شناسه ي استخراج شده به موتور جست وجوي گوگل جهت تشخيص اصالت صفحه داده مي شود. براي ارزيابي و مقايسه ي طرح پيشنهادي با مقاله ي پايه، آنها را بر روي يك سيستم با پردازنده ي 7 هسته اي 46 بيتي با 8گيگابايت فضاي حافظه ي اصلي پياده سازي و برروي مجموعه داده ي اصلي و جعلي از منبع Alexa و Phishtank اآزمايش شده است .
نرخ تشخيص درست صفحات اصلي و جعلي بترتيب 97/2%و 99/31% بوده كه نرخ تشخيص درست صفحات اصلي در حدود 4 درصد بهبود يافته است. از طرفي ، ميانگين زمان اجرايي طرح پيشنهادي براي شناسايي 1500 صفحه 327 ميلي ثانيه است كه حدود 20 برابر بهبود يافته است .