مرکز منطقه ای اطلاع رساني علوم و فناوري - تشخيص سرقت علمي اسناد فارسي با رويكرد مبتني بر گراف

چكيده فارسي :

در اين مقاله روشي نوين براي تشخيص سرقت علمي در اسناد فارسي ارائه شده است. اين روش از ساختار گراف و يكي از روش‌هاي تشابه گراف (روش تكرار در مشابهت گره ها) براي يافتن تشابه در دو سند متني به زبان فارسي استفاده مي‌كند. در اين روش ابتدا دوتايي هاي سند مشكوك به سرقت علمي را بدست مي آوريم و با دوتايي هاي اسناد ذخيره شده در پايگاه داده مقايسه مي‌كنيم، اگر تعداد دوتايي هاي مشترك در دو سند از حد آستانه مشخص بيشتر باشد اين دو سند براي تشخيص وجود يا عدم وجود سرقت علمي به عنوان ورودي تابع تشخيص سرقت علمي انتخاب مي‌شوند. در اين تابع ابتدا سندها به گراف‌هايي داراي ساختار منظم تبديل مي‌شوند، سپس به كمك روش تشابه وجود همسايگان مشترك در دو گراف، وجود سرقت علمي يا عدم وجود سرقت علمي، به عنوان خروجي اين تابع حاصل مي شود. پس از اجراي روش پيشنهادي روي دو مجموعه داده، معيار F، اين روش نسبت به روش مبتني بر n-گرام نرم افزار مشابه ياب سميم نور، 20 درصد روي مجموعه داده اول (سرقت علمي از نوع معنايي) و 13 درصد روي مجموعه داده اول (شامل انواع سرقت علمي)، بهبود يافته است. همچنين توانايي اين روش براي مقابله با داده نويز بيشتر مي‌باشد.