شماره ركورد كنفرانس :
4418
عنوان مقاله :
كشف سرقت ادبي در متون فارسي با كمك الگوريتم SimHash
پديدآورندگان :
كامران كبري دانشگاه آزاد اسلامي , احمدي علي دانشگاه صنعتي خواجه نصيرالدين طوسي , محسن زاده مهران دانشگاه آزاد اسلامي
تعداد صفحه :
۶
كليدواژه :
سرقت ادبي , اثر انگشت , فاصله همينگ , shingling , simHash
سال انتشار :
۱۳۹۱
عنوان كنفرانس :
يازدهمين كنفرانس سراسري سيستم هاي هوشمند
زبان مدرك :
فارسي
چكيده فارسي :
دسترسي آسان به وب، پايگاه داده هاي بزرگ و به طور كلي ارتباطات از راه دور باعث شده كه سرقت ادبي به يك مشكل بزرگ براي ناشران، محققان و موسسات آموزشي تبديل شود. در زبان انگليسي اين مسئله به طور جدي مورد اهميت بوده و ابزارهاي قدرتمندي براي جلوگيري از اين مسئله تهيه شده است، اما متاسفانهتاكنون در اين باره به صورت جدي در زبان فارسي به آن پرداخته نشده است. اين مقاله به بررسي سرقت ادبي در متون فارسي بر اساس الگوريتم simhash مي پردازد. الگوريتم simhash از دسته الگوريتم هاي اثر انگشت است. ويژگي اصلي الگوريتم هاي اثر انگشت، سرعت بالاي آنها در كشف سرقت ادبي است. قبل از بكارگيري الگوريتم، مي بايست عمليات پيش پردازش شامل: حذف تگ هاي نسخه اينترنتي مقاله، جداسازي كلمات، يكسان سازي، جايگزيني اعداد, حذف واژه هاي عموميو ريشه يابي روي متون صورت گيرد. در اين مقاله simhash و shingling بررسي و با يكديگر مقايسه مي شوند. پياده سازي اين دو الگوريتم روي يك مجموعه بزرگي از مقالات ثبت شده در پايگاه داده نور، نتايج قابل قبولي را نشان مي دهد
كشور :
ايران
لينک به اين مدرک :
بازگشت