شماره ركورد كنفرانس :
4004
عنوان مقاله :
بازشناسي فونت متن‌هاي فارسي با استفاده از خوشه بندي FCM
پديدآورندگان :
نجفي فرشاد f.najafi@gu.ac.ir دانشجوي كارشناسي ارشد مهندسي برق دانشگاه گلستان , زيارت‌بان مجيد m.ziaratban@gu.ac.ir استاديار گروه مهندسي برق دانشگاه گلستان گرگان
تعداد صفحه :
6
كليدواژه :
اجزاي پرتكرار , نرخ تشخيص , خوشه هاي پرتكرار , FCM
سال انتشار :
1395
عنوان كنفرانس :
دومين همايش ملي محاسبات تكاملي و هوش جمعي
زبان مدرك :
فارسي
چكيده فارسي :
به‌ منظور بازشناسي كلمات و محتواي يك متن چاپي، ابتدا بايد فونت متن تشخيص داده شود تا با كاهش تنوع كلاسي و كاهش پيچيدگي طبقه‌بندي، دقت بالاتري براي بازشناسي كلمات به دست آيد. در اين مقاله يك ‌راه حل مبتني بر بدنه اصلي شبه كلمات براي تشخيص فونت در صفحات متون چاپي فارسي ارائه‌ شده است. در ابتدا اجزاي به‌ هم ‌پيوسته استخراج مي‌شوند، سپس اجزاي اضافي مانند نقاط و علامت‌ها و نويز حذف مي‌شود. بردارهاي ويژگي مناسب به‌ منظور خوشه‌بندي شبه كلمات، استخراج و با استفاده از الگوريتم FCM(Fuzzy c-mean) خوشه‌بندي مي‌شوند. خوشه‌هايي با بيشترين عضو به ‌عنوان نماينده‌هاي آن متن انتخاب مي‌شوند. آزمايش‌ها نشان مي‌دهند استفاده از تعدادي از خوشه‌هاي بزرگ، سرعت اجراي الگوريتم و تشخيص فونت براي يك صفحه را به‌ طور قابل‌ ملاحظه‌اي افزايش خواهد داد. تعدادي از نمونه‌هاي متعلق به خوشه‌هاي بزرگ‌تر انتخاب ‌شده و ويژگي‌هاي مناسب براي تطبيق با نمونه‌هاي مجموعه آموزش استخراج مي‌شود. فونت بهترين تطبيق نمونه‌هاي آموزش، به نمونه آزمايش موردنظر منتسب مي‌شود. درنهايت، فونتي به‌ عنوان فونت متن انتخاب مي‌شود كه در بين فونت‌هاي بازشناسي شده براي نمونه‌هاي آن متن، بيشترين تكرار را به خود اختصاص داده باشد.
كشور :
ايران
لينک به اين مدرک :
بازگشت