شماره ركورد كنفرانس :
4004
عنوان مقاله :
بازشناسي فونت متنهاي فارسي با استفاده از خوشه بندي FCM
پديدآورندگان :
نجفي فرشاد f.najafi@gu.ac.ir دانشجوي كارشناسي ارشد مهندسي برق دانشگاه گلستان , زيارتبان مجيد m.ziaratban@gu.ac.ir استاديار گروه مهندسي برق دانشگاه گلستان گرگان
كليدواژه :
اجزاي پرتكرار , نرخ تشخيص , خوشه هاي پرتكرار , FCM
عنوان كنفرانس :
دومين همايش ملي محاسبات تكاملي و هوش جمعي
چكيده فارسي :
به منظور بازشناسي كلمات و محتواي يك متن چاپي، ابتدا بايد فونت متن تشخيص داده شود تا با كاهش تنوع كلاسي و كاهش پيچيدگي طبقهبندي، دقت بالاتري براي بازشناسي كلمات به دست آيد. در اين مقاله يك راه حل مبتني بر بدنه اصلي شبه كلمات براي تشخيص فونت در صفحات متون چاپي فارسي ارائه شده است. در ابتدا اجزاي به هم پيوسته استخراج ميشوند، سپس اجزاي اضافي مانند نقاط و علامتها و نويز حذف ميشود. بردارهاي ويژگي مناسب به منظور خوشهبندي شبه كلمات، استخراج و با استفاده از الگوريتم FCM(Fuzzy c-mean) خوشهبندي ميشوند. خوشههايي با بيشترين عضو به عنوان نمايندههاي آن متن انتخاب ميشوند. آزمايشها نشان ميدهند استفاده از تعدادي از خوشههاي بزرگ، سرعت اجراي الگوريتم و تشخيص فونت براي يك صفحه را به طور قابل ملاحظهاي افزايش خواهد داد. تعدادي از نمونههاي متعلق به خوشههاي بزرگتر انتخاب شده و ويژگيهاي مناسب براي تطبيق با نمونههاي مجموعه آموزش استخراج ميشود. فونت بهترين تطبيق نمونههاي آموزش، به نمونه آزمايش موردنظر منتسب ميشود. درنهايت، فونتي به عنوان فونت متن انتخاب ميشود كه در بين فونتهاي بازشناسي شده براي نمونههاي آن متن، بيشترين تكرار را به خود اختصاص داده باشد.