شماره ركورد كنفرانس :
5405
عنوان مقاله :
شناسايي و بازشناسي متن از تصاوير در جهات مختلف با استفاده از چارچوب خط لوله جديد
عنوان به زبان ديگر :
text detection and recognition from images in multi orientations using a new pipeline framework
پديدآورندگان :
نعيمي فاطمه daneshjo_naimi@yahoo.com دانشگاه فني و حرفه اي
كليدواژه :
شناسايي و تشخيص خودكار متن , متن صحنه واقعي , استخراج ويژگيهاي ديداري
عنوان كنفرانس :
دومين كنفرانس ملي كسب و كار نوين در مهندسي برق و كامپيوتر
چكيده فارسي :
شناسايي و تشخيص خودكار متن (تشخيص يكپارچه متن ) از تصاوير در زندگي واقعي، يك عنصر اصلي در مجموعه متنوعي از برنامههاي سيستم هوشمند از جمله سيستمهاي دستيار بينايي و اتومبيلراني خودكار است. عناصر اصلي بسياري از برنامه ها از جمله سيستم هاي كمكي و ديد كم كور و اتومبيلهاي خودران است. چكيده: اجراي PVANET به دليل استفاده از لايه Inception نتيجه بسيار خوبي را در بسياري از برنامهها كسب كرده است. بااينحال، در روشهاي تشخيص متن صحنه واقعي، PVANET معمولاً بايد با دقت بيشتري طراحي شود تا استحكام محلي سازي متن را بهبود بخشد. در اين مقاله از ساختار PVANET براي استخراج ويژگيهاي ديداري سطح پايين استفاده ميشود. همچنين از يك لايه اضافي براي بهبود استخراج ويژگي استفاده شده است. بلوك m.ReLU و لايه Inception بهينهشدهاند تا حداكثر اطلاعات حياتي را كشف كنند. مشاهده شده است كه لايههاي Inception (كانولوشن 3* 3 يا كرنلهاي بزرگتر) ميتوانند متن متنوع با ابعاد مختلف را بهطور مؤثرتر از زنجيره خطي از لايههاي كانولوشني شناسايي نمايند. در اين مقاله از دو پايگاه داده مشهور ICDAR 2017 و ICDAR 2003 جهت بررسي نتايج استفاده گرديده است. نتايج شناسايي متن در هر دو پايگاه داده نشان ميدهد كه رويكرد پيشنهادي، عملكرد قابل ملاحظهاي در بهبود شناسايي متن به دست ميآورد.