عنوان مقاله :
جداسازي سطرهاي دستنويس مستقل از زبان نوشتار با استفاده از فيلترهاي جهتي دوبُعدي
عنوان به زبان ديگر :
Script-Independent Handwritten Text line Segmentation Using Directional 2D Filters
پديد آورندگان :
زيارت بان، مجيد دانشگاه گلستان - دانشكده مهندسي - گروه مهندسي برق، گرگان
كليدواژه :
جداسازي سطرها , متن دستنويس , روش مستقل از زبان نوشتاري , فيلترهاي جهتي دوبعدي
چكيده فارسي :
جداسازي سطرها بخش مهمي از الگوريتم هاي بازشناسي متن است. به منظور تحليل و بازشناسي يك متن، ابتدا بايد سطرهاي
نوشته شده از يكديگر جدا شوند. جداسازي سطرها در متن هاي دست نويس بسيار سخت تر از متن هاي تايپي است. سطرهاي منحني شكل و با زاويه هاي مختلف نسبت به محور افقي، سطرهاي داراي همپوشاني و سطرهاي بسيار كوتاه مهمترين چالش ها در مبحث جداسازي
صحيح سطرهاي دستنويس هستند. اغلب روشهاي موجود خصوصيات محلي سطرها در يك متن را در نظر نمي گيرند. در روش
پيشنهادي، هم خصوصيات كلي و هم محلي در نظر گرفته مي شوند. روش پيشنهاد شده مبتني بر استفاده از فيلترهاي دو بُعدي گوسي
است. كليه پارامترهاي روش پيشنهادي بر اساس يك متغير كلي بدست مي آيند كه اين پارامتر كلي براي هر متن بصورت جداگانه محاسبه
مي شود. بنابراين روش پيشنهادي مستقل از مجموعه داده ها است. يك متن ورودي ابتدا به چندين بلاك تقسيم ميشود كه براي هر
بلاك، ويژگي هاي محلي استخراج ميشود. در هر بلاك، نواحي متني با استفاده از ويژگي هاي محلي از جمله ميزان چرخش در بلاك،
شناسايي مي شوند. به منظور تخمين صحيح زاويه چرخش نواحي متني در يك بلاك، يك الگوريتم تخمين زاويه در اين مقاله پيشنهاد
مي شود. نتايج آزمايشها نشان ميدهند كه روش پيشنهادي از تمامي روشهاي خوب ديگر و بر روي سه مجموعه داده استاندارد دقت
بهتري ارائه مي كند. نتايج بدست آمده براي روش پيشنهادي در مجموعه داده هاي ICDAR09 ، ICDAR2013و ، HIT-MWبه ترتيب
به ميزان 0/03 ،0/54 و 0/02درصد نسبت به نتايج برنده مسابقه جداسازي سطرها در ICDAR2013 بهبود داشته است. همچنين
آزمايشها نشان مي دهند كه روش پيشنهادي ميتواند سطرهاي متن هاي دستنويس با ميزان پيچيدگي زياد را نيز با دقت كافي از هم جدا نمايد.
چكيده لاتين :
Text line segmentation is an important stage of the optical character recognition (OCR) algorithms.
To analyze and recognize a document, text lines have to be segmented accurately. Text line segmentation of
handwritten documents is more difficult than that of machine-printed ones. Curved and multi-skewed text lines,
overlapping text lines, and very small text lines are the main challenges. Most of the proposed approaches did
not consider local features of text lines in a document image. In our proposed method, both global and local
features are considered. The proposed method is based on using directional 2D anisotropic filters. The parameters
of our method are tuned based on a main global parameter which is computed for each document, separately.
Hence, the proposed method is a dataset-independent method. A document is divided into several blocks for
which some local characteristics are calculated. In each block, text regions are detected by using local
characteristics such as the block skew. In order to estimate the skew of text regions in a block, a novel text block
skew estimation algorithm is proposed in this paper. Experimental results show that the proposed method
outperforms all the state-of-the-art methods on three standard datasets. Our final F-Measure are 0.54%, 0.03%,
and 0.02% greater than the winner of ICDAR2013 text line segmentation contests on ICDAR2013, ICDAR09,
and HIT-MW datasets, respectively. The experiments proved that the proposed method can accurately segment
text lines of complicated handwritings.
عنوان نشريه :
رايانش نرم و فناوري اطلاعات