طبقه‌بندي معنايي تصاوير متني مبتني بر الگوي ارزشمندي متن

عنوان فرعي

Semantic Document Image Classification Based on Valuable Text Pattern

پديد آورندگان

پورقاسم، حسين نويسنده دانشگاه آزاد اسلامي واحد نجف آباد , , هل فروش، محمدصادق نويسنده دانشكده مهندسي برق و الكترونيك-دانشگاه صنعتي شيراز , , دانشور، سبلان نويسنده دانشگاه صنعتي سهند ,

اطلاعات موجودي

فصلنامه سال 1389 شماره 4

رتبه نشريه

علمي پژوهشي

تعداد صفحه

از صفحه

تا صفحه

كليدواژه

ارزشمندي اطلاعاتي , تصاوير متني و غير متني , طبقه بندي محتوايي , سيستم هاي جمع آوري اطلاعات

چكيده فارسي

استخراج اطلاعات از تصاوير متني شناسايي شده از مجراي اينترنت يكي از مهمترين معضلات سيستم‌هاي جمع‌آوري اطلاعاتي در حوزه تكنولوژي اطلاعات مي‌باشد. اين مساله وقتي حادتر مي‌گردد كه بدانيم در بين انبوه تصاوير متني تنها درصد ناچيزي از تصاوير متني شناسايي شده، داراي ارزش اطلاعاتي مي‌باشند. در اين مقاله، جهت تجزيه‌ و تحليل تصاوير متني و دسترسي به محتواي آنها، از يك روش طبقه‌بندي مبتني بر ناحيه‌بندي تصوير استفاده شده است. در اين الگوريتم به كمك يك روش ناحيه‌بندي دو‌مرحله‌اي، نواحي تصوير شناسايي شده، سپس به كمك يك ساختار سلسله‌مراتبي طبقه‌بندي، نوع ناحيه از لحاظ متني يا عكسي (غير‌متني) بودن مشخص مي‌گردد. در ادامه با تعريف با‌ارزش بودن متن يك تصوير متني، سعي مي‌شود تصوير متني در يكي از دو گروه معنايي با‌ارزش و بي‌ارزش دسته‌بندي گردد. الگوريتم پيشنهادي بر روي يك پايگاه داده تصاوير متني و غيرمتني كه از تصاوير موجود در اينترنت فراهم شده است، مورد‌ارزيابي قرار مي‌گيرد. نتايج آزمايشها بيانگر كارايي روش پيشنهادي در طبقه‌بندي معنايي تصاوير براساس تعريف كاربر از با‌ارزش و بي‌ارزش بودن تصاوير متني است. الگوريتم پيشنهادي، صحت طبقه‌بندي %98.8 براي طبقه‌بندي تصاوير متني با‌ارزش از بي‌ارزش را فراهم كرده است.

چكيده لاتين

Knowledge extraction from detected document image is a complex problem in the field of information technology. This problem becomes more intricate when we know, a negligible percentage of the detected document images are valuable. In this paper, a segmentation-based classification algorithm is used to analysis the document image. In this algorithm, using a two-stage segmentation approach, regions of the image are detected, and then classified to document and non-document (pure region) regions in the hierarchical classification. In this paper, a novel valuable definition is proposed to classify document image in to valuable or invaluable categories. The proposed algorithm is evaluated on a database consisting of the document and non-document image that provide from Internet. Experimental results show the efficiency of the proposed algorithm in the semantic document image classification. The proposed algorithm provides accuracy rate of 98.8% for valuable and invaluable document image classification problem.

سال انتشار

1389

عنوان نشريه

روشهاي هوشمند در صنعت برق

عنوان نشريه

روشهاي هوشمند در صنعت برق

اطلاعات موجودي

فصلنامه با شماره پیاپی 4 سال 1389

كلمات كليدي

#تست#آزمون###امتحان

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=539902