عنوان مقاله :
ارائه روشي ساختار محور براي ايجاد پايگاه داده از تصاوير مستخرج از اسناد علمي: مورد مطالعه پايگاه اطلاعات علمي ايران (گنج)
عنوان به زبان ديگر :
A Structure-Based Method for Building a Database of Extracted Figures from Scientific Documents: A Case Study of Iran Scientific Information Database (GANJ)
پديد آورندگان :
فخرزاده، آزاده پژوهشگاه علوم و فناوري اطلاعات ايران ( ايرانداك )، تهران - پژوهشكده فناوري اطلاعات , صديقي، اميرحسين پژوهشگاه علوم و فناوري اطلاعات ايران ( ايرانداك )، تهران - گروه پژوهشي سيستم هاي اطلاعاتي
كليدواژه :
پردازش تصوير , استخراج تصوير , استخراج فراداده , فناوري اطلاعات
چكيده فارسي :
تصاوير موجود در مدارك علمي غالبا حاوي اطلاعات مهمي هستند. اولين قدم براي بازيابي اطلاعات از اين تصاوير ايجاد يك پايگاه داده معتبر از آنها است. براي اين منظور در اين مقاله سيستمي خودكار براي ايجاد پايگاه داده از تصاوير موجود در مدارك علمي فارسي در مقياس بزرگ ارائه ميشود. اين سيستم پيشنهادي در نتيجه مطالعات اسنادي طراحي شده و بخشهاي مختلفي دارد. در مرحله اول بايد تصاوير و توضيح متني آنها استخراج گردد. به طور كلي دو رويكرد براي استخراج تصاوير و توضيح متني آنها از فايل وجود دارد. در رويكرد اول فايل به تصوير تبديل ميشود و از تكنيكهاي پردازش تصوير براي استخراج اطلاعات گرافيكي استفاده ميشود. رويكرد دوم بر اساس پردازش ساختار و آرايش خود فايل است. از آنجايي كه روش دوم از لحاظ سرعت و قابليت مقياسپذيري براي استفاده در موتورهاي جستجو مناسبتر است، تمركز اين مقاله بر روي روش دوم است. بدين ترتيب براي استخراج تصاوير و توضيح متني آنها از يك روش ساختار محور استفاده ميشود كه مبتني بر چيدمان و آرايش فايل ورد سند است. در نتيجه، مجموعهاي از تصاوير به همراه توضيحات و اطلاعات مربوط به آنها به دست ميآيد كه بايد در يك پايگاه داده تصاوير با ساختاري مشخص ذخيره گردند. سپس اين اطلاعات براي بازيابي و استفادههاي آتي در يك موتور جستجو نمايه خواهند شد.
روش پيشنهادي در زبان برنامهنويسي پايتون پيادهسازي شد و براي ارزيابي كارايي آن از روش مرسوم پردازش فايل پيدياف اسناد كمك گرفته شد. سپس روش پيشنهادي در يك مطالعه موردي در پايگاه اطلاعات علمي ايران (گنج) به كار گرفته شد. تعداد 150 مدرك علمي به تصادف از پايگاه گنج انتخاب شده و با كمك اين دو روش مورد تجزيه و تحليل قرار گرفت. بنا به يافتههاي پژوهش ديده ميشود كه استخراج اطلاعات متني از فايل پيدياف در زبان فارسي با چالشهاي زيادي روبرو است و نميتواند خروجي مناسبي در اين زمينه حاصل كند. از طرف ديگر ميزان تصاوير نامطلوب توليد شده از فايل پيدياف بسيار زياد است كه از كاربستپذيري آن در شرايط واقعي ميكاهد. از اين رو روش پيشنهادي به عنوان گزينهاي مناسب براي استخراج تصوير و توضيحات آنها از اسناد علمي در زبان فارسي و ايجاد پايگاه داده از آنها پيشنهاد ميشود. روش پيشنهادي قادر است حدود 40 درصد تصاوير را همراه با زيرنويس مربوطه بدون خطا استخراج كند؛ كه نسبت به روش پايه كه قادر به استخراج 30 درصد از تصاوير است، كارآيي بهتري دارد.
چكيده لاتين :
Figures in scientific documents are rich sources of information. The first step in retrieving information from such figures is to build a
valid figure database. To this end, we developed a system for generating
figure database from scholarly Persian documents, in large scale. The
first step is to parse files and extract figures and their corresponding
descriptions. There are two general approaches for extracting figures
from documents. One is based on image processing methods and
another is based on processing the file primitives. The focus of this
paper is on latter one. This approach is shown to be a better choice for
the search engines because of its speed and scalability properties. We
propose a structure based method that extracts the figures and their
descriptions by analyzing the file layout. This information is saved in
a database with a specific structure and is indexed for retrieval in the
search engine.
The proposed algorithm was implemented in Python programming
language. As a benchmark we used the basic method in the literature
which is based on the processing PDF file. We employed the proposed
method in a case study on Iran scientific information database (Ganj).
In this regard, 150 scientific documents were randomly chosen from
Ganj database and analyzed using two mentioned methods. Based on our experimental results, the proposed method is more efficient than
the basic method especially for Persian documents. There are many
unanswered challenges for Persian documents when using the basic method. The number of noise images resulted from the basic method is high and Persian text
extracted is not well organized. Our proposed method overcomes some of these drawbacks
and is recommended for generating figure database from scientific Persian documents. The
proposed method is able to correctly extract about 40% of the images with their corresponding
descriptions which is 10% better than the basic method.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات