عنوان مقاله :
استخراج فرادادههاي متني از مقالههاي علمي به زبان فارسي با مدل آماري CRF
عنوان به زبان ديگر :
Metadata Extraction from Persian Scientific Papers Using CRF Model
پديد آورندگان :
تن سازان، امير , مهدوي، محمدامين دانشگاه بين المللي امام خميني (ره) - دانشكده فني و مهندسي
اطلاعات موجودي :
دوفصلنامه سال 1396 شماره 13
كليدواژه :
پردازش زبان فارسي , فرآورده هاي متني , مقاله هاي علمي , مدل آمارب CRF
چكيده فارسي :
استخراج فرادادههاي متني از مقالههاي علمي به شكل دستي كار زمانبر و پرهزينهاي است. وجود تنوع در قالبهاي ساختاري مقالات علمي نيز به پيچيدگي مسئله ميافزايد. بنابراين، استخراج خودكار فرادادههاي متني از مقالههاي علمي به عنوان يك مسئله مطرح است و از الگوريتمهاي مختلفي ميتوان براي استخراج فرادادهها استفاده كرد. هدف اين مقاله ارائهي يك چارچوب براي استخراج فرادادههاي متني از مقالههاي علمي به زبان فارسي است. در اين پژوهش از مدل آماري سي آر اف براي استخراج فرادادهها استفاده شده است.
روششناسي:
اين مقاله يك پژوهش كاربردي است. در اين مقاله با مطالعات كتابخانهاي و آزمايش سعي شده است يك چارچوب براي استخراج فرادادهها ارائه شود. چارچوب ارائه شده شامل شناسايي سرآيند و مراجع انگليسي و فارسي مقاله است. از مدل آماري سي آر اِف براي استخراج فرادادهها از سرآيند و مراجع فارسي و انگليسي استفاده شده است. با تعريف ويژگيهاي مختلف اين مدل آماري قابل تغيير است. آزمايش اين روش بروي صد مقاله از مجلات علمي- پژوهشي ايران درصد موفقيت آن را نشان ميدهد. مدل آماري سي آر اِف در برچسبزني متن نسبت به مدلهاي آماري ديگر مانند مدل مخفي ماركوف دقت بالاتري را ارائه ميدهد. از سوي ديگر اين مدل بر مبناي آمار و رياضي برچسبزني را انجام ميدهد. استخراج فرادادهها از مقالات با قالبهاي مختلف به كمك آمار نسبت به روشهاي مبتني بر قانون نتايج بهتري را به دنبال دارد. بنابراين استفاده از مدل آماري سي آر اِف براي حل اين مسئله مناسب است.
يافته ها:
براي ارزيابي روش پيشنهاد شده از معيار اِف استفاده شده است. مقدار معيار اِف در اين پژوهش براي هر توكن متني محاسبه شده است. مقدار معيار اِف به شكل ميانگين براي فرادادههاي سرآيند، فرادادههاي مراجع فارسي و فرادادههاي مراجع انگليسي به ترتيب ۹۶/۸۹ درصد، ۹۳/۸۷ درصد و ۹۴/۷۵ درصد است. نتايج اين پژوهش با سه پژوهش مشابه در زبان انگليسي مقايسه شده است. مقايسه ميانگين نتايج بهدست آمده نشان ميدهد در فرادادههاي سرآيند نتايج پژوهش اين مقاله بهتر از دو پژوهش انجام شده در زبان انگليسي است. نتايج استخراج فراداده نويسنده در سرآيند در پژوهشهاي زبان انگليسي بهتر است. براي فراداده چكيده در پژوهش زبان فارسي، نتايج بهتري بهدست آمده است. مقايسه ميانگين نتايج استخراج فرادادههاي مراجع، نشان ميدهد پژوهشهاي زبان انگليسي دقت بالاتري ارائه دادهاند. نتايج استخراج فراداده مؤسسه در مراجع فارسي نسبت به فرادادههاي ديگر ضعيفتر است.
بحث و نتيجهگيري:
بررسي نتايج بدست آمده نشان ميدهد كه عملكرد مدل آماري سي آر اِف براي استخراج فرادادهها خوب است. بيشترين دقت براي فراداده چكيده با معيار اِف برابر ۶/۹۹ درصد است. اين فراداده تعداد توكن بسيار بيشتري نسبت به بقيه فرادادهها دارد. دقت فراداده مؤسسه با معيار اِف برابر ۹۵/۸۰ درصد كمتر از بقيه است. دو دليل در كاهش دقت موثر است. تعداد اين فراداده در پيكره متون نسبت به فرادادههاي ديگر كمتر است. علاوه بر اين كلمات نحوي كه در اين فراداده به¬كار مي رود، تنوع بيشتري دارد. در مراجع فارسي اسامي شهرها در فرادادههاي مكان و مؤسسه بهكار ميرود. اين مسئله باعث ميشود در برخي از موارد فرادادههاي مكان و مؤسسه به اشتباه تشخيص داده شوند. در زبان فارسي كلماتي كه به شكل مشترك در فرادادههاي مختلف بهكار ميروند نسبت به زبان انگليسي بيشتر است. براي مثال بسياري از اسامي ايراني كه براي نام افراد بهكار ميرود با معاني ديگر در فرادادههاي ديگر استفاده ميشود. اين مسئله ممكن است باعث بروز خطا شود. اكثر خطاهاي بهوجود آمده در استخراج فرادادهها مربوط به توكنهايي است كه در مرز دو فراداده قرار دارند. تبديل مقالات علمي فارسي با فرمت پي دي اِف به فرمت متن در موارد زيادي با مشكل رو به رو است و از محدوديتهاي اين پژوهش به شمار ميآيد. در اين پژوهش مجموعهاي از صد مقاله علمي استفاده شد. افزايش تعداد مقالههاي علمي و تنوع بيشتر مقالات براي آزمايش ميتواند در نتيجهي بدست آمده تاثير مثبتي داشته باشد. مجموعهاي از ويژگيهاي متني در الگوريتمهاي برچسبزني سي آر اِف استفاده ميشود. تغيير در اين ويژگيها ميتواند موجب بهينهسازي روش شود.
چكيده لاتين :
INTRODUCTION: Metadata extraction from scientific papers is costly and time consuming. Different layouts and styles of papers increase the complexity of problem. Therefore, metadata extraction from scientific papers is a research question and different algorithms can be used to extract them. The purpose of this paper is to present a framework for metadata extraction from Persian scientific papers. CRF model has been used in this paper. METHODOLOGY: This paper is an applied research. It aims at presenting a framework for the metadata extraction. This framework includes identifying the header along with English and Persian references. CRF model has been used to extract metadata from header and references. This model can be modified by defining different features. The proposed method is tested over a set of 100 scientific papers taken from different Iranian journals. Compared to Markov in text tagging, this model has a higher accuracy than other models. On the other hand, this model is based on statistics. Extracting metadata while using statistics from papers with different layouts and styles provides better results than the rule based methods. Therefore, using this model is a good solution to this problem. FINDING: F measure has been used to evaluate the proposed method. F measure is calculated for each token. Average F-measure is 96.89, 93.87, and 94.75 percent for header metadata, Persian references metadata, and English references metadata, respectively. The results of this paper have been compared with three similar papers in English. The results of the header author are better in English. Abstracts have better results in Persian language research. The analysis of the average references metadata extraction results shows that English researches have a higher accuracy compared to the Persian references metadata extraction results. CONCLUSIONS: Reviewing the results shows that CRF model performance is good for extracting metadata. The most accurate metadata is Abstract with F measure of 99.6%. This metadata has a much larger number of tokens than the other metadata. The accuracy of the institute with the F measure is 80.95% lower than the other metadata. There are two reasons why F measure is reduced. First the number of this metadata is smaller than the other metadata in the text corpus. Second, the words used in this metadata are more diverse. In Persian references, the names of cities are used in location and institution metadata. This makes location and institution to be mistakenly identified in some cases. In Persian, the words commonly used in different metadata are more than English. For example, many Iranian names of the individuals are used with other meanings in other metadata. This issue may cause errors. Most of the errors in the metadata extraction are related to tokens that are located on the border of two metadata. Converting scientific papers in PDF format to text format is difficult in many cases and this is one of the limitations of this research. In this paper, a sample of 100 scientific articles was used. Increasing the number and variety of scientific papers for testing can have a positive effect on the results. A set of textual features are used in the CRF tagging algorithms. Changing these features can make the method better.
عنوان نشريه :
پژوهشنامه كتابداري و اطلاع رساني
عنوان نشريه :
پژوهشنامه كتابداري و اطلاع رساني
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 13 سال 1396