شماره ركورد :
949391
عنوان مقاله :
استخراج فراداده‌هاي متني از مقاله‌هاي علمي به زبان فارسي با مدل آماري CRF
عنوان به زبان ديگر :
Metadata Extraction from Persian Scientific Papers Using CRF Model
پديد آورندگان :
تن سازان، امير , مهدوي، محمدامين دانشگاه بين المللي امام خميني (ره) - دانشكده فني و مهندسي
اطلاعات موجودي :
دوفصلنامه سال 1396 شماره 13
تعداد صفحه :
18
از صفحه :
304
تا صفحه :
321
كليدواژه :
پردازش زبان فارسي , فرآورده هاي متني , مقاله هاي علمي , مدل آمارب CRF
چكيده فارسي :
استخراج فراداده‌هاي متني از مقاله‌هاي علمي به شكل دستي كار زمان‌بر و پرهزينه‌اي است. وجود تنوع در قالب‌هاي ساختاري مقالات علمي نيز به پيچيدگي مسئله مي‌افزايد. بنابراين، استخراج خودكار فراداده‌هاي متني از مقاله‌هاي علمي به عنوان يك مسئله مطرح است و از الگوريتم‌هاي مختلفي مي‌توان براي استخراج فراداده‌ها استفاده كرد. هدف اين مقاله ارائه‌ي يك چارچوب براي استخراج فراداده‌هاي متني از مقاله‌هاي علمي به زبان فارسي است. در اين پژوهش از مدل آماري سي آر اف براي استخراج فراداده‌ها استفاده شده است. روش‌شناسي: اين مقاله يك پژوهش كاربردي است. در اين مقاله با مطالعات كتابخانه‌اي و آزمايش سعي شده است يك چارچوب براي استخراج فراداده‌ها ارائه شود. چارچوب ارائه شده شامل شناسايي سرآيند و مراجع انگليسي و فارسي مقاله است. از مدل آماري سي آر اِف براي استخراج فراداده‌ها از سرآيند و مراجع فارسي و انگليسي استفاده شده است. با تعريف ويژگي‌هاي مختلف اين مدل آماري قابل تغيير است. آزمايش اين روش بروي صد مقاله از مجلات علمي- پژوهشي ايران درصد موفقيت آن را نشان مي‌دهد. مدل آماري سي آر اِف در برچسب‌زني متن نسبت به مدل‌هاي آماري ديگر مانند مدل مخفي ماركوف دقت بالاتري را ارائه مي‌دهد. از سوي ديگر اين مدل بر مبناي آمار و رياضي برچسب‌زني را انجام مي‌دهد. استخراج فراداده‌ها از مقالات با قالب‌هاي مختلف به كمك آمار نسبت به روش‌‌هاي مبتني بر قانون نتايج بهتري را به دنبال دارد. بنابراين استفاده از مدل آماري سي آر اِف براي حل اين مسئله مناسب است. يافته ها: براي ارزيابي روش پيشنهاد شده از معيار اِف استفاده شده است. مقدار معيار اِف در اين پژوهش براي هر توكن متني محاسبه شده است. مقدار معيار اِف به شكل ميانگين براي فراداده‌هاي سرآيند، فراداده‌هاي مراجع فارسي و فراداده‌هاي مراجع انگليسي به ترتيب ۹۶/۸۹ درصد، ۹۳/۸۷ درصد و ۹۴/۷۵ درصد است. نتايج اين پژوهش با سه پژوهش مشابه در زبان انگليسي مقايسه شده است. مقايسه ميانگين نتايج به‌دست آمده نشان مي‌دهد در فراداده‌هاي سرآيند نتايج پژوهش اين مقاله بهتر از دو پژوهش انجام شده در زبان انگليسي است. نتايج استخراج فراداده نويسنده در سرآيند در پژوهش‌هاي زبان انگليسي بهتر است. براي فراداده چكيده در پژوهش‌ زبان فارسي، نتايج بهتري به‌دست آمده است. مقايسه ميانگين نتايج استخراج فراداده‌هاي مراجع، نشان مي‌دهد پژوهش‌هاي زبان انگليسي دقت بالاتري ارائه داده‌اند. نتايج استخراج فراداده مؤسسه در مراجع فارسي نسبت به فراداده‌هاي ديگر ضعيف‌تر است. بحث و نتيجه‌گيري: بررسي نتايج بدست آمده نشان مي‌دهد كه عملكرد مدل آماري سي آر اِف براي استخراج فراداده‌ها خوب است. بيشترين دقت براي فراداده چكيده با معيار اِف برابر ۶/۹۹ درصد است. اين فراداده تعداد توكن بسيار بيشتري نسبت به بقيه فراداده‌ها دارد. دقت فراداده مؤسسه با معيار اِف برابر ۹۵/۸۰ درصد كمتر از بقيه است. دو دليل در كاهش دقت موثر است. تعداد اين فراداده در پيكره متون نسبت به فراداده‌هاي ديگر كمتر است. علاوه بر اين كلمات نحوي كه در اين فراداده به¬كار مي رود، تنوع بيشتري دارد. در مراجع فارسي اسامي شهرها در فراداده‌هاي مكان و مؤسسه به‌كار مي‌رود. اين مسئله باعث مي‌شود در برخي از موارد فراداده‌هاي مكان و مؤسسه به اشتباه تشخيص داده شوند. در زبان فارسي كلماتي كه به شكل مشترك در فراداده‌هاي مختلف به‌كار مي‌روند نسبت به زبان انگليسي بيشتر است. براي مثال بسياري از اسامي ايراني كه براي نام افراد به‌كار مي‌رود با معاني ديگر در فراداده‌هاي ديگر استفاده مي‌شود. اين مسئله ممكن است باعث بروز خطا شود. اكثر خطاهاي به‌وجود آمده در استخراج فراداده‌ها مربوط به توكن‌هايي است كه در مرز دو فراداده قرار دارند. تبديل مقالات علمي فارسي با فرمت پي دي اِف به فرمت متن در موارد زيادي با مشكل رو به رو است و از محدوديت‌هاي اين پژوهش به شمار مي‌آيد. در اين پژوهش مجموعه‌اي از صد مقاله علمي استفاده شد. افزايش تعداد مقاله‌هاي علمي و تنوع بيشتر مقالات براي آزمايش مي‌تواند در نتيجه‌ي بدست آمده تاثير مثبتي داشته باشد. مجموعه‌اي از ويژگي‌هاي متني در الگوريتم‌هاي برچسب‌زني سي آر اِف استفاده مي‌شود. تغيير در اين ويژگي‌ها مي‌تواند موجب بهينه‌سازي روش شود.
چكيده لاتين :
INTRODUCTION: Metadata extraction from scientific papers is costly and time consuming. Different layouts and styles of papers increase the complexity of problem. Therefore, metadata extraction from scientific papers is a research question and different algorithms can be used to extract them. The purpose of this paper is to present a framework for metadata extraction from Persian scientific papers. CRF model has been used in this paper. METHODOLOGY: This paper is an applied research. It aims at presenting a framework for the metadata extraction. This framework includes identifying the header along with English and Persian references. CRF model has been used to extract metadata from header and references. This model can be modified by defining different features. The proposed method is tested over a set of 100 scientific papers taken from different Iranian journals. Compared to Markov in text tagging, this model has a higher accuracy than other models. On the other hand, this model is based on statistics. Extracting metadata while using statistics from papers with different layouts and styles provides better results than the rule based methods. Therefore, using this model is a good solution to this problem. FINDING: F measure has been used to evaluate the proposed method. F measure is calculated for each token. Average F-measure is 96.89, 93.87, and 94.75 percent for header metadata, Persian references metadata, and English references metadata, respectively. The results of this paper have been compared with three similar papers in English. The results of the header author are better in English. Abstracts have better results in Persian language research. The analysis of the average references metadata extraction results shows that English researches have a higher accuracy compared to the Persian references metadata extraction results. CONCLUSIONS: Reviewing the results shows that CRF model performance is good for extracting metadata. The most accurate metadata is Abstract with F measure of 99.6%. This metadata has a much larger number of tokens than the other metadata. The accuracy of the institute with the F measure is 80.95% lower than the other metadata. There are two reasons why F measure is reduced. First the number of this metadata is smaller than the other metadata in the text corpus. Second, the words used in this metadata are more diverse. In Persian references, the names of cities are used in location and institution metadata. This makes location and institution to be mistakenly identified in some cases. In Persian, the words commonly used in different metadata are more than English. For example, many Iranian names of the individuals are used with other meanings in other metadata. This issue may cause errors. Most of the errors in the metadata extraction are related to tokens that are located on the border of two metadata. Converting scientific papers in PDF format to text format is difficult in many cases and this is one of the limitations of this research. In this paper, a sample of 100 scientific articles was used. Increasing the number and variety of scientific papers for testing can have a positive effect on the results. A set of textual features are used in the CRF tagging algorithms. Changing these features can make the method better.
سال انتشار :
1396
عنوان نشريه :
پژوهشنامه كتابداري و اطلاع رساني
فايل PDF :
3622354
عنوان نشريه :
پژوهشنامه كتابداري و اطلاع رساني
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 13 سال 1396
لينک به اين مدرک :
بازگشت