عنوان مقاله :
استخراج اطلاعات از پيكره زباني: معرفي پيكرۀ مقالههاي علميپژوهشي دانشگاه فردوسي مشهد
پديد آورندگان :
كاميابي گل ، عطيه - گروه زبانشناسي , اخلاقي باقوجري ، الهام دانشگاه فردوسي مشهد , عسگريان ، احسان دانشگاه فردوسي مشهد , حبيبي ، هانيه دانشگاه فردوسي مشهد
كليدواژه :
پيكرۀ زباني , برچسبدهي , مقالههاي علميپژوهشي , دانشگاه فردوسي مشهد
چكيده فارسي :
هدف: پردازش زبان طبيعي، استفاده در فرهنگنگاري، پيگيري تحولات زباني و استخراج اطلاعات زباني خاص از مهمترين كاربردهاي پيكره است. هدف از انجام اين پژوهش معرفي و توصيف چگونگي ساخت پيكرۀ مقالههاي علميپژوهشي است كه نگارندگان پديد آوردهاند. روش: براي ايجاد پيكره، نخست نرمافزار پيكرهساز طراحي و ساخته شد. اين نرمافزار انواع فرمت از جمله doc،docx ،rtf ،txt و pdf را پشتيباني ميكند. همچنين ميتوان پارامترهاي ساخت پيكره را از قبل نيز براي آن تعيين كرد. براي مثال، مشخص كرد كه حداقل تعداد توكن فايل براي حضور يك متن در پيكره چه عددي باشد. سپس مجموعه مقالههاي علميپژوهشي اعضاي هيئتعلمي دانشگاه فردوسي مشهد جمعآوري شد. مجموع مقالههاي مشتمل بر 7.154.202 كلمه و 1100 عنوان است. كلّ پيكره در فايلهاي مجزا به جملههاي تشكيلدهنده آن تجزيه شد. ريشۀ كلمات استخراج و برچسب نحوي كلمات زده شد. علاوه بر امكان استخراج اطلاعات بهطور مستقيم، نرمافزار جانبي ديگري با كاربرد سادهتر براي استخراج اطلاعات آماري نيز طراحي و به آن افزوه شد تا كاربران غيرتخصصي هم بتوانند از آن استفاده و اطلاعات را استخراج كنند. يافته: براي ارزيابي درستيِ ابزارهاي ريشهياب و برچسبزني مقولههاي گفتار، از پيكرههاي استاندارد موجود مانند پيكره PerDT (در سايت دادگان) كه شامل تعداد قابلتوجهي جملۀ برچسبخورده با اطلاعات نحوي و ساختواژي است استفاده شد. همچنين با مطالعه موردي عبارات احتياطآميز (بخشي از طرح پژوهشي كه به چاپ نرسيده است) يافته اين پژوهش كه ساخت پيكرۀ مقالههاي علميپژوهشي است آزمايش و با دقت حدود96% تأييد شد. نتيجه: بر اساس نتايج بهدستآمده، پيكرۀ ساختهشده قابليت بسيار بالايي براي دادهكاوي و استفاده در تمام پژوهشهايي كه بر روي متون علمي انجام ميشود را دارا است. با استفاده از اين پيكره ميتوان توصيفي دادهمحور از نحوۀ كاربرد زبان توسط گروههاي مختلف كاربران زباني ارائه كرد. با بارگذاري اين پيكره در سايت كتابخانه مركزي دانشگاه فردوسي مشهد، امكان كاربري عام آن بهزودي فراهم خواهد شد.
عنوان نشريه :
كتابداري و اطلاع رساني
عنوان نشريه :
كتابداري و اطلاع رساني