شماره ركورد :
1049537
عنوان مقاله :
استخراج اطلاعات از پيكره زباني: معرفي پيكرۀ مقاله‎هاي علمي‎‎پژوهشي دانشگاه فردوسي مشهد
پديد آورندگان :
كاميابي گل ، عطيه - گروه زبانشناسي , اخلاقي باقوجري ، الهام دانشگاه فردوسي مشهد , عسگريان ، احسان دانشگاه فردوسي مشهد , حبيبي ، هانيه دانشگاه فردوسي مشهد
تعداد صفحه :
23
از صفحه :
3
تا صفحه :
25
كليدواژه :
پيكرۀ زباني , برچسب‌دهي , مقاله‌هاي علمي‎پژوهشي , دانشگاه فردوسي مشهد
چكيده فارسي :
هدف: پردازش زبان طبيعي، استفاده در فرهنگ‌نگاري، پيگيري تحولات زباني و استخراج اطلاعات زباني خاص از مهم‌ترين كاربردهاي پيكره است. هدف از انجام اين پژوهش معرفي و توصيف چگونگي ساخت پيكرۀ مقاله‌هاي علمي‎پژوهشي است كه نگارندگان پديد آورده‌اند. روش: براي ايجاد پيكره، نخست نرم‌افزار پيكره‌ساز طراحي و ساخته شد. اين نرم‌افزار انواع فرمت از جمله doc،docx ،rtf ،txt  و pdf را پشتيباني مي‌كند. همچنين مي‌توان پارامترهاي ساخت پيكره را از قبل نيز براي آن تعيين كرد. براي مثال، مشخص كرد كه حداقل تعداد توكن فايل براي حضور يك متن در پيكره چه عددي باشد. سپس مجموعه مقاله‌هاي علمي‌پژوهشي اعضاي هيئت‎علمي دانشگاه فردوسي مشهد جمع‌آوري شد. مجموع مقاله‌هاي مشتمل بر 7.154.202 كلمه و 1100 عنوان است. كلّ پيكره در فايل‌هاي مجزا به جمله‌هاي تشكيل‌دهنده آن تجزيه شد. ريشۀ كلمات استخراج و برچسب نحوي كلمات زده شد. علاوه ‌بر امكان استخراج اطلاعات به‌طور مستقيم، نرم‌افزار جانبي ديگري با كاربرد ساده‌تر  براي استخراج اطلاعات آماري نيز طراحي و به آن افزوه شد تا كاربران غيرتخصصي هم بتوانند از آن استفاده و اطلاعات را استخراج كنند. يافته: براي ارزيابي درستيِ  ابزارهاي ريشه‌ياب و برچسب‌زني مقوله‌هاي گفتار، از پيكره‌هاي استاندارد موجود مانند پيكره PerDT  (در سايت دادگان) كه شامل تعداد قابل‌توجهي جملۀ برچسب‎خورده با اطلاعات نحوي و ساخت‎واژي است استفاده شد. همچنين با مطالعه موردي عبارات احتياط‌آميز (بخشي از طرح پژوهشي كه به چاپ نرسيده است) يافته‌ اين پژوهش كه ساخت پيكرۀ مقاله‌هاي علمي‌پژوهشي است آزمايش و با دقت حدود96% تأييد شد. نتيجه: بر اساس نتايج  به‎دست‎آمده، پيكرۀ ساخته‎شده قابليت بسيار بالايي براي داده‌كاوي و استفاده در تمام پژوهش‌هايي كه بر روي متون علمي انجام مي‌شود را دارا است. با استفاده از اين پيكره مي‌توان توصيفي داده‎محور از نحوۀ كاربرد زبان توسط گروه‌هاي مختلف كاربران زباني ارائه كرد. با بارگذاري اين پيكره در سايت كتابخانه مركزي دانشگاه فردوسي مشهد، امكان كاربري عام آن به‎زودي فراهم خواهد شد.
سال انتشار :
1397
عنوان نشريه :
كتابداري و اطلاع رساني
عنوان نشريه :
كتابداري و اطلاع رساني
لينک به اين مدرک :
بازگشت