تجزيه متون استنادي در زبان فارسي با استفاده از ماشين بردار پشتيبان

پديد آورندگان

پاك‌نيت ، نصراله پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك) , نصيري ، جلال‌الدين دانشگاه فردوسي مشهد - دانشكده علوم رياضي

از صفحه

1245

تا صفحه

1268

كليدواژه

تجزيه متون استنادي , دسته‌بندي , دسته‌بندي چند دسته‌اي , ماشين بردار پشتيبان , ساخت خودكار شبكه‌هاي استنادي.

چكيده فارسي

يك متن استنادي را مي‌توان به‌عنوان مجموعه‌اي از مؤلفه‌ها مانند نام نويسندگان، عنوان، محل نشر، سال نشر، شماره صفحات و ... در نظر گرفت. در حالي كه تجزيه متون استنادي موجود در انتهاي يك مدرك علمي توسط كاربر انساني به‌راحتي انجام‌پذير است، تنوع موجود در شيوه‌هاي استناددهي در كنار اشتباهات رخ‌داده توسط نويسندگان در نگارش اين متون، خودكارسازي انجام اين عمليات را دشوار نموده است. روش‌هاي زيادي براي خودكارسازي تجزيه متون استنادي ارائه شده، اما اين روش‌ها وابسته به زبان بوده و امكان به‌كارگيري يك روش ارائه‌ شده براي يك زبان در زباني ديگر منجر به نتايجي اشتباه مي‌شود. تحقيقات صورت‌گرفته بيانگر آن است كه تاكنون هيچ روشي براي خودكارسازي تجزيه متون استنادي در زبان فارسي ارائه نشده است. با توجه به اين مهم و نقش گسترده اين مسئله در ساخت خودكار شبكه‌هاي استنادي مدارك علمي و فرايندهاي بازيابي اطلاعات، در اين مقاله به اين مسئله پرداخته شده و با استفاده از روش يادگيري ماشين بُردار پشتيبان به‌عنوان يك دسته‌بند چنددسته‌اي، يك روش هوشمند براي مسئله تجزيه متون استنادي در زبان فارسي ارائه شده است. با توجه به اهميت انتخاب ويژگي‌هاي مناسب براي استفاده در دسته‌بند ماشين بُردار پشتيبان، در اين پژوهش اين مهم با توجه به ويژگي‌هاي استفاده‌شده در زبان انگليسي و ويژگي‌هاي زبان فارسي و ارجاع‌دهي در اين زبان انجام شده است. نتايج پياده‌سازي و آزمايش روش پيشنهادي با استفاده از مجموعه داده‌اي ايجادشده در اين پژوهش نشانگر مقدار 0.95 براي پارامترهاي دقت، فراخواني و اف-1 است.

عنوان نشريه

پژوهش نامه پردازش و مديريت اطلاعات

عنوان نشريه

پژوهش نامه پردازش و مديريت اطلاعات

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1309285