عنوان مقاله :
تجزيه متون استنادي در زبان فارسي با استفاده از ماشين بردار پشتيبان
پديد آورندگان :
پاكنيت ، نصراله پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك) , نصيري ، جلالالدين دانشگاه فردوسي مشهد - دانشكده علوم رياضي
كليدواژه :
تجزيه متون استنادي , دستهبندي , دستهبندي چند دستهاي , ماشين بردار پشتيبان , ساخت خودكار شبكههاي استنادي.
چكيده فارسي :
يك متن استنادي را ميتوان بهعنوان مجموعهاي از مؤلفهها مانند نام نويسندگان، عنوان، محل نشر، سال نشر، شماره صفحات و ... در نظر گرفت. در حالي كه تجزيه متون استنادي موجود در انتهاي يك مدرك علمي توسط كاربر انساني بهراحتي انجامپذير است، تنوع موجود در شيوههاي استناددهي در كنار اشتباهات رخداده توسط نويسندگان در نگارش اين متون، خودكارسازي انجام اين عمليات را دشوار نموده است. روشهاي زيادي براي خودكارسازي تجزيه متون استنادي ارائه شده، اما اين روشها وابسته به زبان بوده و امكان بهكارگيري يك روش ارائه شده براي يك زبان در زباني ديگر منجر به نتايجي اشتباه ميشود. تحقيقات صورتگرفته بيانگر آن است كه تاكنون هيچ روشي براي خودكارسازي تجزيه متون استنادي در زبان فارسي ارائه نشده است. با توجه به اين مهم و نقش گسترده اين مسئله در ساخت خودكار شبكههاي استنادي مدارك علمي و فرايندهاي بازيابي اطلاعات، در اين مقاله به اين مسئله پرداخته شده و با استفاده از روش يادگيري ماشين بُردار پشتيبان بهعنوان يك دستهبند چنددستهاي، يك روش هوشمند براي مسئله تجزيه متون استنادي در زبان فارسي ارائه شده است. با توجه به اهميت انتخاب ويژگيهاي مناسب براي استفاده در دستهبند ماشين بُردار پشتيبان، در اين پژوهش اين مهم با توجه به ويژگيهاي استفادهشده در زبان انگليسي و ويژگيهاي زبان فارسي و ارجاعدهي در اين زبان انجام شده است. نتايج پيادهسازي و آزمايش روش پيشنهادي با استفاده از مجموعه دادهاي ايجادشده در اين پژوهش نشانگر مقدار 0.95 براي پارامترهاي دقت، فراخواني و اف-1 است.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات