عنوان مقاله :
بهبود الگوريتم RAKE براي استخراج كليدواژه از متون علمي فارسي؛ مطالعه موردي: پاياننامهها و رسالههاي فارسي
پديد آورندگان :
محرابي ، الهه دانشگاه صنعتي اميركبير , محبي ، آزاده پژوهشگاه علوم و فناوري اطلاعات ايران , احمدي ، عباس دانشگاه صنعتي اميركبير
كليدواژه :
استخراج كليدواژه , الگوريتم RAKE , برچسبگذاري دستوري , پردازش زبان طبيعي , مستندات علمي فارسي.
چكيده فارسي :
كلمات كليدي زيرمجموعهاي از كلمات يا عبارات يك سند هستند كه ميتوانند معناي سند را توصيفكنند و در فرايند بازيابي اطلاعات نقش مهمي ايفا كنند. از آنجا كه عمليات استخراج كليدواژه يا عبارات كليدي از متون تخصصي و علمي كاري تخصصي و زمانبر بوده و حجم اسناد علمي كه نياز به كليدواژه دارند روزافزون است، الگوريتمهاي مختلفي براي استخراج تخصصي و خودكار كليدواژه و عبارات كليدي به اسناد طراحي و پيادهسازي شدهاند. RAKE يك الگوريتم پركاربرد براي استخراج كلمات كليدي از متون است. اساس كار الگوريتم RAKE، كلمات كليدي و عموماً حاوي چندين كلمه (يعني عبارت كليدي) هستند، ولي علائم نگارشي يا كلمات بيمعنا يا ايستواژهها را شامل نميشوند. در اين الگوريتم از برچسبگذاري دستوري كلمات بهعنوان ابزاري براي تعيين ضريب اهميت آنها در جملات استفاده ميشود. كليدواژهها مجموعهاي از تواليهاي چندكلمهاي يا تككلمهاي هستند كه طبق معيارهاي خاصي امتيازدهي ميشوند. در اين پژوهش، يك نسخه بهبوديافته از الگوريتم استخراج خودكار كليدواژه (RAKE) ارائه شده است. در نسخه بهبوديافته سعي شده با ايجاد تغييراتي در معيارهاي امتيازدهي عبارات كانديد، دقت و بازخواني عبارات كليدي استخراجشده افزايش يابد. راهكار ارائهشده براي بهبود الگوريتم RAKE با در نظر گرفتن ضعفهاي موجود در رويكردهاي وزندهي دراين الگوريتم بهويژه براي زبان فارسي و مستندات علمي پيشنهاد شده است. براي بررسي نقاط ضعف الگوريتم RAKE و ارائه راهكار پيشنهادي از مجموعهاي از فرادادههاي پاياننامه و رسالههاي فارسي استفاده شده است. راهكار پيشنهادي روي اين دادهها آزمايش و ارزيابي شده و باعث افزايش دقت، بازخواني و معيار F شده است.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات