شماره ركورد :
1232982
عنوان مقاله :
بهبود الگوريتم RAKE براي استخراج كليدواژه از متون علمي فارسي؛ مطالعه موردي: پايان‌نامه‌ها و رساله‌هاي فارسي
پديد آورندگان :
محرابي ، الهه دانشگاه صنعتي اميركبير , محبي ، آزاده پژوهشگاه علوم و فناوري اطلاعات ايران , احمدي ، عباس دانشگاه صنعتي اميركبير
از صفحه :
197
تا صفحه :
228
كليدواژه :
استخراج ‌كليد‌واژه , الگوريتم RAKE , برچسب‌گذاري دستوري , پردازش زبان طبيعي , مستندات علمي فارسي.
چكيده فارسي :
كلمات كليدي زير‌مجموعه‌اي از كلمات يا عبارات يك سند هستند كه مي‌توانند معناي سند را توصيف‌كنند و در فرايند بازيابي اطلاعات نقش مهمي ايفا كنند. از آنجا كه عمليات استخراج كليدواژه يا عبارات كليدي از متون تخصصي و علمي كاري تخصصي و زمان‌بر بوده و حجم اسناد علمي كه نياز به كليدواژه دارند روزافزون است، الگوريتم‌هاي مختلفي براي استخراج تخصصي و خودكار كليدواژه و عبارات كليدي به اسناد طراحي و پياده‌سازي شده‌اند. RAKE يك الگوريتم پركاربرد براي استخراج كلمات كليدي از متون است. اساس كار الگوريتم RAKE، كلمات كليدي و عموماً حاوي چندين كلمه (يعني عبارت كليدي) هستند، ولي علائم نگارشي يا كلمات بي‌معنا يا ايست‌واژه‌ها را شامل نمي‌شوند. در اين الگوريتم از برچسب‌گذاري دستوري كلمات به‌عنوان ابزاري براي تعيين ضريب اهميت آن‌ها در جملات استفاده‌ مي‌شود. كليد‌واژه‌ها مجموعه‌اي از توالي‌هاي چندكلمه‌اي يا تك‌كلمه‌اي هستند كه طبق معيار‌هاي خاصي امتياز‌دهي مي‌شوند. در اين پژوهش، يك نسخه بهبود‌يافته از الگوريتم استخراج خودكار كليدواژه (RAKE) ارائه شده است. در نسخه بهبوديافته سعي شده با ايجاد تغييراتي در معيارهاي امتيازدهي عبارات كانديد، دقت و بازخواني عبارات كليدي استخراج‌شده افزايش يابد. راهكار ارائه‌شده براي بهبود الگوريتم RAKE با در نظر گرفتن ضعف‌هاي موجود در رويكرد‌هاي وزن‌دهي دراين الگوريتم به‌ويژه براي زبان فارسي و مستندات علمي پيشنهاد شده است. براي بررسي نقاط ضعف الگوريتم RAKE و ارائه راهكار پيشنهادي از مجموعه‌اي از فراداده‌هاي پايان‌نامه و رساله‌هاي فارسي استفاده شده است. راهكار پيشنهادي روي اين داده‌ها آزمايش و ارزيابي شده و باعث افزايش دقت، بازخواني و معيار F شده است.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
لينک به اين مدرک :
بازگشت