شماره ركورد :
1055144
عنوان مقاله :
ارائه سيستم خلاصه ساز متون فارسي برمبناي ويژگي هاي زبان شناختي و رگرسيون
عنوان به زبان ديگر :
An Automatic Persian Text Summarization System Based on Linguistic Features and Regression
پديد آورندگان :
سلطاني، محمود دانشگاه صنعتي قوچان , نصيري، جلال الدين پژوهشگاه علوم و فناوري اطلاعات , عسكريان، احسان دانشگاه فردوسي مشهد
تعداد صفحه :
19
از صفحه :
1809
تا صفحه :
1827
كليدواژه :
خلاصه سازي تك سندي , ويژگي هاي زبان شناختي متن , رگراسيون خطي
چكيده فارسي :
گسترش روزافزون داده هاي متني فارسي در فضاي اينترنت و پيچيدگي جستجو در ميان انبوه اين اسناد، خلاصه سازي خودكار متون فارسي را به يكي از زمينه هاي تحقيقاتي مورد توجه تبديل كرده است. در اين مقاله روشي كارا براي خلاصه سازي خودكار متون فارسي ارائه شده است. روش پيشنهادي كه به صورت انتخابي و تك سندي است، خلاصه سازي را بر اساس رتبه بندي جملات و انتخاب مهم ترين آنها انجام مي دهد. اهميت هر جمله از متن با تركيب خطي مقادير هفت ويژگي زبان شناختي مستخرج از سند براي هر جمله بدست مي آيد. وزن بهينه هر ويژگي در اين تركيب از روش رگرسيون خطي و با استفاده از پيكره آموزشي پاسخ محاسبه شده است. پس از محاسبه اهميت جملات متن، در هر مرحله از الگوريتم، يك جمله با اهميت بيشتر تا رسيدن به نرخ فشرده سازي مورد نظر انتخاب مي شود. اين جمله علاوه بر اينكه داراي بيشترين اهميت است، داراي كمترين ميزان شباهت با جملات انتخاب شده در مراحل قبلي نيز است. نتايج بدست آمده از مقايسه الگوريتم پيشنهادي با دو سيستم خلاصه ساز ايجاز و فارسي سام با استفاده از پيكره پاسخ، نشان مي دهد در بيشتر معيارهاي ارزيابي پيشرفت قابل توجهي حاصل شده است.
چكيده لاتين :
Considering the vast amount of existing written information and the shortage of time, optimal summarization of books, articles, news reports, etc. on the Web is a major concern of researchers. In this paper, we propose a new approach for Persian single-document summarization based on several linguistic features of text. In our approach after extracting the linguistic features for each sentence, the weight of features is learned by a linear regression method. We select one sentence with maximum score at each step of algorithm. The score of each sentence is calculated based on two factors: first, sum of the weighted features and second, the amount of its similarity to the sentences that are selected for final summary previously. We use an automatic evaluation tool to compare our approach with other existing approaches. The result indicates that our method improves the performance of summarization.
سال انتشار :
1397
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
فايل PDF :
7584060
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
لينک به اين مدرک :
بازگشت