عنوان مقاله :
بررسي تاثيرات ريشهيابي در بازيابي اطّلاعات در زبان فارسي
عنوان فرعي :
Using Persian Stemmer in Information Retrieval System
پديد آورندگان :
احسان ، نوا نويسنده , , فيلي ، هشام نويسنده feili, hesham
اطلاعات موجودي :
دوفصلنامه سال 1390 شماره 15
كليدواژه :
information retrieval , Natural language processing , Stemmer , پردازش زبان طبيعي و بازيابي اطّلاعات , ريشهيابي
چكيده فارسي :
يكي از مهم ترين موضوعات در پردازش زبان طبيعي و بازيابي اطّلاعات، يافتن ريشه كلمات است. ريشه كلمه، جزيي از كلمه است كه پس از حذف وندهاي كلمه (پيشوند، پسوند و ميانوند) باقي ميماند. يكي از روش هاي افزايش كارايي سيستمهاي بازيابي اطّلاعات، استفاده از ريشهيابي كلمات است. زيرا اشتقاقات مختلف يك كلمه به ريشه آن كلمه تبديل مي شوند. درنتيجه جستجو بر اساس ريشه كلمه انجام خواهد شد و اندازه ساختار ايندكس كاهش مييابد. در اين مقاله الگوريتمي براي به دست آوردن ريشه كلمات در زبان فارسي ارايه شده است و سپس نتيجه آن در بازيابي اطّلاعات با الگوريتمهاي متفاوت رتبهبندي، مورد ارزيابي قرار گرفته است. الگوريتم ارايه شده با استفاده از قواعد ساخت واژي زبان فارسي و استفاده از مجموعه لغات براي جلوگيري از ايجاد ريشههاي نادرست، به ريشهيابي كلمات ميپردازد. تعداد قواعد استفاده شده 43 قانون است. با استفاده از الگوريتم ارايه شده، اندازه ساختار ايندكس پنج درصد كاهش يافته است و همچنين ميزان ميانگين متوسّط دقّت (mean average precision) در سيستم بازيابي اطّلاعات حدود پنج درصد افزايش يافته است.
چكيده لاتين :
Using the language-specific behavior in information retrieval systems can improve the quality of the retrieved results significantly. Part of the word that remains after removing its affixes is called stem. Stemming process can be used for improving the relevancy of the results in information retrieval system. Different morphological variants of words (plural, past tense…) will be mapped into their stem which can be used in the searching process of information retrieval tasks. Using the stem instead of the surface of the word reduces the size of the index file significantly. In this paper, an algorithm for stemming Persian words is described and its effect on information retrieval system is evaluated with different ranking methods. By using Persian Porter stemmer with just 43 rules, the size of index file reduced about 5% while the mean average precision of the retrieval information system improved about 5%.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 15 سال 1390
كلمات كليدي :
#تست#آزمون###امتحان