مرکز منطقه ای اطلاع رساني علوم و فناوري - بررسي تاثيرات ريشه‌يابي در بازيابي اطّلاعات در زبان فارسي

شماره ركورد :

548079

عنوان مقاله :

بررسي تاثيرات ريشه‌يابي در بازيابي اطّلاعات در زبان فارسي

عنوان فرعي :

Using Persian Stemmer in Information Retrieval System

پديد آورندگان :

احسان ، نوا نويسنده , , فيلي ، هشام نويسنده feili, hesham

اطلاعات موجودي :

دوفصلنامه سال 1390 شماره 15

رتبه نشريه :

علمي پژوهشي

تعداد صفحه :

از صفحه :

تا صفحه :

كليدواژه :

information retrieval , Natural language processing , Stemmer , پردازش زبان طبيعي و بازيابي اطّلاعات , ريشه‌يابي

چكيده فارسي :

يكي از مهم ترين موضوعات در پردازش زبان طبيعي و بازيابي اطّلاعات، يافتن ريشه كلمات است. ريشه كلمه، جزيي از كلمه است كه پس از حذف وندهاي كلمه (پيشوند، پسوند و ميانوند) باقي مي‌ماند. يكي از روش هاي افزايش كارايي سيستم‌هاي بازيابي اطّلاعات، استفاده از ريشه‌يابي كلمات است. زيرا اشتقاقات مختلف يك كلمه به ريشه آن كلمه تبديل مي شوند. درنتيجه جستجو بر اساس ريشه كلمه انجام خواهد شد و اندازه ساختار ايندكس كاهش مي‌يابد. در اين مقاله الگوريتمي براي به دست آوردن ريشه كلمات در زبان فارسي ارايه شده است و سپس نتيجه آن در بازيابي اطّلاعات با الگوريتم‌هاي متفاوت رتبه‌بندي، مورد ارزيابي قرار گرفته است. الگوريتم ارايه شده با استفاده از قواعد ساخت واژي زبان فارسي و استفاده از مجموعه لغات براي جلوگيري از ايجاد ريشه‌هاي نادرست، به ريشه‌يابي كلمات مي‌پردازد. تعداد قواعد استفاده شده 43 قانون است. با استفاده از الگوريتم ارايه شده، اندازه ساختار ايندكس پنج درصد كاهش يافته است و همچنين ميزان ميانگين متوسّط دقّت (mean average precision) در سيستم بازيابي اطّلاعات حدود پنج درصد افزايش يافته است.

چكيده لاتين :

Using the language-specific behavior in information retrieval systems can improve the quality of the retrieved results significantly. Part of the word that remains after removing its affixes is called stem. Stemming process can be used for improving the relevancy of the results in information retrieval system. Different morphological variants of words (plural, past tense…) will be mapped into their stem which can be used in the searching process of information retrieval tasks. Using the stem instead of the surface of the word reduces the size of the index file significantly. In this paper, an algorithm for stemming Persian words is described and its effect on information retrieval system is evaluated with different ranking methods. By using Persian Porter stemmer with just 43 rules, the size of index file reduced about 5% while the mean average precision of the retrieval information system improved about 5%.

سال انتشار :

1390

عنوان نشريه :

پردازش علائم و داده ها

عنوان نشريه :

پردازش علائم و داده ها

اطلاعات موجودي :

دوفصلنامه با شماره پیاپی 15 سال 1390

كلمات كليدي :

#تست#آزمون###امتحان

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=8&DC=548079