ارزيابي تجربي و مطالعه الگوريتم هاي ريشه يابي متن

عنوان به زبان ديگر

Experimental Evaluation and Study of Text Stemming Algorithms

پديدآورندگان

صانعي نژاد محمد امين mohammadamin_saneinejad@yahoo.com موسسه آموزش عالي آپادانا شيراز , همايوني هاله موسسه آموزش عالي آپادانا شيراز , جعفرزاده مهسا موسسه آموزش عالي آپادانا شيراز

تعداد صفحه

كليدواژه

NLP , ريشه يابي(Stemming) , پردازش زبان طبيعي , الگوريتم هاي ريشه يابي , استمرها

سال انتشار

1402

عنوان كنفرانس

ششمين همايش ملي فناوريهاي نوين در مهندسي برق، كامپيوتر و مكانيك ايران

زبان مدرك

فارسي

چكيده فارسي

در هر زباني، كلمات با توجه به نقشي كه در جملات ايفا مي كنند، به شكل‌هاي ظاهري متفاوتي خواهند بود. اما با توجه به اين كه تمامي آن‌ها از يك ريشه ساخته مي شوند، از نظر معنا و مفهوم در گام هاي بعدي تشخيصي به ما كمك شاياني خواهند نمود. ازهمين رو در بسياري از روش هاي مبتني بر NLP ، ابتدا مي بايست ريشه كلمات را پيدا كنيم. براي ريشه‌يابي كلمات معمولاً از روش ريشه يابي(Stemming) استفاده مي‌شود كه اين روش در نهايت ريشه‌ي يك كلمه را به دست مي آورد. ريشه‌يابي متن يكي از مراحل اوليه پيش‌پردازش براي برنامه‌هاي پردازش زبان طبيعي است كه براي تبديل فرم‌هاي مختلف كلمه به يك فرم ريشه استاندارد استفاده مي‌شود. براي زبان‌هاي مبتني بر خط عربي، تجزيه و تحليل كافي متن به‌وسيله استمرها به دليل تعداد زياد ساختارهاي مبهم زبان، كاري چالش برانگيز است. در ادبيات، معيارهاي ارزيابي عملكرد چندگانه براي افراد بنيادي وجود دارد كه هر كدام عملكرد را از جنبه خاصي توصيف مي‌كنند. در اين كار، ما روش‌هاي ارزيابي ريشه‌هاي متني را بررسي و تحليل مي‌كنيم تا معيارهايي براي اندازه‌گيري بهتر عملكرد پايه ابداع كنيم. نقش جنبه‌هاي مختلف اندازه‌گيري عملكرد بنيادي مانند ويژگي‌هاي اصلي، شايستگي‌ها و كاستي‌ها با استفاده از يك زبان منابع كمياب مورد بحث قرار مي‌گيرد. از طريق آزمايش‌هايمان به اين نتيجه مي‌رسيم كه معيارهاي ارزيابي كنوني تنها مي‌توانند ميانگين تركيب كلمات را بدون توجه به صحت ريشه اندازه‌گيري كنند.

چكيده لاتين

In any language, words will have different appearances according to the role they play in sentences. But due to the fact that all of them are made from the same root, in terms of meaning and concept, they will help us a lot in the next diagnostic steps. Therefore, in many NLP-based methods, we must first find the root of the words. To find the roots of words, the stemming method is usually used, and this method finally obtains the root of a word. Text stemming is one of the first pre-processing steps for natural language processing programs, which are used to convert different word forms into a standard stem form. For languages based on Arabic script, adequate analysis of text by strings is a challenging task due to the large number of ambiguous language structures. In the literature, there are multiple performance evaluation criteria for fundamental individuals, each of which describes performance in a specific aspect. In this work, we review and analyze methods for evaluating text roots to devise metrics to better measure base performance. The role of different aspects of fundamental performance measurement such as core features, competencies and shortcomings are discussed using a scarce resource language. Through our experiments, we conclude that the current evaluation measures can only measure the average word combination regardless of root correctness

كشور

ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=333189