شماره ركورد كنفرانس
5192
عنوان مقاله
ارزيابي تجربي و مطالعه الگوريتم هاي ريشه يابي متن
عنوان به زبان ديگر
Experimental Evaluation and Study of Text Stemming Algorithms
پديدآورندگان
صانعي نژاد محمد امين mohammadamin_saneinejad@yahoo.com موسسه آموزش عالي آپادانا شيراز , همايوني هاله موسسه آموزش عالي آپادانا شيراز , جعفرزاده مهسا موسسه آموزش عالي آپادانا شيراز
تعداد صفحه
13
كليدواژه
NLP , ريشه يابي(Stemming) , پردازش زبان طبيعي , الگوريتم هاي ريشه يابي , استمرها
سال انتشار
1402
عنوان كنفرانس
ششمين همايش ملي فناوريهاي نوين در مهندسي برق، كامپيوتر و مكانيك ايران
زبان مدرك
فارسي
چكيده فارسي
در هر زباني، كلمات با توجه به نقشي كه در جملات ايفا مي كنند، به شكلهاي ظاهري متفاوتي خواهند بود. اما با توجه به اين كه تمامي آنها از يك ريشه ساخته مي شوند، از نظر معنا و مفهوم در گام هاي بعدي تشخيصي به ما كمك شاياني خواهند نمود. ازهمين رو در بسياري از روش هاي مبتني بر NLP ، ابتدا مي بايست ريشه كلمات را پيدا كنيم. براي ريشهيابي كلمات معمولاً از روش ريشه يابي(Stemming) استفاده ميشود كه اين روش در نهايت ريشهي يك كلمه را به دست مي آورد. ريشهيابي متن يكي از مراحل اوليه پيشپردازش براي برنامههاي پردازش زبان طبيعي است كه براي تبديل فرمهاي مختلف كلمه به يك فرم ريشه استاندارد استفاده ميشود. براي زبانهاي مبتني بر خط عربي، تجزيه و تحليل كافي متن بهوسيله استمرها به دليل تعداد زياد ساختارهاي مبهم زبان، كاري چالش برانگيز است. در ادبيات، معيارهاي ارزيابي عملكرد چندگانه براي افراد بنيادي وجود دارد كه هر كدام عملكرد را از جنبه خاصي توصيف ميكنند. در اين كار، ما روشهاي ارزيابي ريشههاي متني را بررسي و تحليل ميكنيم تا معيارهايي براي اندازهگيري بهتر عملكرد پايه ابداع كنيم. نقش جنبههاي مختلف اندازهگيري عملكرد بنيادي مانند ويژگيهاي اصلي، شايستگيها و كاستيها با استفاده از يك زبان منابع كمياب مورد بحث قرار ميگيرد. از طريق آزمايشهايمان به اين نتيجه ميرسيم كه معيارهاي ارزيابي كنوني تنها ميتوانند ميانگين تركيب كلمات را بدون توجه به صحت ريشه اندازهگيري كنند.
چكيده لاتين
In any language, words will have different appearances according to the role they play in sentences. But due to the fact that all of them are made from the same root, in terms of meaning and concept, they will help us a lot in the next diagnostic steps. Therefore, in many NLP-based methods, we must first find the root of the words. To find the roots of words, the stemming method is usually used, and this method finally obtains the root of a word. Text stemming is one of the first pre-processing steps for natural language processing programs, which are used to convert different word forms into a standard stem form. For languages based on Arabic script, adequate analysis of text by strings is a challenging task due to the large number of ambiguous language structures. In the literature, there are multiple performance evaluation criteria for fundamental individuals, each of which describes performance in a specific aspect. In this work, we review and analyze methods for evaluating text roots to devise metrics to better measure base performance. The role of different aspects of fundamental performance measurement such as core features, competencies and shortcomings are discussed using a scarce resource language. Through our experiments, we conclude that the current evaluation measures can only measure the average word combination regardless of root correctness
كشور
ايران
لينک به اين مدرک