سامانۀ رفع ابهام معنايي از حروف اضافه در زبان فارسي با استفاده از قالب‌هاي معنايي

عنوان به زبان ديگر

Preposition sense disambiguation in Persian using semantic frames

پديد آورندگان

مظفري، زهرا دانشگاه سيستان و بلوچستان , تاكي، گيتي دانشگاه سيستان و بلوچستان , يوسفيان، پاكزاد دانشگاه سيستان و بلوچستان , صباغ جعفري، مجتبي دانشگاه ولي عصر (عج) رفسنجان - گروه مهندسي كامپيوتر

تعداد صفحه

از صفحه

تا صفحه

118

كليدواژه

زبان‌شناسي رايانشي , پردازش زبان طبيعي , سامانۀ رفع ابهام معنايي , حروف اضافه , قالب‌هاي معنايي

چكيده فارسي

رفع ابهام معنايي از كلمات در بافت يكي از مهم‌ترين چالش‌ها در حوزۀ پردازش زبان طبيعي و زبان‌شناسي رايانشي است. در اين ميان حروف اضافه، به‌خصوص در زبان فارسي، در پژوهش‌هاي مربوط به رفع ابهام معنايي همواره ناديده انگاشته شده‌اند. ازاين‌رو، پژوهش حاضر قصد دارد با ارائۀ الگوريتمي جديد مبتني بر قالب‌هاي معنايي، سامانه‌اي قاعده‌مند جهت رفع ابهام معنايي از حروف اضافه «از»، «در»، «با» و «تا» در زبان فارسي ارائه دهد. روش به كار گرفته‌شده در اين پژوهش و الگوريتم پيشنهادي منحصربه‌فرد است. دادگان مورداستفاده در اين پژوهش شامل 1000 جمله دادۀ آموزشي، 100 جمله دادۀ توسعه و 500 جمله دادۀ تست است كه از منابع اينترنتي و شبكه‌هاي اجتماعي همچون يوتيوب جمع‌آوري گرديده است. جهت انجام كار، تمام حروف اضافه موردنظر پژوهش برچسب‌دهي معنايي شده و براي آن‌ها در پيكرۀ آموزشي، قالب‌هاي معنايي بر اساس زبان قالب بنياد مينسكي (1975) تعريف شدند. همچنين براي كلمات قبل و بعد حروف اضافه در پيكره نيز قالب‌هايي تهيه‌ و در فايل داده مدخل‌ها وارد سامانه گرديدند. الگوريتم پژوهش در سه مسير با استفاده از اطلاعات موجود در قالب‌ها، اقدام به تعيين معناي حروف اضافه در جملات ‌مي‌كند. نتايج آزمايش‌هاي دادۀ تست، نشان‌ دهندۀ دقت بالاي عملكرد سامانه (99/16%) در رفع ابهام معنايي از حروف اضافه در زبان فارسي است.

چكيده لاتين

Word sense disambiguation is one of the important challenges in natural language processing (NLP) and computational linguistics. However, preposition sense disambiguation especially, in Persian has been neglected. Therefore, the present study seeks to define an algorithm based on semantic frames to disambiguate the prepositions; «az», «dar», «ba» and «ta» in Persian. The algorithm and its implementation are new in this project. The data includes 1000 sentences as a training corpus, 100 sentences as a developing data and 500 sentences as a test data collected from internet sources and social networks such as YouTube. The mentioned prepositions were sense annotated. Semantic frames based on frame-based language (Minsky, 1975) were constructed for the mentioned prepositions in the training corpus and for the words before and after the prepositions included in the entries as a data file. The algorithm in three paths based on the information in the frames assigns a meaning to the prepositions in the sentences. The results indicated the high precision (99.16%) of the system in disambiguating the prepositions in Persian

سال انتشار

1397

عنوان نشريه

پژوهشهاي زباني

فايل PDF

7497602

عنوان نشريه

پژوهشهاي زباني

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1015708