عنوان مقاله :
سامانۀ رفع ابهام معنايي از حروف اضافه در زبان فارسي با استفاده از قالبهاي معنايي
عنوان به زبان ديگر :
Preposition sense disambiguation in Persian using semantic frames
پديد آورندگان :
مظفري، زهرا دانشگاه سيستان و بلوچستان , تاكي، گيتي دانشگاه سيستان و بلوچستان , يوسفيان، پاكزاد دانشگاه سيستان و بلوچستان , صباغ جعفري، مجتبي دانشگاه ولي عصر (عج) رفسنجان - گروه مهندسي كامپيوتر
كليدواژه :
زبانشناسي رايانشي , پردازش زبان طبيعي , سامانۀ رفع ابهام معنايي , حروف اضافه , قالبهاي معنايي
چكيده فارسي :
رفع ابهام معنايي از كلمات در بافت يكي از مهمترين چالشها در حوزۀ پردازش زبان طبيعي و زبانشناسي رايانشي است. در اين ميان حروف اضافه، بهخصوص در زبان فارسي، در پژوهشهاي مربوط به رفع ابهام معنايي همواره ناديده انگاشته شدهاند. ازاينرو، پژوهش حاضر قصد دارد با ارائۀ الگوريتمي جديد مبتني بر قالبهاي معنايي، سامانهاي قاعدهمند جهت رفع ابهام معنايي از حروف اضافه «از»، «در»، «با» و «تا» در زبان فارسي ارائه دهد. روش به كار گرفتهشده در اين پژوهش و الگوريتم پيشنهادي منحصربهفرد است. دادگان مورداستفاده در اين پژوهش شامل 1000 جمله دادۀ آموزشي، 100 جمله دادۀ توسعه و 500 جمله دادۀ تست است كه از منابع اينترنتي و شبكههاي اجتماعي همچون يوتيوب جمعآوري گرديده است. جهت انجام كار، تمام حروف اضافه موردنظر پژوهش برچسبدهي معنايي شده و براي آنها در پيكرۀ آموزشي، قالبهاي معنايي بر اساس زبان قالب بنياد مينسكي (1975) تعريف شدند. همچنين براي كلمات قبل و بعد حروف اضافه در پيكره نيز قالبهايي تهيه و در فايل داده مدخلها وارد سامانه گرديدند. الگوريتم پژوهش در سه مسير با استفاده از اطلاعات موجود در قالبها، اقدام به تعيين معناي حروف اضافه در جملات ميكند. نتايج آزمايشهاي دادۀ تست، نشان دهندۀ دقت بالاي عملكرد سامانه (99/16%) در رفع ابهام معنايي از حروف اضافه در زبان فارسي است.
چكيده لاتين :
Word sense disambiguation is one of the important challenges in natural language processing (NLP) and computational linguistics. However, preposition sense disambiguation especially, in Persian has been neglected. Therefore, the present study seeks to define an algorithm based on semantic frames to disambiguate the prepositions; «az», «dar», «ba» and «ta» in Persian. The algorithm and its implementation are new in this project. The data includes 1000 sentences as a training corpus, 100 sentences as a developing data and 500 sentences as a test data collected from internet sources and social networks such as YouTube. The mentioned prepositions were sense annotated. Semantic frames based on frame-based language (Minsky, 1975) were constructed for the mentioned prepositions in the training corpus and for the words before and after the prepositions included in the entries as a data file. The algorithm in three paths based on the information in the frames assigns a meaning to the prepositions in the sentences. The results indicated the high precision (99.16%) of the system in disambiguating the prepositions in Persian
عنوان نشريه :
پژوهشهاي زباني
عنوان نشريه :
پژوهشهاي زباني