استخراج خودكار معادل‎ هاي واژگاني از پيكره‎هاي دو زبانه موازي

عنوان به زبان ديگر

Automatic extraction of lexical equivalences from bilingual parallel corpora

پديد آورندگان

موسوي ميانگاه، طيبه نويسنده گروه زبان شناسي,دانشگاه پيام نور,ايران Mosavi Miangah, Tayebeh , شكيبا، مهشيد نويسنده گروه كامپيوتر,دانشگاه پيام نور,ايران Shakiba, Mahshid

اطلاعات موجودي

دوفصلنامه سال 1394

رتبه نشريه

علمي پژوهشي

تعداد صفحه

از صفحه

تا صفحه

كليدواژه

Parallel Corpus , EnglishPersian translation , parallel concordance , mutual information , مطابقه دو زبانه , استخراج معادل‌هاي واژگاني , , پيكره موازي انگليسي -فارسي , phrasebased translation , ترجمه خودكار , بازيافت اطلاعات , wordlevel alignment

چكيده فارسي

امروزه به مدد ظهور انواع فناوري‌هاي رايانه‌اي، پيكره‌هاي زباني نقش بسيار مهمي در حل انواع مختلف مسائل زبانشناختي ايفا مي‎كنند. پيكره‌هاي دو زبانه موازي در سطح جمله و در سطح واژه مي‎توانند براي بازيابي واحدهاي تك‌واژه‌اي و يا حتي چند واژه‎اي براحتي مورد‌ استفاده قرار‎گيرند كه اين امر كاربردهاي مفيدي در حوزه‎هاي مختلف رايانه و زبان خواهد‎ داشت. هدف اين مقاله به‌كارگيري يك پيكره موازي انگليسي– فارسي از‎قبل طراحي‎شده در‎جهت ساخت يك مطابقه(كشف اللغات) دو زبانۀ كارآمد با‎ استفاده از آمارۀ اطلاعات متقابل است. در اينجا از آماره اطلاعات متقابل استفاده مي‎شود تا همترازي در سطح واژه بين جملات انگليسي و فارسي پيكرۀ مورد ‎نظر صورت‎گيرد. يك پيكرۀ زباني همتراز‌شده در سطح واژه مسلماً كاربردهاي زيادي از جمله در تهيه نرم‎افزار حافظۀ ترجمه، مديريت مجموعه اصطلاحات، بازيابي اطلاعات دوزبانه، سيستم ترجمه ماشيني مبتني ‎بر‎آمار و مانند آن دارد. با استفاده از يك الگوريتم ابتكاري آزمايشي ترتيب‎ داده ‎شده و مقايسه‎اي بين برونداد همترازسازي خودكار با جملات همتراز‎شده توسط مترجم انساني صورت‎گرفت. نتايج اين آزمايش نشان‎ داد كه برنامه مطابقه گزارش‌شده در اين تحقيق مي‌تواند صحتي معادل 75‎ درصد را به دست‌آورد.

چكيده لاتين

Today, linguistic corpora play a crucial role in solving different types of linguistic issues thanks to emerging computer technology. Bilingual parallel corpora aligned at sentence and word level can be retrieved for singleword as well as multiword units making easier further applications in different computer and language areas.In this paper we address the problem of exploiting EnglishPersian parallel corpus in making an efficient bilingual concordance using mutual information measure. Here, a mutual information statistics is used to add word level alignments between English and Persian sentence pairs in our parallel corpus. A parallel corpus with alignments on the word level has certainly many applications among which phrasebased translation memory software, terminology management, crosslanguage information retrieval, statistical machine translation system and the like. We conducted an experiment using our algorithm and compared alignment outputs with manually aligned sentences. Experimental results revealed that our concordancing program gained the accuracy rate of 75% which seems very encouraging.

سال انتشار

1394

عنوان نشريه

پژوهش هاي زبان شناسي

عنوان نشريه

پژوهش هاي زبان شناسي

اطلاعات موجودي

دوفصلنامه با شماره پیاپی سال 1394

كلمات كليدي

#تست#آزمون###امتحان

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=911934