عنوان مقاله :
استخراج خودكار معادل هاي واژگاني از پيكرههاي دو زبانه موازي
عنوان به زبان ديگر :
Automatic extraction of lexical equivalences from bilingual parallel corpora
پديد آورندگان :
موسوي ميانگاه، طيبه نويسنده گروه زبان شناسي,دانشگاه پيام نور,ايران Mosavi Miangah, Tayebeh , شكيبا، مهشيد نويسنده گروه كامپيوتر,دانشگاه پيام نور,ايران Shakiba, Mahshid
اطلاعات موجودي :
دوفصلنامه سال 1394
كليدواژه :
Parallel Corpus , EnglishPersian translation , parallel concordance , mutual information , مطابقه دو زبانه , استخراج معادلهاي واژگاني , , پيكره موازي انگليسي -فارسي , phrasebased translation , ترجمه خودكار , بازيافت اطلاعات , wordlevel alignment
چكيده فارسي :
امروزه به مدد ظهور انواع فناوريهاي رايانهاي، پيكرههاي زباني نقش بسيار مهمي در حل انواع مختلف مسائل زبانشناختي ايفا ميكنند. پيكرههاي دو زبانه موازي در سطح جمله و در سطح واژه ميتوانند براي بازيابي واحدهاي تكواژهاي و يا حتي چند واژهاي براحتي مورد استفاده قرارگيرند كه اين امر كاربردهاي مفيدي در حوزههاي مختلف رايانه و زبان خواهد داشت. هدف اين مقاله بهكارگيري يك پيكره موازي انگليسي– فارسي ازقبل طراحيشده درجهت ساخت يك مطابقه(كشف اللغات) دو زبانۀ كارآمد با استفاده از آمارۀ اطلاعات متقابل است. در اينجا از آماره اطلاعات متقابل استفاده ميشود تا همترازي در سطح واژه بين جملات انگليسي و فارسي پيكرۀ مورد نظر صورتگيرد. يك پيكرۀ زباني همترازشده در سطح واژه مسلماً كاربردهاي زيادي از جمله در تهيه نرمافزار حافظۀ ترجمه، مديريت مجموعه اصطلاحات، بازيابي اطلاعات دوزبانه، سيستم ترجمه ماشيني مبتني برآمار و مانند آن دارد. با استفاده از يك الگوريتم ابتكاري آزمايشي ترتيب داده شده و مقايسهاي بين برونداد همترازسازي خودكار با جملات همترازشده توسط مترجم انساني صورتگرفت. نتايج اين آزمايش نشان داد كه برنامه مطابقه گزارششده در اين تحقيق ميتواند صحتي معادل 75 درصد را به دستآورد.
چكيده لاتين :
Today, linguistic corpora play a crucial role in solving different types of linguistic issues thanks to emerging computer technology. Bilingual parallel corpora aligned at sentence and word level can be retrieved for singleword as well as multiword units making easier further applications in different computer and language areas.In this paper we address the problem of exploiting EnglishPersian parallel corpus in making an efficient bilingual concordance using mutual information measure. Here, a mutual information statistics is used to add word level alignments between English and Persian sentence pairs in our parallel corpus. A parallel corpus with alignments on the word level has certainly many applications among which phrasebased translation memory software, terminology management, crosslanguage information retrieval, statistical machine translation system and the like. We conducted an experiment using our algorithm and compared alignment outputs with manually aligned sentences. Experimental results revealed that our concordancing program gained the accuracy rate of 75% which seems very encouraging.
عنوان نشريه :
پژوهش هاي زبان شناسي
عنوان نشريه :
پژوهش هاي زبان شناسي
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی سال 1394
كلمات كليدي :
#تست#آزمون###امتحان