عنوان مقاله :
تخمين اطمينان خروجي ترجمه ماشيني با استفاده از ويژگيهاي جديد ساختاري و محتوايي
عنوان فرعي :
Confidence Estimation for Machine Translation using New Syntactic and Lexico-semantic Features
پديد آورندگان :
صالحي، مرضيه نويسنده دانشكده مهندسي، دانشگاه الزهرا (س)، تهران، ايران Salehi, Marzieh , خديوي ، شهرام نويسنده آزمايشگاه تكنولوژي زبان انسان، دانشكده مهندسي كامپيوتر، دانشگاه اميركبير، تهران، ايران Khadivi, Shahram , رياحي ، نوشين نويسنده دانشكده مهندسي، دانشگاه الزهرا (س)، تهران، ايران Riahi, Noushin
اطلاعات موجودي :
دوفصلنامه سال 1394 شماره 25
كليدواژه :
اطلاعات متقابل , تخمين اطمينان , محتوا , ترجمه ماشيني , ساختار
چكيده فارسي :
با وجود پيشرفتهاي اخير در حوزه ترجمه ماشيني، اين فناوري قادر به ترجمه دقيق متون نيست و گاهي ممكن است ويرايش خروجي آن زمان بيشتري نسبت به ترجمه دستي بگيرد. با اين حال با داشتن تخميني از كيفيت خروجي، كاربران ميتوانند بهطور مناسبي با ناكاملبودن اين فناوري برخورد كنند. براي كاربردهايي كه هدف آنها بالابردن كيفيت ترجمه ماشيني است، نظير تركيب خروجي سامانههاي ترجمهگر مختلف، بازترتيب فهرست چند ترجمه بهتر و بازتوليد خروجي، لازم است كه بدون داشتن ترجمه مرجع تخميني از درستي خروجي داشته باشيم. هنوز روش كارامدي براي تخمين درستي كلمات خروجي ترجمه ماشيني وجود ندارد. در اين مقاله پنج گروه ويژگي جديد در قالب ويژگيهاي مبتني بر محتوا و مبتني بر ساختار ارايه شده است. نتايج نشان ميدهد كه ويژگي مبتني بر محتوا نسبت به بهترين سامانه پايه (2) برتري 63/9 درصدي در CER، 5/8 درصدي در F-measure و 1/5 درصدي در F-measure طبقه منفي داشته است. همچنين تركيب ويژگيهاي مبتني بر ساختار ارايهشده، در مقايسه با بهترين سامانه پايه بهترتيب بهبود 59/4، 1/4 و 2 درصدي در معيارهاي CER، F-measure و F-measure طبقه منفي ايجاد كرده است.
چكيده لاتين :
Machine translation has been developed over last years. But this technology is still not able to exactly translate texts. Also post-editing the output may takes longer time than the translation process. So having a quality estimation of machine translation output can be very useful. Moreover, Confidence Estimation can be useful for some applications that their goal is to improve machine translation quality such as system combination, regenerating and pruning. But there is not yet any completely satisfactory method for CE task. We propose 5 syntactic and lexico-semantic features that are never used for confidence estimation task. The experimental results show that proposed lexico-semantic feature outperforms the best baseline system (2) by 9.63% in CER, 8.5% in F-measure and 5.1% in negative class F-measure. Moreover the combination of proposed syntactic features outperforms the best baseline system by 4.49% in CER, 4.1% in F-measure and 2% in negative class F-measure.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 25 سال 1394
كلمات كليدي :
#تست#آزمون###امتحان