عنوان مقاله :
تصحيح خودكار خطا در درختبانك نحوي با استفاده از يادگيري ماشيني انتقالمحور
عنوان فرعي :
A machine learning approach for correcting the errors of a Treebank
پديد آورندگان :
زارعي، فرزانه نويسنده دانشكده مهندسي برق و كامپيوتر، پرديس دانشكده هاي فني، دانشگاه تهران، تهران، ايران Zarei, Farzaneh , فيلي ، هشام نويسنده دانشكده مهندسي برق و كامپيوتر، پرديس دانشكده هاي فني، دانشگاه تهران، تهران، ايران Faili, Heshaam , سادات ميريان ، مريم نويسنده دانشكده مهندسي برق و كامپيوتر، پرديس دانشكده هاي فني، دانشگاه تهران، تهران، ايران Sadat mirian, Maryam
اطلاعات موجودي :
دوفصلنامه سال 1394 شماره 25
كليدواژه :
دستور درخت-پيوندي , تشخيص و تصحيح خطا , يادگيري انتقالمحور , درخت بانك نحوي
چكيده فارسي :
درخت بانك يكي از پركاربردترين منابع در بهكارگيري روش هاي يادگيري باسرپرستي و نيمهسرپرستي در سامانه هاي پردازش زبان هاي طبيعي مانند ابزارهاي شناسايي گفتار، تحليلگرهاي نحوي و نرم افزارهاي مترجم ماشيني است. روش هاي مختلفي جهت توليد درخت بانك وجود دارد كه مي توان آن ها را به دو طبقه اصلي، روش هاي توليد دستي و روش هاي توليد خودكار تقسيم كرد. در هر يك از اين روش ها، درخت بانك حاصل داراي خطاهايي هستند كه البته ميزان اين خطاها در روش توليد خودكار به مراتب بيشتر است.وجود خطا در درختبانك باعث مي شود كه نتوان از آن بهعنوان يك منبع مناسب استفاده كرد. در اين مقاله يك روش بهطور كامل خودكار ارايه شده است كه در آن سعي شده يك درخت بانك كه با دستور درخت-پيوندي لغوي برچسب گذاري شده است، اصلاح شود. روش ارايهشده نوعي روش تشخيص و تصحيح خطا براساس يادگيري انتقالمحور است و بر روي يك درخت بانك كه پيشتر به روش خودكار توليد شده بود، اجرا شد و سبب بهبود آن بانك از 68% به 79% طبق معيار F1شد.
چكيده لاتين :
The Treebank is one of the most useful resources for supervised or semi-supervised learning in many NLP tasks such as speech recognition, spoken language systems, parsing and machine translation. Treebank can be developded in different ways that could be, generally, categorized in manually and statistical approaches.
While the resulted Treebank in each of these methods has the annotation error, one which accomplished by statistical method has much more errors than the other. Error in Treenabanks causes that they are not useful anymore. In this paper an statistical method is proposed which aims to correct the errors in a specific English LTAG-Treebank. The proposed method was applied to a automatically generated Treebank and an improvement from 68% to 79% respect to F-measure is retrieved.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 25 سال 1394
كلمات كليدي :
#تست#آزمون###امتحان