شماره ركورد كنفرانس :
4163
عنوان مقاله :
توليد درخت‌بانك سازه‌اي زبان فارسي به روش نيمه‌خودكار
عنوان به زبان ديگر :
Generating the Persian Constituency Treebank using a semi-automatic approach
پديدآورندگان :
دهقان محمدحسين mh.dehghan@ut.ac.ir دانشگاه تهران , ملاعباسي محمد mollaabbasi.m@ut.ac.ir دانشگاه تهران , فيلي هشام hfaili@ut.ac.ir دانشگاه تهران , شاكري آزاده shakery@ut.ac.ir دانشگاه تهران
تعداد صفحه :
20
كليدواژه :
پردازش زبان طبيعي , درخت‌بانك سازه‌اي , درخت‌بانك وابستگي , تجزيه‌گر سازه‌اي.
سال انتشار :
1396
عنوان كنفرانس :
چهارمين همايش ملي زبان شناسي رايانشي
زبان مدرك :
فارسي
چكيده فارسي :
در اين مقاله به توضيح مراحل برچسب‌زني و آماره‌هاي مربوط به درخت‌بانك سازه‌اي زبان فارسي مي‌پردازيم. اين درخت‌بانك شامل حدود 30000 جمله است كه به‌صورت نيمه‌خودكار و با تبديل ساختار وابستگي به سازه‌اي توليد شده‌است. در مرحلة اول ساختار وابستگي به‌صورت خودكار به ساختار سازه تبديل شده و سپس ساختار سازة توليدشده، به‌صورت دستي موردبازبيني قرار گرفته‌است. با كمك درخت‌بانك توليدشده دو تجزيه‌گر نحوي سازه‌اي آموزش داده شده‌است. با انجام يك پيش‌پردازش و افزودن اطلاعات مربوط به كلمه به برچسب كلمات كيفيت تجزيه‌گرها بهبود يافته و كيفيت نهايي 85.51 درصد به‌دست آمده‌است.
چكيده لاتين :
This paper describes the annotation process and statistics properties of the Persian constituency treebank. The treebank consists of 30,000 sentences. It was developed semi-automatic. First the dependency tree was converted to constituency tree. Then the constituency tree was corrected manually. Two constituency parsers were developed, by using the new constituency treebank. We achieve 85.51% in term of f1-score for the constituency parser with the help of a pre-processing.
كشور :
ايران
لينک به اين مدرک :
بازگشت