شماره ركورد كنفرانس :
4163
عنوان مقاله :
توليد درختبانك سازهاي زبان فارسي به روش نيمهخودكار
عنوان به زبان ديگر :
Generating the Persian Constituency Treebank using a semi-automatic approach
پديدآورندگان :
دهقان محمدحسين mh.dehghan@ut.ac.ir دانشگاه تهران , ملاعباسي محمد mollaabbasi.m@ut.ac.ir دانشگاه تهران , فيلي هشام hfaili@ut.ac.ir دانشگاه تهران , شاكري آزاده shakery@ut.ac.ir دانشگاه تهران
كليدواژه :
پردازش زبان طبيعي , درختبانك سازهاي , درختبانك وابستگي , تجزيهگر سازهاي.
عنوان كنفرانس :
چهارمين همايش ملي زبان شناسي رايانشي
چكيده فارسي :
در اين مقاله به توضيح مراحل برچسبزني و آمارههاي مربوط به درختبانك سازهاي زبان فارسي ميپردازيم. اين درختبانك شامل حدود 30000 جمله است كه بهصورت نيمهخودكار و با تبديل ساختار وابستگي به سازهاي توليد شدهاست. در مرحلة اول ساختار وابستگي بهصورت خودكار به ساختار سازه تبديل شده و سپس ساختار سازة توليدشده، بهصورت دستي موردبازبيني قرار گرفتهاست. با كمك درختبانك توليدشده دو تجزيهگر نحوي سازهاي آموزش داده شدهاست. با انجام يك پيشپردازش و افزودن اطلاعات مربوط به كلمه به برچسب كلمات كيفيت تجزيهگرها بهبود يافته و كيفيت نهايي 85.51 درصد بهدست آمدهاست.
چكيده لاتين :
This paper describes the annotation process and statistics properties of the Persian constituency treebank. The treebank consists of 30,000 sentences. It was developed semi-automatic. First the dependency tree was converted to constituency tree. Then the constituency tree was corrected manually. Two constituency parsers were developed, by using the new constituency treebank. We achieve 85.51% in term of f1-score for the constituency parser with the help of a pre-processing.