مرکز منطقه ای اطلاع رساني علوم و فناوري - توليد درخت‌بانك سازه‌اي زبان فارسي به روش نيمه‌خودكار

شماره ركورد كنفرانس :

4163

عنوان مقاله :

توليد درخت‌بانك سازه‌اي زبان فارسي به روش نيمه‌خودكار

عنوان به زبان ديگر :

Generating the Persian Constituency Treebank using a semi-automatic approach

پديدآورندگان :

دهقان محمدحسين mh.dehghan@ut.ac.ir دانشگاه تهران , ملاعباسي محمد mollaabbasi.m@ut.ac.ir دانشگاه تهران , فيلي هشام hfaili@ut.ac.ir دانشگاه تهران , شاكري آزاده shakery@ut.ac.ir دانشگاه تهران

تعداد صفحه :

كليدواژه :

پردازش زبان طبيعي , درخت‌بانك سازه‌اي , درخت‌بانك وابستگي , تجزيه‌گر سازه‌اي.

سال انتشار :

1396

عنوان كنفرانس :

چهارمين همايش ملي زبان شناسي رايانشي

زبان مدرك :

فارسي

چكيده فارسي :

در اين مقاله به توضيح مراحل برچسب‌زني و آماره‌هاي مربوط به درخت‌بانك سازه‌اي زبان فارسي مي‌پردازيم. اين درخت‌بانك شامل حدود 30000 جمله است كه به‌صورت نيمه‌خودكار و با تبديل ساختار وابستگي به سازه‌اي توليد شده‌است. در مرحلة اول ساختار وابستگي به‌صورت خودكار به ساختار سازه تبديل شده و سپس ساختار سازة توليدشده، به‌صورت دستي موردبازبيني قرار گرفته‌است. با كمك درخت‌بانك توليدشده دو تجزيه‌گر نحوي سازه‌اي آموزش داده شده‌است. با انجام يك پيش‌پردازش و افزودن اطلاعات مربوط به كلمه به برچسب كلمات كيفيت تجزيه‌گرها بهبود يافته و كيفيت نهايي 85.51 درصد به‌دست آمده‌است.

چكيده لاتين :

This paper describes the annotation process and statistics properties of the Persian constituency treebank. The treebank consists of 30,000 sentences. It was developed semi-automatic. First the dependency tree was converted to constituency tree. Then the constituency tree was corrected manually. Two constituency parsers were developed, by using the new constituency treebank. We achieve 85.51% in term of f1-score for the constituency parser with the help of a pre-processing.

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=232733