بررسي اصطلاحات مركب در پيكرۀ وابستگي فارسي

عنوان به زبان ديگر

Multiword Expressions in Persian Dependency Treebank

پديدآورندگان

فعال همدانچي مريم falmary@ro.ru دكتري زبان‌شناسي مقابله‌اي دانشگاه دوستي ملل روسيه , قدردوست نخچي سعيده sghadrdoust@ut.ac.ir دانشجوي دكتري زبان‌شناسي همگاني دانشگاه تهران

تعداد صفحه

كليدواژه

اصطلاح مركب , همپايگي , تركيبات , مقولۀ دستوري , وابستگي جهاني

سال انتشار

1395

عنوان كنفرانس

دومين همايش ملي زبان شناسي پيكره اي

زبان مدرك

فارسي

چكيده فارسي

اصطلاحات مركب چالشي عمده در پردازش زبان‌هاي طبيعي هستند، زيرا ويژگي‌ها و خصوصيات نحوي و صرفي اين تركيبات از روي اجزا و ساختارشان قابل‌تشخيص نيست. رويكرد پيكرۀ وابستگي زبان فارسي در تجزيه و تحليل اين تركيبات صرفاً رايانه‌محور است و براي مطالعات بين‌زباني، كاربردهاي نظري و آموزشي كارآمد نيست. در اين پيكره براي بررسي افعال مركب راهكارها و برچسب‌هاي متعددي پيش‌بيني شده است، اما با ساير انواع اصطلاحات مركب تقريباً شبيه به گروه‌هاي نحوي معمولي برخورد مي‌شود. از سوي ديگر، بازيابي اصطلاحات از پيكره براي اهداف پژوهشي تقريباً غيرممكن است. به‌علاوه، مواردي نيز از ناسازگاري مقولۀ دستوري نيز در پيكره به چشم مي‌خورد. در اين پژوهش، بيش از هزار جمله از پيكره استخراج و بررسي شده، سپس با استفاده از راهكاري تلفيقي، برگرفته از پيكرۀ وابستگي جهاني مجدداً برچسب‌زني مي‌گردد. نتايج به دست آمده، قابليت اين روش را براي بهينه‌سازي پيكرۀ وابستگي زبان فارسي تأييد مي‌كند.

چكيده لاتين

Multiword Expressions (MWE) are a key problem in Natural Language Processing (NLP). Their properties are not predictable from their lexemes and their mode of combination. The Persian Dependency Treebank employs a totally computational approach in analyzing these compounds, which makes it potentially inadequate for cross-linguistic studies, theoretical, and educational applications. While several strategies and labels are employed to analyze Persian complex predicates, other types of compounds are treated almost like normal syntactic groups. Retrieving of MWE from the corpus is almost impossible. Furthermore, there are instances of syntactic category mismatches. In this study, about one thousand sentences of the corpus are extracted, analysed, and converted to a modified format of the Universal Dependencies. The results prove the method being reliable and adequate enough to present for further modification of the Persian Dependency Treebank.

كشور

ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=200207