شماره ركورد كنفرانس :
3848
عنوان مقاله :
بررسي اصطلاحات مركب در پيكرۀ وابستگي فارسي
عنوان به زبان ديگر :
Multiword Expressions in Persian Dependency Treebank
پديدآورندگان :
فعال همدانچي مريم falmary@ro.ru دكتري زبانشناسي مقابلهاي دانشگاه دوستي ملل روسيه , قدردوست نخچي سعيده sghadrdoust@ut.ac.ir دانشجوي دكتري زبانشناسي همگاني دانشگاه تهران
كليدواژه :
اصطلاح مركب , همپايگي , تركيبات , مقولۀ دستوري , وابستگي جهاني
عنوان كنفرانس :
دومين همايش ملي زبان شناسي پيكره اي
چكيده فارسي :
اصطلاحات مركب چالشي عمده در پردازش زبانهاي طبيعي هستند، زيرا ويژگيها و خصوصيات نحوي و صرفي اين تركيبات از روي اجزا و ساختارشان قابلتشخيص نيست. رويكرد پيكرۀ وابستگي زبان فارسي در تجزيه و تحليل اين تركيبات صرفاً رايانهمحور است و براي مطالعات بينزباني، كاربردهاي نظري و آموزشي كارآمد نيست. در اين پيكره براي بررسي افعال مركب راهكارها و برچسبهاي متعددي پيشبيني شده است، اما با ساير انواع اصطلاحات مركب تقريباً شبيه به گروههاي نحوي معمولي برخورد ميشود. از سوي ديگر، بازيابي اصطلاحات از پيكره براي اهداف پژوهشي تقريباً غيرممكن است. بهعلاوه، مواردي نيز از ناسازگاري مقولۀ دستوري نيز در پيكره به چشم ميخورد. در اين پژوهش، بيش از هزار جمله از پيكره استخراج و بررسي شده، سپس با استفاده از راهكاري تلفيقي، برگرفته از پيكرۀ وابستگي جهاني مجدداً برچسبزني ميگردد. نتايج به دست آمده، قابليت اين روش را براي بهينهسازي پيكرۀ وابستگي زبان فارسي تأييد ميكند.
چكيده لاتين :
Multiword Expressions (MWE) are a key problem in Natural Language Processing (NLP). Their properties are not predictable from their lexemes and their mode of combination. The Persian Dependency Treebank employs a totally computational approach in analyzing these compounds, which makes it potentially inadequate for cross-linguistic studies, theoretical, and educational applications. While several strategies and labels are employed to analyze Persian complex predicates, other types of compounds are treated almost like normal syntactic groups. Retrieving of MWE from the corpus is almost impossible. Furthermore, there are instances of syntactic category mismatches. In this study, about one thousand sentences of the corpus are extracted, analysed, and converted to a modified format of the Universal Dependencies. The results prove the method being reliable and adequate enough to present for further modification of the Persian Dependency Treebank.