شماره ركورد كنفرانس :
3848
عنوان مقاله :
تهيه خودكار زيرپيكره از پيكره زباني
عنوان به زبان ديگر :
Developing a Sub-corpus from a Linguistic Corpus
پديدآورندگان :
قيومي مسعود masood.ghayoomi@gmail.com پژوهشگاه علوم انساني و مطالعات فرهنگي
تعداد صفحه :
17
كليدواژه :
پيكره زباني , زيرپيكره , بردار معنايي , خوشه‌بندي
سال انتشار :
1395
عنوان كنفرانس :
دومين همايش ملي زبان شناسي پيكره اي
زبان مدرك :
فارسي
چكيده فارسي :
در اين مقاله به بررسي چگونگي تهيه خودكار يك زيرپيكره با اندازه مشخص از پيكره زباني خواهيم پرداخت. براي انجام اين امر، ابتدا واژه‌هاي جملات به بردار معنايي تبديل مي‌گردد. سپس بردار جمله به دست مي‌آيد. با داشتن بردار جملات مي‌توان از يك نرم‌افزار خوشه‌بندي براي خوشه‌بندي جملات استفاده كرد. جملات خوشه‌بندي‌شده مجدداً از حالت بردار خارج شده و به شكل واژگاني واژه‌ها تبديل مي‌شود. در مرحله آخر با توجه به حجم زيرپيكره مورد نظر، تعدادي از جملات هر خوشه به صورت تصادفي انتخاب مي‌گردد تا زيرپيكره ساخته شود.
چكيده لاتين :
In this study, the implementation of automatic development of a sub-corpus with a determined size from a linguistic corpus is examined. To this end, the words in the sentences are represented as vectors. Then, the sentence vector is achieved from the words vectors. The sentence vector can be used for clustering. After clustering, the clustered sentences are converted back to the original word forms. In the final step, with respect to the size of the sub-corpus, a number of sentences from each cluster are randomly selected and gathered together to create the sub-corpus.
كشور :
ايران
لينک به اين مدرک :
بازگشت