شماره ركورد كنفرانس :
3848
عنوان مقاله :
تهيه خودكار زيرپيكره از پيكره زباني
عنوان به زبان ديگر :
Developing a Sub-corpus from a Linguistic Corpus
پديدآورندگان :
قيومي مسعود masood.ghayoomi@gmail.com پژوهشگاه علوم انساني و مطالعات فرهنگي
كليدواژه :
پيكره زباني , زيرپيكره , بردار معنايي , خوشهبندي
عنوان كنفرانس :
دومين همايش ملي زبان شناسي پيكره اي
چكيده فارسي :
در اين مقاله به بررسي چگونگي تهيه خودكار يك زيرپيكره با اندازه مشخص از پيكره زباني خواهيم پرداخت. براي انجام اين امر، ابتدا واژههاي جملات به بردار معنايي تبديل ميگردد. سپس بردار جمله به دست ميآيد. با داشتن بردار جملات ميتوان از يك نرمافزار خوشهبندي براي خوشهبندي جملات استفاده كرد. جملات خوشهبنديشده مجدداً از حالت بردار خارج شده و به شكل واژگاني واژهها تبديل ميشود. در مرحله آخر با توجه به حجم زيرپيكره مورد نظر، تعدادي از جملات هر خوشه به صورت تصادفي انتخاب ميگردد تا زيرپيكره ساخته شود.
چكيده لاتين :
In this study, the implementation of automatic development of a sub-corpus with a determined size from a linguistic corpus is examined. To this end, the words in the sentences are represented as vectors. Then, the sentence vector is achieved from the words vectors. The sentence vector can be used for clustering. After clustering, the clustered sentences are converted back to the original word forms. In the final step, with respect to the size of the sub-corpus, a number of sentences from each cluster are randomly selected and gathered together to create the sub-corpus.