شماره ركورد كنفرانس :
3848
عنوان مقاله :
پيكرۀ تيتر خبرگزاريهاي فارسيزبان
عنوان به زبان ديگر :
A Corpus of Persian News Headlines
پديدآورندگان :
ميرزائي آزاده azadeh.mirzaei@atu.ac.ir استاديار گروه زبانشناسي دانشگاه علامه طباطبائي , صفري پگاه phsafari@yahoo.com كارشناسي ارشد هوش مصنوعي دانشگاه الزهرا
كليدواژه :
تيتر خبر , پيكره , ليد , خبرگزاري , پردازش زبان طبيعي , قطعهبندي
عنوان كنفرانس :
دومين همايش ملي زبان شناسي پيكره اي
چكيده فارسي :
مقالۀ حاضر به معرفي پيكرۀ تيتر خبرگزاريهاي فارسيزبان ، ويژگيها و نحوۀ شكلگيري آن ميپردازد. اين پيكره 110198 تيتر خبري را از 13 خبرگزاري فارسيزبان گردآوري كرده است. براي هر تيتر سه برچسب نام خبرگزاري، تاريخ خبر و طبقۀ موضوعي آن مشخص شده و علاوه بر تيتر، ليد متناظر با آن نيز درصورت وجود جمعآوري شده است. سپس هر تيتر قطعهبندي و ريشهيابي شده و برچسب اجزاء سخن براي هر واژه تعيين گرديده است. به اين ترتيب پيكرۀ حاضر مجموعهاي بيش از يك ميليون كلمه را شامل ميشود كه دادۀ ارزشمندي را در اختيار زبانشناسان و همچنين پژوهشگران حوزۀ پردازش زبان طبيعي قرار ميدهد. همچنين ليدهاي خبري نيز بصورت جداگانه پردازش شده و پس از قطعهبندي، ريشهيابي و جملهبندي مجموعهاي بالغ بر سه ميليون كلمه را ايجاد كردهاست. اين مقاله علاوه بر معرفي پيكرۀ مورد اشاره، در بررسي بايدها و نبايدهاي تيتر خبر و مشخصاً در بررسي اين پيشنهاد كه تيترهاي خبري ترجيحاً بايد داراي فعل باشند به بررسي اين ويژگي در پيكرۀ تيترخبرگزاريهاي فارسيزبان پرداخته است. يافتهها نشان ميدهد كه از ميان تيترهاي خبري پيكرۀ حاضر حدود 58 درصد از تيترها داراي فعل هستند.
چكيده لاتين :
In this study a Persian corpus of news titles entitled “A Corpus of Persian News Headlines”, is presented and its features and construction procedure are discussed. This corpus contains 110198 news headlines taken from 13 different Persian news agencies. Each headline is presented along with three labels: The agency title, the date of release and the subjective category. Furthermore, the leads associated with each headline are provided. All of the headlines have been tokenized, lemmatized and received the corresponding POS tags which resulted in a corpus with more than 1 million words and worthy to be used as a valuable resource for linguistics and Natural Language Processing researchers. Moreover, in order to enrich the corpus the leads have been tokenized, lemmatized, and split into sentences resulted in more than 3 million words. In this research study, after presenting the corpus, some of the most accepted considerations in writing news headlines, such as using verbs or narrating news in a sentence form, are examined. All in all, the results revealed that 58 percent of the news headlines entail verbs in their structures.