مرکز منطقه ای اطلاع رساني علوم و فناوري - پيكرۀ تيتر خبرگزاري‌هاي فارسي‌زبان

شماره ركورد كنفرانس :

3848

عنوان مقاله :

پيكرۀ تيتر خبرگزاري‌هاي فارسي‌زبان

عنوان به زبان ديگر :

A Corpus of Persian News Headlines

پديدآورندگان :

ميرزائي آزاده azadeh.mirzaei@atu.ac.ir استاديار گروه زبان‌شناسي دانشگاه علامه طباطبائي , صفري پگاه phsafari@yahoo.com كارشناسي ارشد هوش مصنوعي دانشگاه الزهرا

تعداد صفحه :

كليدواژه :

تيتر خبر , پيكره , ليد , خبرگزاري , پردازش زبان طبيعي , قطعه‌بندي

سال انتشار :

1395

عنوان كنفرانس :

دومين همايش ملي زبان شناسي پيكره اي

زبان مدرك :

فارسي

چكيده فارسي :

مقالۀ حاضر به معرفي پيكرۀ تيتر خبرگزاري‌هاي فارسي‌زبان ، ويژگي‌ها و نحوۀ شكل‌گيري آن مي‌پردازد. اين پيكره 110198 تيتر خبري را از 13 خبرگزاري فارسي‌زبان گردآوري كرده است. براي هر تيتر سه برچسب نام خبرگزاري، تاريخ خبر و طبقۀ موضوعي آن مشخص شده و علاوه بر تيتر، ليد متناظر با آن نيز درصورت وجود جمع‌آوري شده است. سپس هر تيتر قطعه‌بندي و ريشه‌يابي شده و برچسب اجزاء سخن براي هر واژه تعيين گرديده است. به اين ترتيب پيكرۀ حاضر مجموعه‌اي بيش از يك ميليون كلمه را شامل مي‌شود كه دادۀ ارزشمندي را در اختيار زبان‌شناسان و همچنين پژوهشگران حوزۀ پردازش زبان طبيعي قرار مي‌دهد. همچنين ليدهاي خبري نيز بصورت جداگانه پردازش شده و پس از قطعه‌بندي، ريشه‌يابي و جمله‌بندي مجموعه‌اي بالغ بر سه ميليون كلمه را ايجاد كرده‌است. اين مقاله علاوه بر معرفي پيكرۀ مورد اشاره، در بررسي بايدها و نبايدهاي تيتر خبر و مشخصاً در بررسي اين پيشنهاد كه تيترهاي خبري ترجيحاً بايد داراي فعل باشند به بررسي اين ويژگي در پيكرۀ تيترخبرگزاري‌هاي فارسي‌زبان پرداخته است. يافته‌ها نشان مي‌دهد كه از ميان تيترهاي خبري پيكرۀ حاضر حدود 58 درصد از تيترها داراي فعل هستند.

چكيده لاتين :

In this study a Persian corpus of news titles entitled “A Corpus of Persian News Headlines”, is presented and its features and construction procedure are discussed. This corpus contains 110198 news headlines taken from 13 different Persian news agencies. Each headline is presented along with three labels: The agency title, the date of release and the subjective category. Furthermore, the leads associated with each headline are provided. All of the headlines have been tokenized, lemmatized and received the corresponding POS tags which resulted in a corpus with more than 1 million words and worthy to be used as a valuable resource for linguistics and Natural Language Processing researchers. Moreover, in order to enrich the corpus the leads have been tokenized, lemmatized, and split into sentences resulted in more than 3 million words. In this research study, after presenting the corpus, some of the most accepted considerations in writing news headlines, such as using verbs or narrating news in a sentence form, are examined. All in all, the results revealed that 58 percent of the news headlines entail verbs in their structures.

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=200213