شماره ركورد كنفرانس :
4859
عنوان مقاله :
شناسايي موجوديتهاي نامدار در متون فارسي رسانه هاي اجتماعي با ديدگاه يادگيري ماشين
عنوان به زبان ديگر :
A Machine Learning Approach for Named Entity Recognition in Persian
پديدآورندگان :
عسگري بيدهندي مجيد majid.asgari@gmail.com دانشگاه علم و صنعت ايران , مينايي بيدگلي بهروز b_minaei@iust.ac.ir دانشگاه علم و صنعت ايران
كليدواژه :
شناسايي موجوديتهاي نامدار , پردازش زبان طبيعي , پيكره متني رسانههاي اجتماعي , زبان فارسي
عنوان كنفرانس :
پنجمين كنفرانس بين المللي وب پژوهي
چكيده فارسي :
شناسايي موجوديتهاي نامدار از مهمترين پيشپردازشها براي بسياري از مسائل پردازش زبان طبيعي است. با وجود پژوهشهاي صورت گرفته در مورد شناسايي موجوديتهاي نامدار فارسي، عملكرد راهحلهاي پيشنهادي هنوز با جايگاه كنوني اين عمليات در زبان انگليسي برابري نميكند. علاوه بر اين، بنا بر اطلاعاتي كه ما داريم، تمام پيكرههاي متني تشخيص موجوديتهاي نامدار در فارسي (از جمله ParsNER و ArmanPersoNERCorpus) بر اساس مجموعهي بيجنخان ساخته شده است، كه از محتويات روزنامهي همشهري، به عنوان محبوبترين مجموعهي داراي برچسبهاي ادات سخن در زبان فارسي ايجاد شدهاست. به اين ترتيب، تمام روشهاي شناسايي موجوديتهاي نامدار در زبان فارسي، بر روي دادههاي خبري آموزش داده شده است و اين روشها براي اجرا روي كاربردهاي ديگر مانند متون رسانههاي اجتماعي به اندازه كافي منعطف نيستند. در اين مقاله، پيكره متني ParsNER-Social معرفي ميشود كه مبتني بر مجموعه دادههاي شبكههاي اجتماعي و روشي مبتني بر ميدانهاي تصادفي شرطي به منظور شناسايي موجوديتهاي نامدار پيادهسازي شدهاست. اين روش با پيشرفتهترين روشهاي شناسايي موجوديتهاي نامدار در زبان فارسي مقايسه شده و نتايج بدستآمده نشاندهندهي برتري روش پيشنهادي بر آنها است.
چكيده لاتين :
Named Entity Recognition (NER) is one of the most important prerequisites for many natural language processing tasks. Despite the many recent research studies on the Persian NER, the proposed solutions are not still as accurate as its state of the art in English. Furthermore, to the best of our knowledge, all of the public corpora for the Persian NER (including ParsNER and ArmanPersoNER) are based on Bijankhan corpus, which is created from the content of Hamshahri newspaper in 2004. Correspondingly, all of industrial NER models in the Persian, are special-purpose for the news data and not flexible enough to be run on the other applications, such as social media texts. In this paper, we introduce ParsNER-Social, a corpus which is crafted from the social media data and a method based on conditional random fields for named entity recognition. The method is compared with the state-of-the-art NER methods in the Persian language and the results prove the superiority of the proposed method to them.