شماره ركورد كنفرانس :
4859
عنوان مقاله :
شناسايي موجوديت‌هاي نامدار در متون فارسي رسانه هاي اجتماعي با ديدگاه يادگيري ماشين
عنوان به زبان ديگر :
A Machine Learning Approach for Named Entity Recognition in Persian
پديدآورندگان :
عسگري بيدهندي مجيد majid.asgari@gmail.com دانشگاه علم و صنعت ايران , مينايي بيدگلي بهروز b_minaei@iust.ac.ir دانشگاه علم و صنعت ايران
تعداد صفحه :
8
كليدواژه :
شناسايي موجوديت‌هاي نامدار , پردازش زبان طبيعي , پيكره متني رسانه‌هاي اجتماعي , زبان فارسي
سال انتشار :
1398
عنوان كنفرانس :
پنجمين كنفرانس بين المللي وب پژوهي
زبان مدرك :
فارسي
چكيده فارسي :
شناسايي موجوديت‌هاي نامدار از مهم‌ترين پيش‌پردازش‌ها براي بسياري از مسائل پردازش زبان طبيعي است. با وجود پژوهش‌هاي صورت گرفته در مورد شناسايي موجوديت‌هاي نامدار فارسي، عملكرد راه‌حل‌هاي پيشنهادي هنوز با جايگاه كنوني اين عمليات در زبان انگليسي برابري نمي‌كند. علاوه بر اين، بنا بر اطلاعاتي كه ما داريم، تمام پيكره‌هاي متني تشخيص موجوديت‌هاي نامدار در فارسي (از جمله ParsNER و ArmanPersoNERCorpus) بر اساس مجموعه‌ي بي‌جن‌خان ساخته شده است، كه از محتويات روزنامه‌ي همشهري، به عنوان محبوب‌ترين مجموعه‌ي داراي برچسب‌هاي ادات سخن در زبان فارسي ايجاد شده‌است. به اين ترتيب، تمام روش‌هاي شناسايي موجوديت‌هاي نامدار در زبان فارسي، بر روي داده‌هاي خبري آموزش داده شده است و اين روش‌ها براي اجرا روي كاربردهاي ديگر مانند متون رسانه‌هاي اجتماعي به اندازه كافي منعطف نيستند. در اين مقاله، پيكره متني ParsNER-Social معرفي مي‌شود كه مبتني بر مجموعه داده‌هاي شبكه‌هاي اجتماعي و روشي مبتني بر ميدان‌هاي تصادفي شرطي به منظور شناسايي موجوديت‌هاي نامدار پياده‌سازي شده‌است. اين روش با پيشرفته‌ترين روش‌هاي شناسايي موجوديت‌هاي نامدار در زبان فارسي مقايسه شده و نتايج بدست‌آمده نشان‌دهنده‌ي برتري روش پيشنهادي بر آن‌ها است.
چكيده لاتين :
Named Entity Recognition (NER) is one of the most important prerequisites for many natural language processing tasks. Despite the many recent research studies on the Persian NER, the proposed solutions are not still as accurate as its state of the art in English. Furthermore, to the best of our knowledge, all of the public corpora for the Persian NER (including ParsNER and ArmanPersoNER) are based on Bijankhan corpus, which is created from the content of Hamshahri newspaper in 2004. Correspondingly, all of industrial NER models in the Persian, are special-purpose for the news data and not flexible enough to be run on the other applications, such as social media texts. In this paper, we introduce ParsNER-Social, a corpus which is crafted from the social media data and a method based on conditional random fields for named entity recognition. The method is compared with the state-of-the-art NER methods in the Persian language and the results prove the superiority of the proposed method to them.
كشور :
ايران
لينک به اين مدرک :
بازگشت