شماره ركورد كنفرانس :
4163
عنوان مقاله :
شناسايي موجوديت‌هاي نامدار در شبكه‌هاي اجتماعي با رويكرد جمع‌سپاري
عنوان به زبان ديگر :
A Crowdsourcing-based Framework for Name Entity Recognition in Social Media Sites
پديدآورندگان :
بهراد شن‌آي shanay.behrad@ut.ac.ir دانشگاه تهران , صالحي مصطفي mostafa_salehi@ut.ac.ir دانشگاه تهران , ويسي هادي h.vaisi@ut.ac.ir دانشگاه تهران , جندقي پگاه jandaghi@ce.sharif.edu دانشگاه صنعتي شريف , رنجبر وحيد vranjbar@ut.ac.ir دانشگاه تهران
تعداد صفحه :
23
كليدواژه :
بيشينه‌سازي اميد , جمع‌سپاري , شبكه‌هاي اجتماعي , شناسايي موجوديت‌هاي نامدار , محاسبات انساني.
سال انتشار :
1396
عنوان كنفرانس :
چهارمين همايش ملي زبان شناسي رايانشي
زبان مدرك :
فارسي
چكيده فارسي :
شناسايي موجوديت‌هاي نامدار يكي از وظايف كليدي استخراج اطلاعات است و به تشخيص مجموعه‌اي از اسامي در متن (مانند: افراد، مكان‌ها و سازمان‌ها) و تعيين نوع آنها مي‌پردازد. اغلب سيستم‌هاي شناسايي موجوديت‌هاي نامدار، براساس الگوريتم‌هاي يادگيري ماشين عمل مي‌كنند و تمركز آنها روي متون رسمي است كه قواعد زبان در آنها به درستي رعايت شده‌است، ولي نتيجه اعمال اين سيستم‌ها روي متون شبكه‌هاي اجتماعي، دقت كمي دارد. بنابراين، رويكرد جديد جمع‌سپاري، براي حل اين مشكل مطرح شده‌است، كه در آن از هوش جمعي گروه بزرگي از افراد عادي بهره گرفته مي‌شود. يكي از چالش‌هاي اساسي در شناسايي موجوديت‌هاي نامدار كه در كارهاي گذاشته به آن توجه نشده‌است، وجود عدم‌قطعيت در تشخيص دستة صحيح برخي از موجوديت‌هاي نامدار است. اسم‌هايي وجود دارند كه ممكن است به بيش از يك دسته تعلق داشته باشند. در اين مقاله، با در نظر گرفتن اين چالش در تمام مراحل جمع‌سپاري و به كمك بستر آمازون مكانيكال ترك، به شناسايي موجوديت‌هاي نامدار در دادگان انگليسي توييتر پرداخته‌ايم و با ارائه الگوريتمي مبتني‌بر بيشينه‌سازي اميد، پاسخ‌هاي نهايي را جمع‌آوري كرده‌ايم. به كمك اين الگوريتم، دقت كار، در مقايسه با كارهاي پيشين، در مورد همه كلمات در حدود 5-7 درصد و در خصوص كلمات ابهام‌دار 14-16 درصد، افزايش يافته است.
چكيده لاتين :
Name Entity Recognition (NER) is one of the main components of information extraction systems. It identifies the name entities of a textual document into their categories such as names of persons, organizations and locations. The documents in microblog services or social media sites often include informal texts which their processing is challenging. However, existing machine learning methods that are trained based on formal tagged datasets operate poorly for these types of text. Crowdsourcing can be considered as an alternative approach for solving the NER problem. In general, this approach uses a large number of human contributors (called workers) and their capabilities for solving the problems that neither machines nor humans can solve alone. One of the most important challenges in NER is uncertainty in identifying right category of name entities which is addressed in this paper. To this end, we consider the uncertainty in every steps of crowdsourcing and use Amazon Mechanical Turk platform to do NER on Twitter data in English. Then, we provide an Expectation Maximization algorithm for collecting and evaluating answers of different workers. Our evaluation shows 5-7 and 14-16 percent improvement for all words and ambiguous words, respectively.
كشور :
ايران
لينک به اين مدرک :
بازگشت