شماره ركورد كنفرانس :
4163
عنوان مقاله :
شناسايي موجوديتهاي نامدار در شبكههاي اجتماعي با رويكرد جمعسپاري
عنوان به زبان ديگر :
A Crowdsourcing-based Framework for Name Entity Recognition in Social Media Sites
پديدآورندگان :
بهراد شنآي shanay.behrad@ut.ac.ir دانشگاه تهران , صالحي مصطفي mostafa_salehi@ut.ac.ir دانشگاه تهران , ويسي هادي h.vaisi@ut.ac.ir دانشگاه تهران , جندقي پگاه jandaghi@ce.sharif.edu دانشگاه صنعتي شريف , رنجبر وحيد vranjbar@ut.ac.ir دانشگاه تهران
كليدواژه :
بيشينهسازي اميد , جمعسپاري , شبكههاي اجتماعي , شناسايي موجوديتهاي نامدار , محاسبات انساني.
عنوان كنفرانس :
چهارمين همايش ملي زبان شناسي رايانشي
چكيده فارسي :
شناسايي موجوديتهاي نامدار يكي از وظايف كليدي استخراج اطلاعات است و به تشخيص مجموعهاي از اسامي در متن (مانند: افراد، مكانها و سازمانها) و تعيين نوع آنها ميپردازد. اغلب سيستمهاي شناسايي موجوديتهاي نامدار، براساس الگوريتمهاي يادگيري ماشين عمل ميكنند و تمركز آنها روي متون رسمي است كه قواعد زبان در آنها به درستي رعايت شدهاست، ولي نتيجه اعمال اين سيستمها روي متون شبكههاي اجتماعي، دقت كمي دارد. بنابراين، رويكرد جديد جمعسپاري، براي حل اين مشكل مطرح شدهاست، كه در آن از هوش جمعي گروه بزرگي از افراد عادي بهره گرفته ميشود. يكي از چالشهاي اساسي در شناسايي موجوديتهاي نامدار كه در كارهاي گذاشته به آن توجه نشدهاست، وجود عدمقطعيت در تشخيص دستة صحيح برخي از موجوديتهاي نامدار است. اسمهايي وجود دارند كه ممكن است به بيش از يك دسته تعلق داشته باشند. در اين مقاله، با در نظر گرفتن اين چالش در تمام مراحل جمعسپاري و به كمك بستر آمازون مكانيكال ترك، به شناسايي موجوديتهاي نامدار در دادگان انگليسي توييتر پرداختهايم و با ارائه الگوريتمي مبتنيبر بيشينهسازي اميد، پاسخهاي نهايي را جمعآوري كردهايم. به كمك اين الگوريتم، دقت كار، در مقايسه با كارهاي پيشين، در مورد همه كلمات در حدود 5-7 درصد و در خصوص كلمات ابهامدار 14-16 درصد، افزايش يافته است.
چكيده لاتين :
Name Entity Recognition (NER) is one of the main components of information extraction systems. It identifies the name entities of a textual document into their categories such as names of persons, organizations and locations. The documents in microblog services or social media sites often include informal texts which their processing is challenging. However, existing machine learning methods that are trained based on formal tagged datasets operate poorly for these types of text. Crowdsourcing can be considered as an alternative approach for solving the NER problem. In general, this approach uses a large number of human contributors (called workers) and their capabilities for solving the problems that neither machines nor humans can solve alone. One of the most important challenges in NER is uncertainty in identifying right category of name entities which is addressed in this paper. To this end, we consider the uncertainty in every steps of crowdsourcing and use Amazon Mechanical Turk platform to do NER on Twitter data in English. Then, we provide an Expectation Maximization algorithm for collecting and evaluating answers of different workers. Our evaluation shows 5-7 and 14-16 percent improvement for all words and ambiguous words, respectively.