مرکز منطقه ای اطلاع رساني علوم و فناوري - پيكره موجوديت‌هاي نامدار كارانس، تلاشي براي توسعۀ نيمه خودكار پيكره زباني

شماره ركورد كنفرانس :

3848

عنوان مقاله :

پيكره موجوديت‌هاي نامدار كارانس، تلاشي براي توسعۀ نيمه خودكار پيكره زباني

عنوان به زبان ديگر :

Karans Named Entity Recognition Corpus, Towards a Framework for Semi-Automatic Corpus Development

پديدآورندگان :

بشري موحد محمد حسن mhbashari@karans.co كارشناس نرم افزار، شركت كارانس ايرانيان , خالقي سيد مرتضي morteza.khaleghi@karans.co كارشناسي ارشد فناوري اطلاعات شركت كارانس ايرانيان، , مينايي بيدگلي بهروز b_minaei@iust.ac.ir دانشيار دانشگاه علم و صنعت ايران

تعداد صفحه :

كليدواژه :

تشخيص موجوديت‌هاي اسمي , پردازش زبان طبيعي , پيكرۀ زباني

سال انتشار :

1395

عنوان كنفرانس :

دومين همايش ملي زبان شناسي پيكره اي

زبان مدرك :

فارسي

چكيده فارسي :

در اين مقاله روشي براي توسعه سريع يك پيكره بزرگ براي تشخيص موجوديت‌هاي نامدار شرح داده شده است. در اين روش ابتدا به روش قانون محور متون خام درون يك پيكره دلخواه، برچسب‌گذاري مي‌شوند. در گام بعدي با استفاده از ميدان شرطي تصادفي داده‌ها برچسب‌هاي جديد دريافت مي‌كنند. پس از اين مرحله با استفاده از عامل انساني، برچسب‌ها تصحيح مي‌شوند و فرآيند آموزش و برچسب‌گذاري مجددا تكرار مي‌شود. اين روال تا رسيدن به همگرايي ادامه خواهد يافت. گام پاياني، مرور تمام پيكره، به منظور اضافه كردن برچسب‌هاي جاافتادۀ احتمالي به وسيلۀ عامل خبره انساني است.

چكيده لاتين :

Named Entity Recognition (NER) is a fundamental step for many natural language processing tasks. This study presents a framework for semi-automatic development of NER corpus. In such manner, the raw texts are tagged by rule-based and gazetteer-based algorithms at first. Then with exploiting a Conditional Random Field (CRF) tagger, new words with similar context to previous words get similar tags. The main step is an iterative tagging in which the individuals play the editor and supervisor roles (not dummy taggers). After the first correction of CRF-made tags by human, the iterative learning will continue until the convergence point is reached. When the convergence occurs, humans add new tags to the small part of corpus (not all) as such these new tags are expected to help the machine to find a new pattern. The final step is to do the final review. The final review is done very similar to traditional corpus tagging except the majority of NEs are tagged before entering this step.

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=200199