شماره ركورد كنفرانس :
3848
عنوان مقاله :
پيكره موجوديتهاي نامدار كارانس، تلاشي براي توسعۀ نيمه خودكار پيكره زباني
عنوان به زبان ديگر :
Karans Named Entity Recognition Corpus, Towards a Framework for Semi-Automatic Corpus Development
پديدآورندگان :
بشري موحد محمد حسن mhbashari@karans.co كارشناس نرم افزار، شركت كارانس ايرانيان , خالقي سيد مرتضي morteza.khaleghi@karans.co كارشناسي ارشد فناوري اطلاعات شركت كارانس ايرانيان، , مينايي بيدگلي بهروز b_minaei@iust.ac.ir دانشيار دانشگاه علم و صنعت ايران
كليدواژه :
تشخيص موجوديتهاي اسمي , پردازش زبان طبيعي , پيكرۀ زباني
عنوان كنفرانس :
دومين همايش ملي زبان شناسي پيكره اي
چكيده فارسي :
در اين مقاله روشي براي توسعه سريع يك پيكره بزرگ براي تشخيص موجوديتهاي نامدار شرح داده شده است. در اين روش ابتدا به روش قانون محور متون خام درون يك پيكره دلخواه، برچسبگذاري ميشوند. در گام بعدي با استفاده از ميدان شرطي تصادفي دادهها برچسبهاي جديد دريافت ميكنند. پس از اين مرحله با استفاده از عامل انساني، برچسبها تصحيح ميشوند و فرآيند آموزش و برچسبگذاري مجددا تكرار ميشود. اين روال تا رسيدن به همگرايي ادامه خواهد يافت. گام پاياني، مرور تمام پيكره، به منظور اضافه كردن برچسبهاي جاافتادۀ احتمالي به وسيلۀ عامل خبره انساني است.
چكيده لاتين :
Named Entity Recognition (NER) is a fundamental step for many natural language processing tasks. This study presents a framework for semi-automatic development of NER corpus. In such manner, the raw texts are tagged by rule-based and gazetteer-based algorithms at first. Then with exploiting a Conditional Random Field (CRF) tagger, new words with similar context to previous words get similar tags. The main step is an iterative tagging in which the individuals play the editor and supervisor roles (not dummy taggers). After the first correction of CRF-made tags by human, the iterative learning will continue until the convergence point is reached. When the convergence occurs, humans add new tags to the small part of corpus (not all) as such these new tags are expected to help the machine to find a new pattern. The final step is to do the final review. The final review is done very similar to traditional corpus tagging except the majority of NEs are tagged before entering this step.