عنوان مقاله :
تشخيص اسامي اشخاص با استفاده از افزايش كلمههاي نامزد اسم در ميدانهاي تصادفي شرطي براي زبان عربي
عنوان فرعي :
Extracting person names using name candidate injection in a conditional random field model for Arabic language
پديد آورندگان :
عسگري بيدهندي ، مجيد نويسنده دانشكده كامپيوتر، دانشگاه علم و صنعت ايران،تهران، ايران Asgari bidhendi, Majid , ميناييبيدگلي، بهروز نويسنده Minaei-Bidgoli , behrouz
اطلاعات موجودي :
دوفصلنامه سال 1393 شماره 21
كليدواژه :
يادگيري ماشين , ميدانهاي تصادفي شرطي , تشخيص واحدهاي اسمي , زبان عربي , زبان فارسي
چكيده فارسي :
تشخيص و استخراج واحدهاي اسمي مانند نام اشخاص، مكانها، تاريخ و ساعت، در دادهكاوي از يك منبع الكترونيكي يا متني بسيار مفيد است. تشخيص درست واحدهاي اسمي، يك نياز مهم در حل مسايلي در حوزههاي جديد مانند پاسخگويي به سوالها، سيستمهاي خلاصهسازي، بازيابي اطلاعات، استخراج اطلاعات، ترجمه ماشيني، تفسير ويديويي و جستجوي معنايي در وب است. بهعلاوه، تشخيص واحدهاي اسمي ميتواند به ما در حل پيشرفتهترين مسايل پردازش زبان طبيعي همچون رفع ابهام معنايي ميان دو نام مشترك از رشتههاي متفاوت، پيدا كرد ارجاعها در مقالات علمي، تشخيص وابستگي ميان اشخاص و بهبود نتايج پرس و جوهايي شامل اسامي در موتورهاي جستجو كمك كند.
در سالهاي گذشته تلاش دانشمندان براي انجام عمليات تشخيص واحدهاي اسمي براي زبان انگليسي و ديگر زبانهاي اروپايي به نتايج بسيار خوبي منجر شده است، اما براي زبانهايي مانند فارسي و عربي، نتايج مناسب حاصل نشده است. يكي از اصليترين اهداف عمليات تشخيص واحدهاي اسمي، تشخيص اسامي اشخاص است. در اين مقاله سامانهاي براي تشخيص اسامي با بهكارگيري مفهوم «كلمههاي نامزد اسم» در مراحل آموزش و پيشبينيِ مدلي مبتني بر ميدانهاي تصادفي شرطي معرفي شده است. بهطورخاص، همراه با توسعه اين سامانه، پيكرههاي متني استانداردي از روي متون ديني كهن به زبان عربي ساخته شده است. همچنين حاصل كار سامانه بر روي دادههاي روزنامهاي كه توسط محققان ديگر ايجاد شده، بررسي شده است و نتايج بهدست آمده در مقايسه با نتايج سامانههاي ديگر روي همان دادهها، نشان ميدهد با استفاده از اين روش، دقت تشخيص اسامي در متون عربي به مقدار قابل توجهي بالا رفته است.
چكيده لاتين :
Named Entity Recognition and Extraction are very important tasks for discovering proper names including persons, locations, date, and time, inside electronic textual resources. Accurate named entity recognition system is an essential utility to resolve fundamental problems in question answering systems, summary extraction, information retrieval and extraction, machine translation, video interpretation and semantic query expansion. Furthermore, named entity recognition can help us in some state-of-art problems such as removing ambiguity between two common names in different fields, finding out citations in scientific articles, recognizing the associations among persons and improving the results of a search engine to search queries containing named entities.
Recently, many researches have been done on named entity recognition for English and other European languages which have led to efficient results; whereas the results are not convincing in Arabic, Persian and many of South Asian languages. One of the most necessary and problematic sub-tasks of named entity recognition is the person named extraction. In this article we have introduced a system for person named extraction in Arabic religious texts using "Proper Name candidate injection" by means of Conditional Random Field (CRF) method. Additionally, we have constructed a new corpus from traditional Arabic religious texts. Applying this method, our experiments have significantly achieved more efficient results.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 21 سال 1393
كلمات كليدي :
#تست#آزمون###امتحان