شماره ركورد :
1123538
عنوان مقاله :
طراحي و پياده‌سازي سامانه شناسايي و تصحيح خطاي املايي متون فارسي مبتني بر معناي واژگان
عنوان به زبان ديگر :
Design and implementation of Persian spelling detection and correction system based on Semantic
پديد آورندگان :
دستغيب، محمدباقر مركز منطقه‌اي اطلاع‌ رساني علوم و فناوري - گروه پژوهشي طراحي و عمليات سيستم‌ها , كليني، سارا مركز منطقه‌اي اطلاع‌ رساني علوم و فناوري - هوش ماشين و رباتيك , فخراحمد، مصطفي دانشگاه شيراز - دانشكده مهندسي برق و كامپيوتر - بخش علوم و مهندسي كامپيوتر
تعداد صفحه :
11
از صفحه :
117
تا صفحه :
127
كليدواژه :
سيستم خطا‌ ياب فارسي , تصحيح خطاي واژگان , شناسايي خطاي واژگان , پردازش زبان طبيعي , مدل زبان فارسي
چكيده فارسي :
طراحي و پياده‌سازي ابزارهاي پردازش زبان طبيعي فارسي، بر اساس ويژگي‌هاي خاص اين زبان، همواره با چالش‌هايي مواجه است. با توجه به اين‌كه سامانه‌هاي تصحيح املاي خودكار در حوزه‌هاي مختلفي از قبيل تصحيح پرس‌و‌جوها، بررسي املاي واژگان در اينترنت و برنامه‌هاي ويراستاري متني كاربرد دارد، لازم است تا براي زبان فارسي نيز نرم‌افزارهاي مناسب ايجاد شود. در اين مقاله ابتدا مقدمه‌اي در‌خصوص انواع خطاهاي املايي، راه‌كارهاي شناسايي و تصحيح خطاها شرح داده شده و سپس به معرفي سامانه پارسي‌اسپل كه بر اساس معناي واژگان فارسي، خطاها را شناسايي و تصحيح مي‌كند، مي‌پردازيم. با توجه به نتايج حاصله از ارزيابي سامانه پارسي‌اسپل با ساير نرم‌افزارهاي مشابه رايج، مشخص شد كه سامانه پارسي اسپل به‌عنوان ابزار مؤثري جهت شناسايي و پيشنهاد واژه‌هاي صحيح براي خطاهاي غير‌واژه و واژه حقيقي است. در مراحل شناسايي و پيشنهاد، معيارF- به‌صورت معناداري بهبود يافته است. همچنين نتايج ارزيابي نشان داده كه سامانه پارسي اسپل خطاهاي واژه حقيقي بيشتري را شناسايي كرده و قادر به ارائه و پيشنهاد واژه‌هاي جايگزين صحيح، براي واژه‌هاي نادرست است و مقدار معيار بازخواني در شناسايي خطاي واژه حقيقي به‌صورت معناداري بيشتر از نرم‌افزارهاي رقيب آن است.
چكيده لاتين :
Persian Language has a special feature (grapheme, homophone, and multi-shape clinging characters) in electronic devices. Furthermore, design and implementation of NLP tools for Persian are more challenging than other languages (e.g. English or German). Spelling tools are used widely for editing user texts like emails and text in editors. Also developing Persian tools will provide Persian programs to check spell and reduce errors in electronic texts. In this work, we review the spelling detection and correction methods, especially for the Persian language. The proposed algorithm consists of two steps. The first step is non-word error detection and correction by intelligent scoring algorithm. The second step is read-word error detection and correction. We propose a spelling system "Perspell” for Persian non-word and real-word errors using a hybrid scoring system and optimized language model by lexicon. This scoring system uses a combination of lexical and semantic features optimized by learning dataset. The weight of these features in scoring system is also optimized by learning phase. Perspell is compared with known Persian spellchecker systems and could overcome them in precision of detection and correction. Accordingly, the proposed Persian spell-checker system can also detect and correct real-word errors. This open challenge category of spelling is a complicated and time consuming task in Persian as well as, assessing the proposed method, the F-measure metric has improved significantly (about 10%) for detecting and correcting Persian words. In the proposed method, we used Persian language model with bootstrapping and smoothing to overcome data sparseness and lack of data. The bootstrapping is developed using a Persian dictionary and further we used word sense disambiguation to select the correct related replaced word.
سال انتشار :
1398
عنوان نشريه :
پردازش علائم و داده ها
فايل PDF :
7755444
لينک به اين مدرک :
بازگشت