شماره ركورد :
685145
عنوان مقاله :
بازشناسي متون فارسي با استفاده از مدل زباني n-gram و پالايش گرامري
عنوان فرعي :
Persian Text Recognition using n-gram Language Models and Grammatical Refinement
پديد آورندگان :
شيرواني، پريسا نويسنده دانشكده مهندسي برق و كامپيوتر، دانشگاه سمنان، سمنان، ايران Shirvani, Parisa , وطن‌خواه خوزاني ، مهرداد نويسنده دانشكده مهندسي كامپيوتر، دانشگاه شفيلد هالام، شفيلد ، انگلستان Vatankhah , Mehrdad , يغمايي، خشايار نويسنده دانشكده مهندسي برق و كامپيوتر، دانشگاه سمنان، سمنان، ايران Yaghmaie, Khashayar
اطلاعات موجودي :
دوفصلنامه سال 1393 شماره 21
رتبه نشريه :
علمي پژوهشي
تعداد صفحه :
9
از صفحه :
107
تا صفحه :
115
كليدواژه :
بازشناسي متن , پردازش زبان هاي طبيعي , فارسي , مدل سازي زبان فارسي
چكيده فارسي :
بازشناسي متون، در سال هاي اخير بسيار مورد توجه قرار گرفته است. ارايه الگوريتم هاي بازشناسي، برگرفته از ساختار گرامري و معنايي اين زبان مي تواند روش موثري در پردازش هاي ديگر مربوط به خط و زبان فارسي باشد. در اين مقاله با استفاده از شاخه علمي پردازش زبان‌هاي طبيعي، يك الگوريتم سه‌مرحله اي به‌منظور بازشناسي متون فارسي بر مبناي بازشناسي جملات فارسي ارايه مي شود. اين روش شامل مراحل تركيب زيركلمات به‌منظور ساخت كلمات و سپس جملات بالقوه معني دار و درنهايت استفاده از دو مدل زباني و چند قاعده گرامري، به‌منظور تشخيص جمله صحيح براساس انطباق با گرامر زبان فارسي است.آزمايش‌هاي متعدد نشان مي دهد كه دقت روش ارايه‌شده براي مرحله ساخت كلمات و سپس جملات بالقوه معني دار98 درصد و براي تشخيص جمله صحيح با استفاده از مدل زباني بايگرام 85 درصد و براي مدل زباني ترايگرام 88 درصد است.
چكيده لاتين :
Text recognition has been one of the growing research topics in recent years. Many of these researches have focused on recognition of letters and sub-words as a basis for identifying larger text structures such as words, phrases and sentences. This thesis presents a new method in which the recognized sub-words are combined in order to provide meaningful words and sentences in Farsi texts. Since there may be more than one meaningful combination, the potential meaningful sentences are filtered using Farsi grammatical rules. In the sub-word recognition stage, a double scan method is exploited while the words are extracted using a database of frequent Farsi words. In the last stage a 2 and 3-gram method as well as Farsi grammatical rules are employed to identify the most meaningful sentence from all potential candidates. Experiments have proved the accuracy of the exploited method to be more than 85 percent.
سال انتشار :
1393
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 21 سال 1393
كلمات كليدي :
#تست#آزمون###امتحان
لينک به اين مدرک :
بازگشت