شماره ركورد :
642428
عنوان مقاله :
بهبود عمل‌كرد سامانه بازشناسي گفتار پيوسته با ويژگي‌هاي استخراج شده از مانيفولدهاي گفتاري در فضاي بازسازي شده فاز
عنوان فرعي :
Performance Improvement of Continuous Speech Recognition System Using Extracted Features of Speech Manifolds in the Reconstructed Phase Space
پديد آورندگان :
شكفته، ياسر نويسنده , , الماس گنج ، فرشاد نويسنده AlmasGanj, F
اطلاعات موجودي :
دوفصلنامه سال 1392 شماره 19
رتبه نشريه :
علمي پژوهشي
تعداد صفحه :
16
از صفحه :
27
تا صفحه :
42
كليدواژه :
فضاي بازسازي شده فاز , مانيفولدهاي واجي , استخراج ويژگي , امتياز درست‌نمايي , بازشناسي گفتار پيوسته , شبكه عصبي
چكيده فارسي :
يكي از رويكردهاي موثّر در بهبود كارايي سامانه‌هاي بازشناسي گفتار، طراحي روش‌هاي متنوع استخراج ويژگي از سيگنال گفتار و تركيب اطّلاعات به‌دست آمده از آنهاست. تحقيقات اخير نشان مي‌دهد كه سيگنال گفتار رفتار غيرخطي و آشوبي دارد؛ ولي از اين مشخّصه سيگنال گفتار در سامانه‌هاي بازشناسي پيوسته گفتار استفاده نمي‌شود. يكي از حوزه‌هاي مناسب براي نمايش مشخصه‌هاي پويا و غيرخطّي سيگنال آشوبي، فضاي بازسازي شده فاز (RPS) است، از اين‌رو در اين مقاله يك روش جديد استخراج ويژگي مبتني‌بر RPS (LLRPS) پيشنهاد شده است. اين ويژگي‌ها از امتياز شباهت تراژكتوري سيگنال گفتار جاسازي‌شده در RPS با مجموعه‌اي از مانيفولدهاي واجي از پيش تعيين شده محاسبه مي‌شوند. سپس مقادير احتمال پسين واجي به‌وسيله ساختار شبكه عصبي TMLP از روي ويژگي‌هاي LLRPS تخمين‌زده مي‌شود. ساختار شبكه عصبي استفاده شده، به‌صورتي است كه علاوه‌بر توانايي استخراج اطّلاعات پويا، قابليت پياده‌سازي روش‌هاي متنوع تركيب خروجي دارد. نتايج آزمايش‌ها برروي مجموعه‌دادگان گفتاري فارس‌دات نشان مي‌دهد كه تركيب غيرخطّي خروجي سامانه‌هاي بازشناسي، شامل ويژگي‌هاي متداول كپستروم MFCC و ويژگي‌هاي پيشنهادي LLRPS، به‌ترتيب منجر به بهبود 94/3 درصد در دقّت بازشناسي قاب و 02/4 درصد در دقّت بازشناسي واج نسبت به عمل‌كرد سامانه بازشناسي پايه شده است.
چكيده لاتين :
Design of new feature extraction methods out of the speech signal and combination of their obtained information are the most effective approaches to improve the performance of automatic speech recognition (ASR) system. Recent researches have been shown that the speech signal contains nonlinear and chaotic properties, but the effects of these properties were not used in the continuous ASR systems. Reconstructed phase space (RPS) is an appropriate domain to exhibit nonlinear properties of a chaotic signal. Therefore, in this paper a new method is proposed to utilize the RPS-based features (LLRPS). These features will be computed using similarity scores between the embedded speech signal in the RPS and a set of predefined phoneme manifolds. Then, TMLP-based neural network estimates phoneme posterior probability over the LLRPS features. This network includes some useful properties such as extracting dynamic information and output combination methods. Experimental results using Farsdat speech database show that nonlinear combination of the speech recognition outputs including traditional MFCC features and LLRPS features, leading to improvement of 3.94% and 4.02% in the accuracy of frame and phoneme recognition, respectively.
سال انتشار :
1392
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 19 سال 1392
كلمات كليدي :
#تست#آزمون###امتحان
لينک به اين مدرک :
بازگشت