عنوان مقاله :
بهبود عملكرد سامانه بازشناسي گفتار پيوسته با ويژگيهاي استخراج شده از مانيفولدهاي گفتاري در فضاي بازسازي شده فاز
عنوان فرعي :
Performance Improvement of Continuous Speech Recognition System Using Extracted Features of Speech Manifolds in the Reconstructed Phase Space
پديد آورندگان :
شكفته، ياسر نويسنده , , الماس گنج ، فرشاد نويسنده AlmasGanj, F
اطلاعات موجودي :
دوفصلنامه سال 1392 شماره 19
كليدواژه :
فضاي بازسازي شده فاز , مانيفولدهاي واجي , استخراج ويژگي , امتياز درستنمايي , بازشناسي گفتار پيوسته , شبكه عصبي
چكيده فارسي :
يكي از رويكردهاي موثّر در بهبود كارايي سامانههاي بازشناسي گفتار، طراحي روشهاي متنوع استخراج ويژگي از سيگنال گفتار و تركيب اطّلاعات بهدست آمده از آنهاست. تحقيقات اخير نشان ميدهد كه سيگنال گفتار رفتار غيرخطي و آشوبي دارد؛ ولي از اين مشخّصه سيگنال گفتار در سامانههاي بازشناسي پيوسته گفتار استفاده نميشود. يكي از حوزههاي مناسب براي نمايش مشخصههاي پويا و غيرخطّي سيگنال آشوبي، فضاي بازسازي شده فاز (RPS) است، از اينرو در اين مقاله يك روش جديد استخراج ويژگي مبتنيبر RPS (LLRPS) پيشنهاد شده است. اين ويژگيها از امتياز شباهت تراژكتوري سيگنال گفتار جاسازيشده در RPS با مجموعهاي از مانيفولدهاي واجي از پيش تعيين شده محاسبه ميشوند. سپس مقادير احتمال پسين واجي بهوسيله ساختار شبكه عصبي TMLP از روي ويژگيهاي LLRPS تخمينزده ميشود. ساختار شبكه عصبي استفاده شده، بهصورتي است كه علاوهبر توانايي استخراج اطّلاعات پويا، قابليت پيادهسازي روشهاي متنوع تركيب خروجي دارد. نتايج آزمايشها برروي مجموعهدادگان گفتاري فارسدات نشان ميدهد كه تركيب غيرخطّي خروجي سامانههاي بازشناسي، شامل ويژگيهاي متداول كپستروم MFCC و ويژگيهاي پيشنهادي LLRPS، بهترتيب منجر به بهبود 94/3 درصد در دقّت بازشناسي قاب و 02/4 درصد در دقّت بازشناسي واج نسبت به عملكرد سامانه بازشناسي پايه شده است.
چكيده لاتين :
Design of new feature extraction methods out of the speech signal and combination of their obtained information are the most effective approaches to improve the performance of automatic speech recognition (ASR) system. Recent researches have been shown that the speech signal contains nonlinear and chaotic properties, but the effects of these properties were not used in the continuous ASR systems. Reconstructed phase space (RPS) is an appropriate domain to exhibit nonlinear properties of a chaotic signal. Therefore, in this paper a new method is proposed to utilize the RPS-based features (LLRPS). These features will be computed using similarity scores between the embedded speech signal in the RPS and a set of predefined phoneme manifolds. Then, TMLP-based neural network estimates phoneme posterior probability over the LLRPS features. This network includes some useful properties such as extracting dynamic information and output combination methods. Experimental results using Farsdat speech database show that nonlinear combination of the speech recognition outputs including traditional MFCC features and LLRPS features, leading to improvement of 3.94% and 4.02% in the accuracy of frame and phoneme recognition, respectively.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 19 سال 1392
كلمات كليدي :
#تست#آزمون###امتحان