شماره ركورد :
1126996
عنوان مقاله :
استخراج ويژگي‌هاي مقاوم گفتاري زير باندي با استفاده از شبكه‌هاي درهم‌پيچش چند دقتي
عنوان به زبان ديگر :
Robust sub-band speech feature extraction using multiresolution convolutional neural networks
پديد آورندگان :
نادري، نويد دانشگاه صنعتي خواجه‌نصيرالدين طوسي - دانشكده مهندسي كامپيوتر، تهران , ناصر شريف، بابك دانشگاه صنعتي خواجه‌نصيرالدين طوسي - دانشكده مهندسي كامپيوتر، تهران
تعداد صفحه :
12
از صفحه :
1393
تا صفحه :
1404
كليدواژه :
شبكه عصبي درهم پيچش , بازشناسي مقاوم گفتار , تك دقتي , چند دقتي , بانك فيلتر مل
چكيده فارسي :
شبكه‌هاي عصبي درهم‌پيچش (CNN) به‌عنوان گروهي از شبكه‌هاي عصبي عميق، در سال‌هاي اخير كاربرد فراواني در مدل‌سازي آكوستيك و همچنين استخراج ويژگي و مدل‌سازي توأم در بازشناسي گفتار يافته‌اند. در مقاله حاضر، پيشنهاد مي‌شود تا از CNN براي استخراج ويژگي مقاوم به نويز استفاده شود، درحالي‌كه ورودي CNN طيف سيگنال گفتار نويزي و خروجي هدف آن خروجي‌هاي متناظر تميز از بانك فيلتر مل است. به‌اين‌ترتيب CNN ويژگي‌هاي مقاوم به نويز را از طيف سيگنال گفتار استخراج مي‌نمايد. نقطه‌ضعف CNN در اين روش آن است كه تنها يك وضوح فركانسي ثابت را به كار مي‌گيرد. ازاين‌جهت، در اين مقاله استفاده از چند شبكه عصبي درهم‌پيچش با اندازه‌هاي فيلتر درهم‌پيچش متفاوت، جهت مدل‌سازي تفاوت وضوح فركانسي براي استخراج ويژگي از طيف سيگنال گفتار پيشنهاد مي‌شود. روش پيشنهادي را شبكه عصبي درهم‌پيچش چند دقتي (MRCNN) نام‌گذاري كرده‌ايم. آزمايش‌ها روي دادگان Aurora2 نشان مي‌دهند كه CNN نسبت به شبكه باور عميق در استخراج ويژگي مقاوم به نويز ميانگين دقت بازشناسي را 20 درصد بهبود مي‌دهد. همچنين نتايج نشان مي‌دهند كه MRCNN ميانگين دقت بازشناسي را نسبت به شبكه عصبي درهم‌پيچش استاندارد (تك دقتي) 1 درصد بهبود مي‌دهد.
چكيده لاتين :
Convolutional neural networks (CNNs), as a kind of deep neural networks, have been recently used for acoustic modeling and feature extraction along with acoustic modeling in speech recognition systems. In this paper, we propose to use CNN for robust feature extraction from the noisy speech spectrum. In the proposed manner, CNN inputs are noisy speech spectrum and its targets are denoised logarithm of Mel filter bank energies (LMFBs). Consequently, CNN extracts robust features from speech spectrum. The drawback of CNN in the proposed method is its fixed frequency resolution. Thus, we propose to use multiple CNNs with different convolution filter sizes to provide different frequency resolutions for feature extraction from the speech spectrum. We named this method as Multiresolution CNN (MRCNN). Recognition accuracy on Aurora 2 database, shows that CNNs outperform deep belief networks such that, CNN recognition accuracy has 20% relative improvement on average over DBN. However, results show that MRCNN recognition accuracy has 1% relative improvement on average over CNN.
سال انتشار :
1398
عنوان نشريه :
مهندسي برق دانشگاه تبريز
فايل PDF :
7823936
لينک به اين مدرک :
بازگشت