عنوان مقاله :
استخراج ويژگيهاي مقاوم گفتاري زير باندي با استفاده از شبكههاي درهمپيچش چند دقتي
عنوان به زبان ديگر :
Robust sub-band speech feature extraction using multiresolution convolutional neural networks
پديد آورندگان :
نادري، نويد دانشگاه صنعتي خواجهنصيرالدين طوسي - دانشكده مهندسي كامپيوتر، تهران , ناصر شريف، بابك دانشگاه صنعتي خواجهنصيرالدين طوسي - دانشكده مهندسي كامپيوتر، تهران
كليدواژه :
شبكه عصبي درهم پيچش , بازشناسي مقاوم گفتار , تك دقتي , چند دقتي , بانك فيلتر مل
چكيده فارسي :
شبكههاي عصبي درهمپيچش (CNN) بهعنوان گروهي از شبكههاي عصبي عميق، در سالهاي اخير كاربرد فراواني در مدلسازي آكوستيك و همچنين استخراج ويژگي و مدلسازي توأم در بازشناسي گفتار يافتهاند. در مقاله حاضر، پيشنهاد ميشود تا از CNN براي استخراج ويژگي مقاوم به نويز استفاده شود، درحاليكه ورودي CNN طيف سيگنال گفتار نويزي و خروجي هدف آن خروجيهاي متناظر تميز از بانك فيلتر مل است. بهاينترتيب CNN ويژگيهاي مقاوم به نويز را از طيف سيگنال گفتار استخراج مينمايد. نقطهضعف CNN در اين روش آن است كه تنها يك وضوح فركانسي ثابت را به كار ميگيرد. ازاينجهت، در اين مقاله استفاده از چند شبكه عصبي درهمپيچش با اندازههاي فيلتر درهمپيچش متفاوت، جهت مدلسازي تفاوت وضوح فركانسي براي استخراج ويژگي از طيف سيگنال گفتار پيشنهاد ميشود. روش پيشنهادي را شبكه عصبي درهمپيچش چند دقتي (MRCNN) نامگذاري كردهايم. آزمايشها روي دادگان Aurora2 نشان ميدهند كه CNN نسبت به شبكه باور عميق در استخراج ويژگي مقاوم به نويز ميانگين دقت بازشناسي را 20 درصد بهبود ميدهد. همچنين نتايج نشان ميدهند كه MRCNN ميانگين دقت بازشناسي را نسبت به شبكه عصبي درهمپيچش استاندارد (تك دقتي) 1 درصد بهبود ميدهد.
چكيده لاتين :
Convolutional neural networks (CNNs), as a kind of deep neural networks, have been recently used for acoustic modeling and feature extraction along with acoustic modeling in speech recognition systems. In this paper, we propose to use CNN for robust feature extraction from the noisy speech spectrum. In the proposed manner, CNN inputs are noisy speech spectrum and its targets are denoised logarithm of Mel filter bank energies (LMFBs). Consequently, CNN extracts robust features from speech spectrum. The drawback of CNN in the proposed method is its fixed frequency resolution. Thus, we propose to use multiple CNNs with different convolution filter sizes to provide different frequency resolutions for feature extraction from the speech spectrum. We named this method as Multiresolution CNN (MRCNN). Recognition accuracy on Aurora 2 database, shows that CNNs outperform deep belief networks such that, CNN recognition accuracy has 20% relative improvement on average over DBN. However, results show that MRCNN recognition accuracy has 1% relative improvement on average over CNN.
عنوان نشريه :
مهندسي برق دانشگاه تبريز