عنوان مقاله :
بازشناسي مقاوم گفتار با استفاده از شبكههاي عصبي حافظه كوتاهمدت ماندگار و ويژگيهاي گلوگاه
عنوان به زبان ديگر :
Robust Speech Recognition using Long Short Term Memory Networks and Bottleneck Features
پديد آورندگان :
معاون جولا ، امين دانشگاه علم و صنعت - دانشكده مهندسي كامپيوتر، تهران , اكبري، احمد دانشگاه علم و صنعت - دانشكده مهندسي كامپيوتر، تهران , ناصر شريف، بابك دانشگاه صنعتي خواجهنصيرالدين طوسي - دانشكده مهندسي كامپيوتر، تهران
كليدواژه :
بازشناسي گفتار , مقاومت نسبت به نويز , دادههاي چند شرطي , شبكه خود رمزگذار , شبكه حافظه كوتاهمدت ماندگار
چكيده فارسي :
شبكههاي عصبي عميق در سالهاي اخير به طرز گستردهاي در سيستمهاي بازشناسي گفتار مورداستفاده قرارگرفتهاند. بااينوجود، مقاومسازي اين مدلها در حضور نويز محيط كمتر موردبررسي قرارگرفته است. در اين مقاله دو راهكار براي مقاومسازي مدلهاي شبكه حافظه كوتاهمدت ماندگار نسبت به نويز جمعپذير محيطي موردبررسي قرارگرفته است. راهكار اول افزايش مقاومت مدلهاي شبكه حافظه كوتاهمدت ماندگار نسبت به حضور نويز است كه با توجه بهخصوصيت اين شبكهها در يادگيري رفتار بلندمدت نويز ارائه ميشود. بدين منظور پيشنهاد ميشود از گفتار نويزي براي آموزش مدلها استفاده شود تا بهصورت آگاه به نويز آموزش ببينند. نتايج روي مجموعه داده نويزي شده TIMIT نشان ميدهد كه اگر مدلها بهجاي گفتار تميز با گفتار نويزي آموزش ببينند، دقت بازشناسي تا 18 درصد بهبود خواهد يافت. راهكار دوم كاهش تأثير نويز بر ويژگيهاي استخراجشده با استفاده از شبكه خود رمزگذار كاهنده نويز و استفاده از ويژگيهاي گلوگاه بهمنظور فشردهسازي بردار ويژگي و بازنمايي سطح بالاتر ويژگيهاي ورودي است. اين راهكار باعث ميشود مقاومت ويژگيها نسبت به نويز بيشتر شده و درنتيجه دقت سيستم بازشناسي پيشنهادشده در راهكار اول، در حضور نويز 4 درصد افزايش يابد.
چكيده لاتين :
Deep neural networks have been widely used in speech recognition systems in recent years. However, the robustness of these models in the presence of environmental noise has been less discussed. In this paper, we propose two approaches for the robustness of deep neural networks models against environmental additive noise. In the first approach, we propose to increase the robustness of long short-term memory (LSTM) networks in the presence of noise based on their abilities in learning long-term noise behavior. For this purpose, we propose to use noisy speech for training models. In this way, LSTMs are trained in a noise-aware manner. The results on the noisy TIMIT dataset show that if the models are trained with noisy speech rather than clean speech, recognition accuracy will be improved up to 18%. In the second approach, we propose to reduce noise effects on the extracted features using a denoised autoencoder network and to use the bottleneck features to compress the feature vector and represent the higher level of input features. This method increases the accuracy of the proposed recognition system in the first approach by 4% in the presence of noise.
عنوان نشريه :
مهندسي برق دانشگاه تبريز