شماره ركورد :
1126676
عنوان مقاله :
بازشناسي مقاوم گفتار با استفاده از شبكه‌هاي عصبي حافظه كوتاه‌مدت ماندگار و ويژگي‌هاي گلوگاه
عنوان به زبان ديگر :
Robust Speech Recognition using Long Short Term Memory Networks and Bottleneck Features
پديد آورندگان :
معاون جولا ، امين دانشگاه علم و صنعت - دانشكده مهندسي كامپيوتر، تهران , اكبري، احمد دانشگاه علم و صنعت - دانشكده مهندسي كامپيوتر، تهران , ناصر شريف، بابك دانشگاه صنعتي خواجه‌نصيرالدين طوسي - دانشكده مهندسي كامپيوتر، تهران
تعداد صفحه :
11
از صفحه :
1333
تا صفحه :
1343
كليدواژه :
بازشناسي گفتار , مقاومت نسبت به نويز , داده‌هاي چند شرطي , شبكه خود رمزگذار , شبكه حافظه كوتاه‌مدت ماندگار
چكيده فارسي :
شبكه‌هاي عصبي عميق در سال‌هاي اخير به طرز گسترده‌اي در سيستم‌هاي بازشناسي گفتار مورداستفاده قرارگرفته‌اند. بااين‌وجود، مقاوم‌سازي اين مدل‌ها در حضور نويز محيط كمتر موردبررسي قرارگرفته است. در اين مقاله دو راهكار براي مقاوم‌سازي مدل‌هاي شبكه حافظه كوتاه‌مدت ماندگار نسبت به نويز جمع‌پذير محيطي موردبررسي قرارگرفته است. راهكار اول افزايش مقاومت مدل‌هاي شبكه حافظه كوتاه‌مدت ماندگار نسبت به حضور نويز است كه با توجه به‌خصوصيت اين شبكه‌ها در يادگيري رفتار بلندمدت نويز ارائه مي‌شود. بدين منظور پيشنهاد مي‌شود از گفتار نويزي براي آموزش مدل‌ها استفاده شود تا به‌صورت آگاه به نويز آموزش ببينند. نتايج روي مجموعه داده نويزي شده TIMIT نشان مي‌دهد كه اگر مدل‌ها به‌جاي گفتار تميز با گفتار نويزي آموزش ببينند، دقت بازشناسي تا 18 درصد بهبود خواهد يافت. راهكار دوم كاهش تأثير نويز بر ويژگي‌هاي استخراج‌شده با استفاده از شبكه خود رمزگذار كاهنده نويز و استفاده از ويژگي‌هاي گلوگاه به‌منظور فشرده‌سازي بردار ويژگي و بازنمايي سطح بالاتر ويژگي‌هاي ورودي است. اين راهكار باعث مي‌شود مقاومت ويژگي‌ها نسبت به نويز بيشتر شده و درنتيجه دقت سيستم بازشناسي پيشنهادشده در راهكار اول، در حضور نويز 4 درصد افزايش يابد.
چكيده لاتين :
Deep neural networks have been widely used in speech recognition systems in recent years. However, the robustness of these models in the presence of environmental noise has been less discussed. In this paper, we propose two approaches for the robustness of deep neural networks models against environmental additive noise. In the first approach, we propose to increase the robustness of long short-term memory (LSTM) networks in the presence of noise based on their abilities in learning long-term noise behavior. For this purpose, we propose to use noisy speech for training models. In this way, LSTMs are trained in a noise-aware manner. The results on the noisy TIMIT dataset show that if the models are trained with noisy speech rather than clean speech, recognition accuracy will be improved up to 18%. In the second approach, we propose to reduce noise effects on the extracted features using a denoised autoencoder network and to use the bottleneck features to compress the feature vector and represent the higher level of input features. This method increases the accuracy of the proposed recognition system in the first approach by 4% in the presence of noise.
سال انتشار :
1398
عنوان نشريه :
مهندسي برق دانشگاه تبريز
فايل PDF :
7823429
لينک به اين مدرک :
بازگشت