مرکز منطقه ای اطلاع رساني علوم و فناوري - بازشناسي مقاوم به نويز ارقام مشابه فارسي مبتني بر شبكه LSTM و ويژگي هاي طيفي گفتار

شماره ركورد :

1248050

عنوان مقاله :

بازشناسي مقاوم به نويز ارقام مشابه فارسي مبتني بر شبكه LSTM و ويژگي هاي طيفي گفتار

عنوان به زبان ديگر :

Robust Persian Isolated Digit Recognition Based on LSTM and Speech Spectral Features

پديد آورندگان :

طبيبيان، شيما دانشگاه شهيد بهشتي تهران - پژوهشكده فضاي مجازي

تعداد صفحه :

از صفحه :

از صفحه (ادامه) :

تا صفحه :

تا صفحه(ادامه) :

كليدواژه :

بازشناسي ارقام مجزا , زبان فارسي , مشابهت تلفظ ارقام , مدل مخفي ماركف , حافظه كوتاه مدت ماندگار , مقاوم سازي

چكيده فارسي :

يكي از چالش‌هاي بازشناسي ارقام مجزاي فارسي، مشابهت تلفظ برخي از ارقام مانند "صفر و سه"، "نه و دو" و "پنج، هفت و هشت" مي‌باشد. اين چالش منجر به بازشناسي يك رقم به جاي رقم مشابه شده و دقت بازشناسي را كاهش مي‌دهد. در اين مقاله، يك راهكار تركيبي مبتني بر حافظه كوتاه‌مدت ماندگار (LSTM) و مدل مخفي ماركف (HMM) براي رفع چالش مذكور ارائه شده كه نرخ بازشناسي ارقام فارسي مبتني بر HMM را به طور متوسط 2% و در بهترين حالت 8% بهبود داده است. با توجه به تشديد چالش بازشناسي ارقام مشابه فارسي در شرايط نويزي، در ادامه كار مقاوم‌سازي بازشناسي ارقام مشابه فارسي مورد توجه قرار گرفت. به منظور افزايش مقاومت بازشناس مبتني بر LSTM، از ويژگي‌هاي مقاوم به نويز مستخرج از طيف گفتار مانند آنتروپي طيفي، درجه از هم پاشي، فركانس نيمساز، همواري طيفي، فرمانت اول و نرخ گذار از صفر مبتني بر تابع همبستگي استفاده گرديد. استفاده از اين ويژگي‌ها، ضمن كاهش تعداد ويژگي‌ها براي بازشناسي ارقام مشابه فارسي از 39 ضريب به حداكثر 4 و حداقل 1 ضريب، به طور متوسط به ترتيب بهبود 10، 13، 15 و 13 درصدي مقاومت بازشناس ارقام مشابه را در شرايط متنوع نويزي (30 حالت مختلف حاصل از پنج نوع نويز سفيد، صورتي، همهمه، كارخانه و ماشين و شش نسبت سيگنال به نويز 5-، 0، 5، 10، 15 و 20 دسي‌بل) در مقايسه با بازشناس‌هاي مبتني بر HMM، LSTM، شبكه باور عميق با ويژگي‌هاي مل كپستروم و شبكه عصبي كانولوشني با ويژگي‌هاي مل اسپكتوگرام به همراه دارد.

چكيده لاتين :

One of the challenges of isolated Persian digit recognition is similar pronunciation of some digits such as "zero and three", "nine and two" and "five, seven and eight". This challenge leads to the high substitution errors and reduces the recognition accuracy. In this paper, a combined solution based on short-term memory (LSTM) and hidden Markov model (HMM) is proposed to solve the mentioned challenge. The proposed approach increases the recognition rate of Persian digits on average 2 percent and in the best case 8 percent in comparison to the HMM-based approach. In the following of this work, due to the intensification of the mentioned challenge in noisy conditions, the robust recognition of Persian digits with similar pronunciation was considered. In order to increase the robustness of the LSTM-based recognizer, robust features extracted from the speech spectrum such as spectral entropy, burst degree, bisector frequency, spectral flatness, first formant and autocorrelation-based zero crossing rate were used. Using these features, while reducing the number of features for recognizing similar Persian digits from 39 coefficients to a maximum of 4 and a minimum of 1 coefficient, on average improved the robustness of the isolated digit recognizer in different noisy conditions (30 different situations resulting from five noise types of white, pink, babble, factory and car noises and six signal-to-noise ratios of -5, 0, 5, 10, 15 and 20 decibels) by 10%, 13%, 15% and 13% compared to the HMM-based, LSTM-based, deep belief network-based recognizers with Mel-Cepstrum coefficients and a convolutional neural network-recognizer with Mel Spectrogram features.

سال انتشار :

1400

عنوان نشريه :

مهندسي برق و مهندسي كامپيوتر ايران

فايل PDF :

8476384

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=8&DC=1248050