كليدواژه :
بازشناسي ارقام مجزا , زبان فارسي , مشابهت تلفظ ارقام , مدل مخفي ماركف , حافظه كوتاه مدت ماندگار , مقاوم سازي
چكيده فارسي :
يكي از چالشهاي بازشناسي ارقام مجزاي فارسي، مشابهت تلفظ برخي از ارقام مانند "صفر و سه"، "نه و دو" و "پنج، هفت و هشت" ميباشد. اين چالش منجر به بازشناسي يك رقم به جاي رقم مشابه شده و دقت بازشناسي را كاهش ميدهد. در اين مقاله، يك راهكار تركيبي مبتني بر حافظه كوتاهمدت ماندگار (LSTM) و مدل مخفي ماركف (HMM) براي رفع چالش مذكور ارائه شده كه نرخ بازشناسي ارقام فارسي مبتني بر HMM را به طور متوسط 2% و در بهترين حالت 8% بهبود داده است. با توجه به تشديد چالش بازشناسي ارقام مشابه فارسي در شرايط نويزي، در ادامه كار مقاومسازي بازشناسي ارقام مشابه فارسي مورد توجه قرار گرفت. به منظور افزايش مقاومت بازشناس مبتني بر LSTM، از ويژگيهاي مقاوم به نويز مستخرج از طيف گفتار مانند آنتروپي طيفي، درجه از هم پاشي، فركانس نيمساز، همواري طيفي، فرمانت اول و نرخ گذار از صفر مبتني بر تابع همبستگي استفاده گرديد. استفاده از اين ويژگيها، ضمن كاهش تعداد ويژگيها براي بازشناسي ارقام مشابه فارسي از 39 ضريب به حداكثر 4 و حداقل 1 ضريب، به طور متوسط به ترتيب بهبود 10، 13، 15 و 13 درصدي مقاومت بازشناس ارقام مشابه را در شرايط متنوع نويزي (30 حالت مختلف حاصل از پنج نوع نويز سفيد، صورتي، همهمه، كارخانه و ماشين و شش نسبت سيگنال به نويز 5-، 0، 5، 10، 15 و 20 دسيبل) در مقايسه با بازشناسهاي مبتني بر HMM، LSTM، شبكه باور عميق با ويژگيهاي مل كپستروم و شبكه عصبي كانولوشني با ويژگيهاي مل اسپكتوگرام به همراه دارد.
چكيده لاتين :
One of the challenges of isolated Persian digit recognition is similar pronunciation of some digits such as "zero and three", "nine and two" and "five, seven and eight". This challenge leads to the high substitution errors and reduces the recognition accuracy. In this paper, a combined solution based on short-term memory (LSTM) and hidden Markov model (HMM) is proposed to solve the mentioned challenge. The proposed approach increases the recognition rate of Persian digits on average 2 percent and in the best case 8 percent in comparison to the HMM-based approach. In the following of this work, due to the intensification of the mentioned challenge in noisy conditions, the robust recognition of Persian digits with similar pronunciation was considered. In order to increase the robustness of the LSTM-based recognizer, robust features extracted from the speech spectrum such as spectral entropy, burst degree, bisector frequency, spectral flatness, first formant and autocorrelation-based zero crossing rate were used. Using these features, while reducing the number of features for recognizing similar Persian digits from 39 coefficients to a maximum of 4 and a minimum of 1 coefficient, on average improved the robustness of the isolated digit recognizer in different noisy conditions (30 different situations resulting from five noise types of white, pink, babble, factory and car noises and six signal-to-noise ratios of -5, 0, 5, 10, 15 and 20 decibels) by 10%, 13%, 15% and 13% compared to the HMM-based, LSTM-based, deep belief network-based recognizers with Mel-Cepstrum coefficients and a convolutional neural network-recognizer with Mel Spectrogram features.