مرکز منطقه ای اطلاع رساني علوم و فناوري - ارايه روشي مبتني بر نرمال‌سازي اكوستيكي و خوشه‌بندي براي بهبود بازشناسي گفتار كودكان فارسي زبان

شماره ركورد :

472567

عنوان مقاله :

ارايه روشي مبتني بر نرمال‌سازي اكوستيكي و خوشه‌بندي براي بهبود بازشناسي گفتار كودكان فارسي زبان

عنوان به زبان ديگر :

ارايه روشي مبتني بر نرمال‌سازي اكوستيكي و خوشه‌بندي براي بهبود بازشناسي گفتار كودكان فارسي زبان

پديد آورندگان :

تدين تبريزي، قمرناز نويسنده دانشجوي دكتري مهندسي كامپيوتر- نرم افزار، دانشگاه آزاد اسلامي، واحد علوم و تحقيقات تهران ، گروه مهندسي كامپيوتر، تهران، ايران Tadayon Tabrizi, Ghamarnaz , ستايشي ، سعيد نويسنده setayeshi, saeed

اطلاعات موجودي :

دوفصلنامه سال 1388 شماره 0

رتبه نشريه :

علمي پژوهشي

تعداد صفحه :

از صفحه :

113

تا صفحه :

125

چكيده فارسي :

بررسي كاربردهاي بازشناسي گفتار نشان دهنده تفاوت‌هاي طيفي در سيگنال‌هاي گفتار كودكان مي‌باشد. اين تنوع، باعث ايجاد مشكلاتي در بازشناسي خودكار گفتار كودكان مي‌شود. تجربه نشان داده در صورتي كه از داده گفتار كودكان به عنوان ورودي در مدل‌هاي اكوستيكي استفاده شود كه با گفتار بزرگسالان آموزش يافته‌اند، كارايي به اندازه قابل توجهي كاهش مي‌يابد. به طور ميانگين نرخ خطاي كلمه براي بازشناسي گفتار كودكان دو تا چهار بار بيشتر از بزرگسالان است. ميزان درستي بازشناسي گفتار در كودكان به عواملي مثل سن، جنسيت، فركانس مبنايي و قد بستگي دارد. در اين مقاله برخي از روش‌هاي افزايش كارايي بازشناسي گفتار كودكان شامل هنجارسازي طول محدوده صوتي (VTLN)، آموزش تطبيقي گوينده (SAT) و هنجارسازي گوينده بر اساس رگرسيون خطي با بيشترين درست نمايي محدود شده (CMLSN) مطرح و روش VTLN براي بهبود كارايي بازشناسي گفتار كودكان فارسي زبان پياده سازي شده است. نهايتا روشي برمبناي تركيب روش‌هاي هنجارسازي و خوشه بندي براي بازشناسي گفتار كودكان پيشنهاد شده است. با استفاده از خوشه بندي گفتار ورودي و تخصيص آن به مدل مناسب، درستي بازشناسي به طور متوسط 50% افزايش مي‌يابد.

چكيده لاتين :

There is high variability in acoustic features of childrenʹs speech signals compared to adultsʹ, causing some problems in automatic recognition of childrenʹs speech. Using childrenʹs speech as input in acoustic models trained by adultsʹ speech reduces performance significantly. Error rate for childrenʹs speech recognition is about 2 to 4 times more than adultsʹ. The recognition rate depends on many factors like age, gender, fundamental frequency and height. In this paper, some approaches for improving recognition performance including vocal tract length normalization (VTLN), speaker adaptive training (SAT) and Constrained MLLR based Speaker Normalization (CMLSN) are studied and VTLN is implemented to improve recognition of Persian childrenʹs speech. Finally, an approach based on combining normalization methods and clustering is proposed for recognition of childrenʹs speech. Using clustering of input speech and assigning it to the appropriate model, recognition rate will improve about 50%.

سال انتشار :

1388

عنوان نشريه :

فناوري اطلاعات در طراحي مهندسي

عنوان نشريه :

فناوري اطلاعات در طراحي مهندسي

اطلاعات موجودي :

دوفصلنامه با شماره پیاپی 0 سال 1388

كلمات كليدي :

#تست#آزمون###امتحان

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=8&DC=472567