شماره ركورد كنفرانس :
4227
عنوان مقاله :
استخراج ويژگي‌هاي مبتني بر خوشه‌بندي در فضاي طيفي-زماني با استفاده از شبكه عصبي
پديدآورندگان :
حسين پور خديجه kh.hosseinpour@gmail.com آموزش عالي علوم و فناوري آريان; , اسفنديان نفيسه Na_esfandian@yahoo.com دانشگاه آزاد اسلامي واحد قائم شهر; , هاشمي كمانگر مهرداد Mh.kamangar@shomal.ac.ir دانشگاه غيردولتي غيرانتفاعي شمال آمل;
تعداد صفحه :
10
كليدواژه :
ويژگي‌هاي طيفي-زماني , مدل شنيداري , خوشه‌بندي , شبكه‌عصبي‌مصنوعي
سال انتشار :
1395
عنوان كنفرانس :
چهارمين كنفرانس ملي پژوهش هاي كاربردي در مهندسي كامپيوتر و پردازش سيگنال - cesp95
زبان مدرك :
فارسي
چكيده فارسي :
يكي از روش هاي بازنمايي سيگنال گفتار، بازنمايي طيفي-زماني گفتار با استفاده از مدل شنيداري مي‌باشد. اين مدل بر اساس شبيه سازي بخش هاي گوش داخلي و اولين لايه بخش شنوايي مغز ارائه شده است. اين مدل، نمايشي چند‌بعدي از ويژگي هاي طيفي و زماني سيگنال‌هاي گفتار ارائه ميدهد. در واقع، خروجي اين مدل، آرايه اي چند‌بعدي است كه اطلاعات را در امتداد چهار بعد زمان، فركانس، نرخ و مقياس نمايش مي دهد. در نتيجه به دليل بزرگ‌بودن ابعاد فضاي ويژگي هاي طيفي-زماني، استفاده از روشي براي كاهش ابعاد بردار ويژگي در اين فضا ضروري مي باشد. در تحقيقاتي كه اخيراً انجام شده است، به منظور استخراج بخش هاي اصلي گفتار، فضاي ويژگي هاي اوليه در مدل طيفي-زماني با استفاده از روش هاي مانند مدل مخلوط گوسي(GMM) و K-ميانگين وزن دار(WKM) خوشه بندي گرديده است. لكن بالا‌بودن هزينه محاسباتي اين روش ها، موجب محدوديت استفاده از آن‌ها در كاربردهاي وسيع تر مي گردد. لذا رويكرد اصلي اين مقاله، استفاده از يك روش مناسب براي خوشه بندي فضاي طيفي-زماني مي باشد. با توجه به عملكرد مناسب شبكه عصبي براي خوشه‌بندي داده‌هاي چندبعدي، در اين مقاله، از شبكه عصبي غيرنظارتي SOMبراي خوشه‌بندي فضاي طيفي-زماني استفاده مي شود. نتايج نشان مي‌دهد كه در كليه زيرگروه هاي واج هاي صدادار و بي صدا، خطاي طبقه بندي با استفاده از ويژگي هاي ثانويه پيشنهادي نسبت به ويژگي هاي مبتني بر خوشه بندي K‌‌-ميانگين وزن دار ، بهبود يافته است. نتايج حاصل از ويژگي هاي جديد نشان مي دهد كه به طور متوسط، خطاي سيستم نسبت به ويژگي هاي مبتني بر خوشه‌بنديWKM ، 15/24 % جبران شده است.
كشور :
ايران
لينک به اين مدرک :
بازگشت