شماره ركورد كنفرانس :
4227
عنوان مقاله :
استخراج ويژگيهاي مبتني بر خوشهبندي در فضاي طيفي-زماني با استفاده از شبكه عصبي
پديدآورندگان :
حسين پور خديجه kh.hosseinpour@gmail.com آموزش عالي علوم و فناوري آريان; , اسفنديان نفيسه Na_esfandian@yahoo.com دانشگاه آزاد اسلامي واحد قائم شهر; , هاشمي كمانگر مهرداد Mh.kamangar@shomal.ac.ir دانشگاه غيردولتي غيرانتفاعي شمال آمل;
كليدواژه :
ويژگيهاي طيفي-زماني , مدل شنيداري , خوشهبندي , شبكهعصبيمصنوعي
عنوان كنفرانس :
چهارمين كنفرانس ملي پژوهش هاي كاربردي در مهندسي كامپيوتر و پردازش سيگنال - cesp95
چكيده فارسي :
يكي از روش هاي بازنمايي سيگنال گفتار، بازنمايي طيفي-زماني گفتار با استفاده از مدل شنيداري ميباشد. اين مدل بر اساس شبيه سازي بخش هاي گوش داخلي و اولين لايه بخش شنوايي مغز ارائه شده است. اين مدل، نمايشي چندبعدي از ويژگي هاي طيفي و زماني سيگنالهاي گفتار ارائه ميدهد. در واقع، خروجي اين مدل، آرايه اي چندبعدي است كه اطلاعات را در امتداد چهار بعد زمان، فركانس، نرخ و مقياس نمايش مي دهد. در نتيجه به دليل بزرگبودن ابعاد فضاي ويژگي هاي طيفي-زماني، استفاده از روشي براي كاهش ابعاد بردار ويژگي در اين فضا ضروري مي باشد. در تحقيقاتي كه اخيراً انجام شده است، به منظور استخراج بخش هاي اصلي گفتار، فضاي ويژگي هاي اوليه در مدل طيفي-زماني با استفاده از روش هاي مانند مدل مخلوط گوسي(GMM) و K-ميانگين وزن دار(WKM) خوشه بندي گرديده است. لكن بالابودن هزينه محاسباتي اين روش ها، موجب محدوديت استفاده از آنها در كاربردهاي وسيع تر مي گردد. لذا رويكرد اصلي اين مقاله، استفاده از يك روش مناسب براي خوشه بندي فضاي طيفي-زماني مي باشد. با توجه به عملكرد مناسب شبكه عصبي براي خوشهبندي دادههاي چندبعدي، در اين مقاله، از شبكه عصبي غيرنظارتي SOMبراي خوشهبندي فضاي طيفي-زماني استفاده مي شود. نتايج نشان ميدهد كه در كليه زيرگروه هاي واج هاي صدادار و بي صدا، خطاي طبقه بندي با استفاده از ويژگي هاي ثانويه پيشنهادي نسبت به ويژگي هاي مبتني بر خوشه بندي K-ميانگين وزن دار ، بهبود يافته است. نتايج حاصل از ويژگي هاي جديد نشان مي دهد كه به طور متوسط، خطاي سيستم نسبت به ويژگي هاي مبتني بر خوشهبنديWKM ، 15/24 % جبران شده است.