شماره ركورد كنفرانس :
4379
عنوان مقاله :
بازشناسي ارقام فارسي صفر تا نه با استفاده از تصاوير آكوستيك بر پايه ضرايب مل-كپستروم و شبكه عصبي
پديدآورندگان :
خانه بابائي مسلم khanebabaei@shahroodut.ac.ir گروه الكترونيك، دانشكده مهندسي برق و رباتيك، دانشگاه صنعتي شاهرود , سليماني ايوري علي solimani_ali@shahroodut.ac.ir دانشكده مهندسي برق و رباتيك، دانشگاه صنعتي شاهرود
كليدواژه :
بازشناسي ارقام , تصوير آكوستيك , شبكه عصبي پرسپترون , ضرايب مل-كپستروم , فيلتر بانك گوسي
عنوان كنفرانس :
هشتمين كنفرانس فناوري اطلاعات و دانش
چكيده فارسي :
در اين مقاله ابتدا پايگاه داده اعداد صفر تا نه فارسي با استفاده از صداي 50 نفر زن و مرد در محيط ضبط و جمعآوري گرديده است. در روش پيشنهادي ابتدا سيگنال پيشپردازش شده را قاببندي ميكنيم و سپس از پنجره بهبوديافته عبور ميدهيم، در گام بعدي وارد بلوك تبديل فوريه ميگردد. حال طيف تبديل فوريه به بانك فيلتر گوسي داده ميشود و بعد از آن طيف توان خروجي فيلتر بانك گوسي از تابع ريشه (Root Function) عبور داده شده و سپس با اعمال تبديل كسينوسي جهت فشرده كردن مولفهها، ضرايب مل-كپستروم به دست ميآيد. در مرحله آخر، تصوير آكوستيك به عنوان ماتريس حاوي ويژگيهاي زماني و فركانسي سيگنال گفتار با استفاده از تبديل معكوس فوريه دوبعدي از ماتريس ضرايب مل-كپستروم تشكيل داده ميشود. براي طبقهبندي و آزمايش دادهها، ويژگيهاي به دست آمده با استفاده از يك الگوريتم بهبوديافته در شبكه عصبي پرسپترون با دو لايه پنهان، آموزش داده ميشوند و در قسمت پاياني ميزان نرخ بازشناسي گزارش ميشود. نتايج آزمايش براي سيگنال به نويزهاي متفاوت، نشان دهندهي بهبود نرخ تشخيص سيگنال نويزي توسط روش پيشنهادي است، بطوري كه نرخ بازشناسي الگوريتم ارائه شده در حالت بدون نويز 85/98 ميباشد.