شماره ركورد كنفرانس :
4379
عنوان مقاله :
بازشناسي ارقام فارسي صفر تا نه با استفاده از تصاوير آكوستيك بر پايه ضرايب مل-كپستروم و شبكه عصبي
پديدآورندگان :
خانه بابائي مسلم khanebabaei@shahroodut.ac.ir گروه الكترونيك، دانشكده مهندسي برق و رباتيك، دانشگاه صنعتي شاهرود , سليماني ايوري علي solimani_ali@shahroodut.ac.ir ‌دانشكده مهندسي برق و رباتيك، دانشگاه صنعتي شاهرود
تعداد صفحه :
7
كليدواژه :
بازشناسي ارقام , تصوير آكوستيك , شبكه عصبي پرسپترون , ضرايب مل-كپستروم , فيلتر بانك گوسي
سال انتشار :
1395
عنوان كنفرانس :
هشتمين كنفرانس فناوري اطلاعات و دانش
زبان مدرك :
فارسي
چكيده فارسي :
در اين مقاله ابتدا پايگاه داده اعداد صفر تا نه فارسي با استفاده از صداي 50 نفر زن و مرد در محيط ضبط و جمع‌آوري گرديده است. در روش پيشنهادي ابتدا سيگنال پيش‌پردازش شده را قاب‌بندي مي‌كنيم و سپس از پنجره بهبود‌يافته عبور ‌مي‌دهيم، در گام بعدي وارد بلوك تبديل فوريه مي‌گردد. حال طيف تبديل فوريه به بانك فيلتر گوسي داده ‌مي‌شود و بعد از آن طيف توان خروجي فيلتر بانك گوسي از تابع ريشه (Root Function) عبور داده شده و سپس با اعمال تبديل كسينوسي جهت فشرده كردن مولفه‌ها، ضرايب مل-كپستروم به دست ميآيد. در مرحله آخر، تصوير آكوستيك به عنوان ماتريس حاوي ويژگيهاي زماني و فركانسي سيگنال گفتار با استفاده از تبديل معكوس فوريه دوبعدي از ماتريس ضرايب مل-كپستروم تشكيل داده ميشود. براي طبقهبندي و آزمايش دادهها، ويژگيهاي به دست آمده با استفاده از يك الگوريتم بهبوديافته در شبكه عصبي پرسپترون با دو لايه پنهان، آموزش داده ميشوند و در قسمت پاياني ميزان نرخ بازشناسي گزارش مي‌شود. نتايج آزمايش براي سيگنال به نويزهاي متفاوت، نشان دهنده‌ي بهبود نرخ تشخيص سيگنال نويزي توسط روش پيشنهادي است، بطوري كه نرخ بازشناسي الگوريتم ارائه شده در حالت بدون نويز 85/98 مي‌باشد.
كشور :
ايران
لينک به اين مدرک :
بازگشت