شماره ركورد كنفرانس :
4747
عنوان مقاله :
تشخيص واكههاي فارسي از روي اسپكتروگرام سيگنال گفتار با استفاده از شبكه عصبي كانولوشن
پديدآورندگان :
اكبري نرگس دانشگاه صدا و سيما , عسگري محمد دانشگاه صدا و سيما , مهديان ترقي راهيل دانشگاه صدا و سيما
كليدواژه :
تشخيص واكههاي فارسي , شبكه عصبي كانولوشن , كلاسبندي , دادگان , نوفه.
عنوان كنفرانس :
اجلاس فناوري رسانه
چكيده فارسي :
يكي از رويكردهاي بازشناسيِ گفتارِ مبتني بر تشخيص الگو، مدل كردن گفتار برمبناي تعدادي واحد آوايي است. محتواي گفتار براساس واكه مشخص ميشود. همچنين به دليل اينكه مشخصات فركانسي و زماني واكهها پايدارتر از ساير واجها هستند، تشخيص واكهها براي تشخيص گفتار مهم هستند. در اين تحقيق دقتِ تشخيص واكههاي فارسي از روي دادگان دو واجي فارسي (تركيب يك همخوان و يك واكه) به صورت مستقل از گوينده با استفاده از شبكه عصبي كانولوشن بهبود داده شده است. دادگان ساخته شده براي اين تحقيق شامل 30 گوينده است كه 23 همخوان فارسي را براي 6 واكه فارسي مي خوانند. اسپكتروگرام هر داده صوتي رسم و پس از پردازش به عنوان ورودي به شبكه عصبي كانولوشن داده ميشوند. براي مدل پيشنهادي ميانگين دقتِ تشخيص واكه 89 % بدست آمده است. همچنين مدل ارائه شده به منظور تشخيص واكههاي فارسي از روي سيگنال گفتار پيوسته فارسي، تشخيص آواهاي گفتاري از آواهاي غيرگفتاري، تشخيص واكههاي فارسي داراي نوفه از روي دادگان آموزشي تميز و تشخيص آنلاين واكه نيز تست شده است كه به ترتيب ميانگين دقتهاي 79 % ، 7/88 % و 5/75 % (براي نوفه خيابان با نسبت سيگنال به نوفه 10 دسيبل) حاصل شده است.