عنوان مقاله :
بهبود ميانگين دقت طبقهبنديِ واكههايِ فارسي از روي علامتِ گفتار با استفاده از شبكۀ عصبيِ همگشتال
پديد آورندگان :
عسگري ، محمد دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكدۀ فني و مهندسي رسانه , اكبري ، نرگس دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكدۀ فني و مهندسي رسانه
كليدواژه :
تشخيص واكههاي فارسي , شبكۀ عصبي همگشتال (كانولوشنال) , طبقهبندي , دادگان فارسي
چكيده فارسي :
يكي از رويكردهاي بازشناسيِ گفتار، الگو كردن گفتار بر مبناي تعدادي واحد آوايي است. با توجه به اينكه مشخصات بسامدي و زماني واكهها، پايدارتر از ساير واجها هستند، تشخيص واكهها براي تشخيص گفتار مهم است. در اين پژوهش، هدف ارائه الگويي با استفاده از روشهاي نوين، نظير شبكۀ عصبي عميق براي بهبود دقت تشخيص واكه و افزايش كاربردهاي آن است. 30 گوينده (15 زن و 15 مرد)، تمامي حالتهاي تركيب همخوانها با شش واكۀ فارسي را ميخوانند. دادگان گفتاري پس از پردازش به قابهاي حاوي فقط واكه بخشبندي شده و اسپكتروگرام آن استخراج ميشود. اسپكتروگرام بهدست آمده، بهعنوان ورودي به شبكۀ عصبي پيچشي با دو لايۀ پنهان داده ميشود. دادگان 25 گوينده براي آموزش و 5 گوينده براي آزمون بهكار برده شدهاند. ميانگينِ دقتِ تشخيص شش واكۀ فارسي براي الگوي پيشنهادي 93/17 درصد (ميانگين خطاي 6/83 درصد) بهدست آمده است كه نسبت به كارهاي پيشين كه ميانگين خطايِ تشخيص واكه 9/7 درصد الي 19/6 درصد (كمترين و بيشترين ميانگين خطا در الگوهاي موجود) بوده، 2/87 درصد الي 12/77 درصد بهبود يافته است.
عنوان نشريه :
مجله انجمن مهندسي صوتيات ايران
عنوان نشريه :
مجله انجمن مهندسي صوتيات ايران