شماره ركورد :
1205256
عنوان مقاله :
بهبود ميانگين دقت طبقه‌بنديِ واكه‌هايِ فارسي از روي علامتِ گفتار با استفاده از شبكۀ عصبيِ هم‌گشتال
پديد آورندگان :
عسگري ، محمد دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكدۀ فني و مهندسي رسانه , اكبري ، نرگس دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكدۀ فني و مهندسي رسانه
از صفحه :
51
تا صفحه :
59
كليدواژه :
تشخيص واكه‌هاي فارسي , شبكۀ عصبي هم‌گشتال (كانولوشنال) , طبقه‌بندي , دادگان فارسي
چكيده فارسي :
يكي از روي‌كردهاي بازشناسيِ گفتار، الگو كردن گفتار بر مبناي تعدادي واحد آوايي است. با توجه به اين‌كه مشخصات بسامدي و زماني واكه‌ها، پايدارتر از ساير واج‌ها هستند، تشخيص واكه‌ها براي تشخيص گفتار مهم است. در اين پژوهش، هدف ارائه الگويي با استفاده از روش‌هاي نوين، نظير شبكۀ عصبي عميق براي بهبود دقت تشخيص واكه و افزايش كاربردهاي آن است. 30 گوينده (15 زن و 15 مرد)، تمامي حالت‌هاي تركيب‌ هم‌خوان‌ها با شش واكۀ فارسي را مي‌خوانند. دادگان گفتاري پس از پردازش به قاب‌هاي حاوي فقط واكه بخش‌بندي شده و اسپكتروگرام آن استخراج مي‌شود. اسپكتروگرام به‌دست آمده، به‌عنوان ورودي به شبكۀ عصبي پيچشي با دو لايۀ پنهان داده مي‌شود. دادگان 25 گوينده براي آموزش و 5 گوينده براي آزمون به‌كار برده شده‌اند. ميانگينِ دقتِ تشخيص شش واكۀ فارسي براي الگوي پيشنهادي 93/17 درصد (ميانگين خطاي 6/83 درصد) به‌دست آمده است كه نسبت به كارهاي پيشين كه ميانگين خطايِ تشخيص واكه 9/7 درصد الي 19/6 درصد (كم‌ترين و بيش‌ترين ميانگين خطا در الگو‌هاي موجود) بوده، 2/87 درصد الي 12/77 درصد بهبود يافته است.
عنوان نشريه :
مجله انجمن مهندسي صوتيات ايران
عنوان نشريه :
مجله انجمن مهندسي صوتيات ايران
لينک به اين مدرک :
بازگشت