شماره ركورد كنفرانس :
5400
عنوان مقاله :
شناسايي احساس گفتار فارسي با روش تنظيم دقيق ترانسفرمرها
پديدآورندگان :
شاياني نسب مينو minooshayan97@gmail.com دانشگاه تهران , باباعلي باقر babaali@ut.ac.ir دانشگاه تهران
كليدواژه :
شناسايي احساس گفتار فارسي , shEMO , يادگيري خودنظارتي
عنوان كنفرانس :
نهمين كنگره انجمن علوم صوتي ايران
چكيده فارسي :
با توجه به اهميت شناسايي احساس از روي صوت گفتار، در سالهاي اخير روشهاي متعددي براي توليد سيستمهاي كارا و بهينه در اين حوزه توسعه داده شده است. از جملهي اين روشها استفاده از ترنسفرمرهاي پيشآموزش ديدهاي هستند كه مناسب اين مسئله تنظيم دقيق مي شوند و دقت بالايي هم به دست آورده اند. علي رغم بحث و تحقيقات زياد در خصوص اين سيستم ها و تلاش براي بهبود هرچه بيشتر آن ها در مقياس جهاني، در مطالعات صوت و گفتار فارسي با هدف شناسايي احساس، به اين رويكرد جديد و موثر كمتر پرداخته شده است. در اين مقاله، ضمن مروري بر مسئلهي شناسايي احساس گفتار و پيشينهي آن، به اهميت به كارگيري ترنسفرمرها در اين مسئله پرداخته ميشود و و دو مدل يكي بر پايهي طيفنگار و يكي بر پايهي صوت مستقيم روي دادگان shEMO تنظيمدقيق ميشود. اين مدلها دقتهاي سيتستمهاي قبلي را روي دادگان ذكر شده از حدود 65 به 80 درصد ارتقا ميدهد. در ادامهي كار همان مدلهاي معرفيشده ابتدا با دادگان IEMOCAP انگليسي و سپس با دادگان shEMO فارسي دو بار تنظيم دقيق ميشود و از اين طريق دقت سيستم شناسايي احساس فارسي ساختهشده تا 82 درصد بهبود مييابد.