شماره ركورد كنفرانس :
5400
عنوان مقاله :
شناسايي احساس گفتار فارسي با روش تنظيم دقيق ترانسفرمرها
پديدآورندگان :
شاياني نسب مينو minooshayan97@gmail.com دانشگاه تهران , باباعلي باقر babaali@ut.ac.ir دانشگاه تهران
تعداد صفحه :
6
كليدواژه :
شناسايي احساس گفتار فارسي , shEMO , يادگيري خودنظارتي
سال انتشار :
1402
عنوان كنفرانس :
نهمين كنگره انجمن علوم صوتي ايران
زبان مدرك :
فارسي
چكيده فارسي :
با توجه به اهميت شناسايي احساس از روي صوت گفتار، در سال‌هاي اخير روش‌هاي متعددي براي توليد سيستم‌هاي كارا و بهينه‌ در اين حوزه توسعه داده شده است. از جمله‌ي اين روش‌ها استفاده از ترنسفرمرهاي پيش‌آموزش ديده‌اي هستند كه مناسب اين مسئله تنظيم دقيق مي شوند و دقت بالايي هم به دست آورده اند. علي رغم بحث و تحقيقات زياد در خصوص اين سيستم ها و تلاش براي بهبود هرچه بيشتر آن ها در مقياس جهاني، در مطالعات صوت و گفتار فارسي با هدف شناسايي احساس، به اين رويكرد جديد و موثر كمتر پرداخته شده است. در اين مقاله، ضمن مروري بر مسئله‌ي شناسايي احساس گفتار و پيشينه‌ي آن، به اهميت به كارگيري ترنسفرمرها در اين مسئله پرداخته مي‌شود و و دو مدل يكي بر پايه‌ي طيف‌نگار و يكي بر پايه‌ي صوت مستقيم روي دادگان shEMO تنظيم‌دقيق مي‌شود. اين مدل‌ها دقت‌هاي سيتستم‌هاي قبلي را روي دادگان ذكر شده از حدود 65 به 80 درصد ارتقا مي‌دهد. در ادامه‌ي كار همان مدل‌هاي معرفي‌شده ابتدا با دادگان IEMOCAP انگليسي و سپس با دادگان shEMO فارسي دو بار تنظيم دقيق مي‌شود و از اين طريق دقت سيستم شناسايي احساس فارسي ساخته‌شده تا 82 درصد بهبود مي‌يابد.
كشور :
ايران
لينک به اين مدرک :
بازگشت