شماره ركورد كنفرانس :
5400
عنوان مقاله :
يادگيري چند وظيفه اي با هدف بهبود تشخيص احساس از گفتار با نرخ نمونه برداري پايين
پديدآورندگان :
هاشمي صابر saberhashemi753@gmail.com دانشگاه صدا و سيما , عسگري محمد m.asgari@iribu.ac.ir دانشگاه صدا و سيما
كليدواژه :
يادگيري چند وظيفه اي , تشخيص احساس از گفتار , ترنسفورمر , شبكه ي عصبي كانولوشن , مكانيسم توجه
عنوان كنفرانس :
نهمين كنگره انجمن علوم صوتي ايران
چكيده فارسي :
در اين پژوهش به استخراج احساس از سيگنال هاي گفتار با نرخ نمونه برداري پايين پرداخته مي شود. كاهش كيفيت سيگنال هاي صوتي بدليل كاهش فركانس نمونه برداري و يا افزايش نويز نمونه برداري در انواع فشرده سازها و يا مبدل هاي صوتي اتفاق مي افتد. مدل پيشنهادي براي بازشناسي احساس از دو بخش موازي شامل ترنسفورمر مبتني بر فريم و شبكه ي عصبي كانولوشن تشكيل مي شود. تشخيص جنسيت به عنوان يك وظيفه ي جانبي با هدف بهبود سوگيري استقرايي به مدل افزوده مي شود. هر يك از اين بخش ها وظيفه ي دريافت ويژگي هاي معيني را دارند. از ترنسفورمر مبتني بر فريم با هدف بهره مندي از توانايي آن در يادگيري ويژگي هاي سراسري استفاده مي شود. شبكه ي كانولوشني وظيفه ي دريافت ويژگي هاي محلي و تمركز بر ساختار دو بعدي ضرايب كپسترال فركانس مل را دارد. ضرايب كپسترال فركانس مل به عنوان ورودي شبكه ي عصبي پيشنهادي استفاده مي شود. مدل پيشنهادي در ديتاست RAVDESS به دقت 78٫9 براي دادگان تميز با نرخ نمونه برداي پايين و دقت 75٫4 براي دادگان نويزي دست مي يابد. اين پژوهش نشان مي دهد كه بدون افزودن پيش پردازش هاي اضافي مي توان دقت مدل تشخيص احساس را در شرايط نرخ نمونه برداري پايين و نويزي بهبود بخشيد.