شماره ركورد :
1262557
عنوان مقاله :
بازشناسي احساسات از روي گفتار با استفاده از تركيب شبكه‌هاي عصبي ترنسفورمر و كانولوشني
عنوان به زبان ديگر :
Speech Emotion Recognition Using a Combination of Transformer and Convolutional Neural networks
پديد آورندگان :
پورابراهيم، يوسف دانشگاه آزاد اسلامي واحد علوم و تحقيقات - دانشكده مهندسي برق و كامپيوتر، تهران، ايران , رزازي، فربد دانشگاه آزاد اسلامي واحد علوم و تحقيقات - دانشكده مهندسي برق و كامپيوتر، تهران، ايران , صامتي، حسين دانشگاه صنعتي شريف - دانشكده مهندسي كامپيوتر، تهران، ايران
تعداد صفحه :
20
از صفحه :
79
از صفحه (ادامه) :
0
تا صفحه :
98
تا صفحه(ادامه) :
0
كليدواژه :
بازشناسي احساسات , پردازش سيگنال گفتار , شبكه هاي عصبي عميق , طبقه بندي
چكيده فارسي :
بازشناسي احساسات از روي گفتار با توجه به كاربردهاي متنوع آن امروزه مورد توجه بسياري از محققان قرار گرفته است. با پيشرفت روش‌هاي آموزش شبكه‌هاي عصبي عميق وگسترش استفاده از آن در كاربردهاي مختلف، در اين مقاله كاربرد شبكه‌هاي كانولوشني و ترنسفورمر در يك تركيب جديد در بازشناسي احساسات گفتاري مورد بررسي قرار گرفته كه از لحاظ پياده‌سازي نسبت به روش‌هاي موجود ساده‌تر بوده و عملكرد مطلوبي نيز دارد. براي اين منظور شبكه‌هاي عصبي كانولوشني و ترنسفورمر پايه معرفي شده و سپس مبتني بر آنها يك مدل جديد حاصل از تركيب شبكه‌هاي كانولوشني و ترنسفورمر ارايه شده كه در آن خروجي مدل كانولوشني پايه ورودي مدل ترنسفورمر پايه است. نتايج حاصل نشان مي‌دهد كه استفاده از شبكه‌هاي عصبي ترنسفورمر در بازشناسي بعضي از حالت‌هاي احساسي عملكرد بهتري نسبت به روش كانولوشني دارد. همچنين در اين مقاله نشان داده شده ‌كه استفاده از شبكه‌هاي عصبي ساده به­صورت تركيبي عملكرد بهتري در بازشناسي احساسات از روي گفتار مي‌تواند داشته باشد. در اين رابطه بازشناسي احساسات گفتاري با استفاده از تركيب شبكه‌هاي عصبي كانولوشني و ترنسفورمر با نام كانولوشنال-ترنسفورمر (CTF) براي دادگان راودس دقتي برابر 80/94 درصد به­دست آورد؛ در حالي­كه يك شبكه عصبي كانولوشني ساده دقتي در حدود 72/7 درصد به­دست آورد. همچنين تركيب شبكه‌هاي عصبي ساده علاوه بر اينكه مي‌تواند دقت بازشناسي را افزايش دهد، مي‌تواند زمان آموزش و نياز به نمونه‌هاي آموزشي برچسب دار را نيز كاهش دهد.
چكيده لاتين :
Speech emotions recognition due to its various applications has been considered by many researchers in recent years. With the extension of deep neural network training methods and their widespread usage in various applications. In this paper, the application of convolutional and transformer networks in a new combination in the recognition of speech emotions has been investigated, which is easier to implement than existing methods and has a good performance. For this purpose, basic convolutional neural networks and transformers are introduced and then based on them a new model resulting from the combination of convolutional networks and transformers is presented in which the output of the basic convolutional network is the input of the basic transformer network. The results show that the use of transformer neural networks in recognizing some emotional categories performs better than the convolutional neural network-based method. This paper also shows that the use of simple neural networks in combination can have a better performance in recognizing emotions through speech. In this regard, recognition of speech emotions using a combination of convolutional neural networks and a transformer called convolutional-transformer (CTF) for RAVDESS dataset achieved an accuracy of %80.94; while a simple convolutional neural network achieved an accuracy of about %72.7. The combination of simple neural networks can not only increase recognition accuracy but also reduce training time and the need for labeled training samples.
سال انتشار :
1401
عنوان نشريه :
روشهاي هوشمند در صنعت برق
فايل PDF :
8577224
لينک به اين مدرک :
بازگشت