عنوان مقاله :
بازشناسي احساسات از روي گفتار با استفاده از تركيب شبكههاي عصبي ترنسفورمر و كانولوشني
عنوان به زبان ديگر :
Speech Emotion Recognition Using a Combination of Transformer and Convolutional Neural networks
پديد آورندگان :
پورابراهيم، يوسف دانشگاه آزاد اسلامي واحد علوم و تحقيقات - دانشكده مهندسي برق و كامپيوتر، تهران، ايران , رزازي، فربد دانشگاه آزاد اسلامي واحد علوم و تحقيقات - دانشكده مهندسي برق و كامپيوتر، تهران، ايران , صامتي، حسين دانشگاه صنعتي شريف - دانشكده مهندسي كامپيوتر، تهران، ايران
كليدواژه :
بازشناسي احساسات , پردازش سيگنال گفتار , شبكه هاي عصبي عميق , طبقه بندي
چكيده فارسي :
بازشناسي احساسات از روي گفتار با توجه به كاربردهاي متنوع آن امروزه مورد توجه بسياري از محققان قرار گرفته است. با پيشرفت روشهاي آموزش شبكههاي عصبي عميق وگسترش استفاده از آن در كاربردهاي مختلف، در اين مقاله كاربرد شبكههاي كانولوشني و ترنسفورمر در يك تركيب جديد در بازشناسي احساسات گفتاري مورد بررسي قرار گرفته كه از لحاظ پيادهسازي نسبت به روشهاي موجود سادهتر بوده و عملكرد مطلوبي نيز دارد. براي اين منظور شبكههاي عصبي كانولوشني و ترنسفورمر پايه معرفي شده و سپس مبتني بر آنها يك مدل جديد حاصل از تركيب شبكههاي كانولوشني و ترنسفورمر ارايه شده كه در آن خروجي مدل كانولوشني پايه ورودي مدل ترنسفورمر پايه است. نتايج حاصل نشان ميدهد كه استفاده از شبكههاي عصبي ترنسفورمر در بازشناسي بعضي از حالتهاي احساسي عملكرد بهتري نسبت به روش كانولوشني دارد. همچنين در اين مقاله نشان داده شده كه استفاده از شبكههاي عصبي ساده بهصورت تركيبي عملكرد بهتري در بازشناسي احساسات از روي گفتار ميتواند داشته باشد. در اين رابطه بازشناسي احساسات گفتاري با استفاده از تركيب شبكههاي عصبي كانولوشني و ترنسفورمر با نام كانولوشنال-ترنسفورمر (CTF) براي دادگان راودس دقتي برابر 80/94 درصد بهدست آورد؛ در حاليكه يك شبكه عصبي كانولوشني ساده دقتي در حدود 72/7 درصد بهدست آورد. همچنين تركيب شبكههاي عصبي ساده علاوه بر اينكه ميتواند دقت بازشناسي را افزايش دهد، ميتواند زمان آموزش و نياز به نمونههاي آموزشي برچسب دار را نيز كاهش دهد.
چكيده لاتين :
Speech emotions recognition due to its various applications has been considered by many researchers in recent years. With the extension of deep neural network training methods and their widespread usage in various applications. In this paper, the application of convolutional and transformer networks in a new combination in the recognition of speech emotions has been investigated, which is easier to implement than existing methods and has a good performance. For this purpose, basic convolutional neural networks and transformers are introduced and then based on them a new model resulting from the combination of convolutional networks and transformers is presented in which the output of the basic convolutional network is the input of the basic transformer network. The results show that the use of transformer neural networks in recognizing some emotional categories performs better than the convolutional neural network-based method. This paper also shows that the use of simple neural networks in combination can have a better performance in recognizing emotions through speech. In this regard, recognition of speech emotions using a combination of convolutional neural networks and a transformer called convolutional-transformer (CTF) for RAVDESS dataset achieved an accuracy of %80.94; while a simple convolutional neural network achieved an accuracy of about %72.7. The combination of simple neural networks can not only increase recognition accuracy but also reduce training time and the need for labeled training samples.
عنوان نشريه :
روشهاي هوشمند در صنعت برق