مرکز منطقه ای اطلاع رساني علوم و فناوري - ارزيابي هيجان ضمن پيام از طريق پردازش گفتار هيجاني مبتني بر استفاده از ويژگي‌هاي MFCC و STFT

شماره ركورد :

1175272

عنوان مقاله :

ارزيابي هيجان ضمن پيام از طريق پردازش گفتار هيجاني مبتني بر استفاده از ويژگي‌هاي MFCC و STFT

عنوان به زبان ديگر :

Evaluation of implicit emotion in the message through emotional speech processing based on Mel-Frequency Cepstral Coefficient and Short-Time Fourier Transform features

پديد آورندگان :

روانبخش، مهسا موسسه آموزش عالي علوم شناختي، تهران , ستايشي، سعيد دانشگاه صنعتي اميركبير - دانشكده فيزيك و انرژي - گروه مهندسي هسته اي، تهران , پدرام، محسن دانشگاه خوارزمي - دانشكده فني و مهندسي - گروه مهندسي الكترونيك و كامپيوتر، تهران , ميرزائي، آزاده دانشگاه علامه طباطبائي - دانشكده ادبيات و زبانهاي خارجي - گروه زبانشناسي، تهران

تعداد صفحه :

از صفحه :

از صفحه (ادامه) :

تا صفحه :

تا صفحه(ادامه) :

كليدواژه :

گفتار هيجاني , بازشناسي هيجان , تبديل فوريه كوتاه مدت , ضرايب كپسترال فركانس مل , يپردازش گفتار هيجاني

چكيده فارسي :

مقدمه: گفتار مؤثرترين ابزاري است كه انسان‌ها براي انتقال اطلاعات از آن استفاده مي‌كنند. گوينده در خلال گفتار خويش علاوه بر واژگان و دستور زبان اطلاعاتي همچون سن، جنسيت و حالت‌ هيجاني خود را منتقل مي‌كند. پژوهش‌هاي فراواني با رويكردهاي گوناگون پيرامون هيجان در گفتار هيجاني انجام شده است. اين پژوهش‌ها نشان مي‌دهند كه هيجان ضمن پيام در گفتار هيجاني از طبيعتي پويا برخودار مي‌باشد. اين پويايي، مطالعه‌ كمّي هيجان در گفتار هيجاني را با دشواري همراه مي‌سازد. اين پژوهش به ارزيابي هيجان ضمن پيام از طريق پردازش گفتار هيجاني با استفاده از ويژگي‌هاي ضرايب كپسترال فركانس مِل (MFCC) و تبديل فوريه زمان كوتاه (STFT) پرداخت. روش كار: داده‌هاي ورودي، پايگاه‌داده‌ استاندارد گفتار هيجاني Berlin شامل هفت حالت هيجاني خشم، كسلي، انزجار، ترس، شادي، غم و حالت خنثي مي‌باشد. با استفاده از نرم افزار MATLAB ابتدا فايل‌هاي صوتي خوانده شدند. در مرحله‌ بعد نخست ويژگي‌هاي MFCC و سپس ويژگي‌هاي STFT استخراج شدند. بردار‌هاي ويژگي براي هر كدام از ويژگي‌ها بر اساس هفت مقدار آماري كمينه، بيشينه، ميانگين، انحراف معيار، ميانه، چولگي و كشيدگي محاسبه شدند و به عنوان ورودي شبكه‌ عصبي مصنوعي مورد استفاده قرار گرفتند. در انتها، بازشناسي حالت‌هاي هيجاني با استفاده از توابع آموزشي مبتني بر الگوريتم‌هاي مختلف انجام شد. يافته‌ها: نتايج بدست آمده نشان داد ميانگين و صحت بازشناسي حالت‌هاي هيجاني با استفاده از ويژگي‌هاي STFT نسبت به ويژگي‌هاي MFCC بهتر است. همچنين، حالت‌هاي هيجاني خشم و غم از نرخ بازشناسي بهتري برخوردار بودند. نتيجه‌گيري: ويژگي‌هاي STFT نسبت به ويژگي‌هاي MFCC هيجان ضمن پيام در گفتار هيجاني را بهتر بازنمايي مي‌كنند.

چكيده لاتين :

Introduction: Speech is the most effective way to exchange information. In a speech, a speaker’s voice carries additional information other than the words and grammar content of the speech, i.e., age, gender, and emotional state. Many studies have been conducted with various approaches to the emotional content of speech. These studies show that emotion content in speech has a dynamic nature. The dynamics of speech make it difficult to extract the emotion hidden in a speech. This study aimed to evaluate the implicit emotion in a message through emotional speech processing by applying the Mel-Frequency Cepstral Coefficient (MFCC) and Short-Time Fourier Transform (STFT) features. Methods: The input data is the Berlin Emotional Speech Database consisting of seven emotional states, anger, boredom, disgust, anxiety/fear, happiness, sadness, and neutral version. MATLAB software is used to input audio files of the database. Next, the MFCC and STFT features are extracted. Feature vectors for each method are calculated based on seven statistical values, i.e. minimum, maximum, mean, standard deviation, median, skewness, and kurtosis. Then, they are used as an input to an Artificial Neural Network. Finally, the recognition of emotional states is done by training functions based on different algorithms. Results: The results revealed that the average and accuracy of emotional states recognized using STFT features are better and more robust than MFCC features. Also, emotional states of anger and sadness have a higher rate of recognition, among other emotions. Conclusion: STFT features showed to be better than MFCC features to extract implicit emotion in speech.

سال انتشار :

1399

عنوان نشريه :

تازه هاي علوم شناختي

فايل PDF :

8211517

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=8&DC=1175272