Title of article :
A Database for Automatic Persian Speech Emotion Recognition: Collection, Processing and Evaluation
Author/Authors :
Esmaileyan، Z. نويسنده Department of Electrical engineering, Science and Research branch, Islamic Azad University, Shahrood, Iran , , Marvi، H. نويسنده Department of Electrical engineering and Robotics, Shahrood University of technology, Shahrood, Iran ,
Issue Information :
فصلنامه با شماره پیاپی سال 2014
Pages :
12
From page :
79
To page :
90
Abstract :
پيشرفت روزافزون در سيستم هاي اتوماتيك و رباتيك موجب شده است كه محققان تلاش هاي زيادي در جهت افزايش كيفيت اين ارتباط انجام دهند. از آنجا كه گفتار متداول ترين روش ارتباط ميان انسان هاست، تشخيص احساس انسان از روي گفتار به يكي از موضوعات چالش برانگيز در اين حوزه تبديل شده است. ما در اين تحقيق يك پايگاه داده احساسي فارسي تدوين نموده ايم. جملات اين پايگاه داده از نمايش هاي راديويي موجود در وب سايت رسمي راديو نمايش گرفته شده است. علاوه بر آن يك سيستم تشخيص احساس از روي گفتار فارسي طراحي نموده ايم. بدين منظور از ويژگي هاي عروضي و طيفي سيگنال گفتار استفاده گرديده است. نتايج حاصل از انجام آزمايشات بدست آمده از پايگاه داده ي پيشنهادي با پايگاه داده ي معروف برلين مقايسه شده است. سيستم مورد نظر براي گويندگان زن و مرد بصورت جداگانه طراحي شده است. در اين سيستم ويژگي هاي غير مرتبط و نويزي بوسيله ي الگوريتم انتخاب ويژگي فيشر حذف مي شوند. ويژگي هاي انتخاب شده توسط الگوريتم فيشر، در يك مرحله ي ديگر توسط الگوريتم جداساز خطي كاهش مي يابند. سپس داده ها با استفاده از كلاسه بند جداساز خطي كلاسه بندي مي شوند. متوسط نرخ تشخيص بدست آمده براي زنان و مردان در پايگاه داده پيشنهادي 74/55% و 89/47% مي باشد. همچنين متوسط نرخ تشخيص بدست آمده براي زنان و مردان در پايگاه داده برلين 64/78% و 40/73% مي باشد.
Abstract :
Recent developments in robotics automation have motivated researchers to improve the efficiency of interactive systems by making a natural man-machine interaction. Since speech is the most popular method of communication, recognizing human emotions from speech signal becomes a challenging research topic known as Speech Emotion Recognition (SER). In this study, we propose a Persian emotional speech corpus collected from emotional sentences of drama radio programs. Moreover, we propose a new automatic speech emotion recognition system which is used both for spectral and prosodic feature simultaneously. We compare the proposed database with the public and widely used Berlin database. The proposed SER system is developed for females and males separately. Then, irrelevant features are removed using Fisher Discriminant Ratio (FDR) filtering feature selection technique. The selected features are further reduced in dimensions using Linear Discriminant Analysis (LDA) embedding feature reduction scheme. Finally, the samples are classified by a LDA classifier. The overall recognition rate of 55.74% and 47.28% is achieved on proposed database for females and males, respectively. Also, the average recognition rate of 78.64% and 73.40% are obtained for Berlin database for females and males, respectively.
Journal title :
International Journal of Engineering
Serial Year :
2014
Journal title :
International Journal of Engineering
Record number :
1010066
Link To Document :
بازگشت