شماره ركورد كنفرانس :
5400
عنوان مقاله :
تشخيص بازه سني گوينده فارسي زبان با استفاده از مدل شبكه عصبي عميق پيش آموزش ديده
پديدآورندگان :
مومني صالح saleh.momeni@ut.ac.ir دانشگاه تهران , باباعلي باقر babaali@ut.ac.ir دانشگاه تهران
تعداد صفحه :
6
كليدواژه :
تشخيص خودكار بازه سني گوينده , گفتار زبان فارسي , شبكه هاي عصبي عميق پيش آموزش ديده , مدل WavLM
سال انتشار :
1402
عنوان كنفرانس :
نهمين كنگره انجمن علوم صوتي ايران
زبان مدرك :
فارسي
چكيده فارسي :
گفتار علاوه بر محتواي زباني، حاوي اطلاعات مهم ديگري نظير نظير سن، جنسيت، لهجه، گويش، وضعيت عاطفي يا رواني گوينده است كه استخراج آنها مي تواند در جهت شناسايي هويت افراد كاربرد داشته باشند در اين پژوهش،به تشخيص خودكار بازه هاي سني گويندگان گفتار زبان فارسي مي پردازيم كه براي زبان فارسي كمتر به آن پرداخته شده است. يكي از دلايل عمده اين ضعف، نبود دادگان خاص اين منظور، با جامعيت و حجم كافي بوده است. دادگان هاي موجود نسبتاً كوچك و نامتوازن هستند كه امكان بكارگيري رويكردهاي يادگيري عميق را به چالش مي‌كشند. در اين كار، با بهره گيري از روش يادگيري انتقالي و با استفاده از مدل ‌WavLM كه به روش يادگيري خودنظارتي روي حجم عظيمي داده گفتاري بدون برچسب پيش آموزش‌ ديده است، به اين چالش مي پردازيم. آزمايش ها بر روي دادگان فارس دات انجام شده است. بر روي اين دادگان، 4 بازه سني معنادار تعريف كرده ايم، بنابراين با يك مسأله دسته بندي 4 دسته اي سر و كار داريم. براي ارزيابي، اين دادگان به دو زير بخش آموزش و آزمون بخش بندي شد و 80 درصد گويندگان هر بازه سني در مجموعه آموزش و 20 درصد مابقي در مجموعه آزمون قرار گرفت. بهترين دقت كلي حاصل بر روي اين چهار دسته بازه سني، 66.7درصد است كه با توجه به كمبود داده آموزشي و همچنين نامتوازن بودن تعداد گويندگان چهار بازه سني تعريف شده، مناسب است.
كشور :
ايران
لينک به اين مدرک :
بازگشت