شماره ركورد كنفرانس :
5400
عنوان مقاله :
تشخيص لهجه هاي گفتار زبان فارسي با استفاده از شبكه عصبي عميق پيش-آموزش ديده
پديدآورندگان :
عبدي محمدفوأد mfabdi@ut.ac.ir دانشگاه تهران , باباعلي باقر babaali@ut.ac.ir دانشگاه تهران
تعداد صفحه :
6
كليدواژه :
تشخيص خودكار لهجه گفتاري , لهجه هاي زبان فارسي , شبكه هاي عصبي عميق پيش آموزش ديده , يادگيري انتقالي
سال انتشار :
1402
عنوان كنفرانس :
نهمين كنگره انجمن علوم صوتي ايران
زبان مدرك :
فارسي
چكيده فارسي :
گفتار علاوه بر اطلاعات زبان حاوي اطلاعات مهم شبه‌زبانيمربوط به گوينده نظير سن، جنسيت، لهجه، گويش، وضعيت عاطفي يا رواني و غيره است كه استخراج خودكار آنها مي تواند در كاربردهاي متعددي جهت شناسايي هويت افراد مفيد باشند در اين مقاله،به طور مشخص به تشخيص خودكار لهجه هاي مرسوم گفتار زبان فارسي مي پردازيم. بنا به كاربرد، تشخيص خودكار لهجه يك مبحث پژوهشي در خور توجه در حوزه پردازش سيگنال گفتار محسوب مي شود كه براي زبان فارسي كمتر به آن پرداخته شده است. يكي از دلايل عمده اين ضعف، نبود دادگان اختصاصي با جامعيت و حجم كافي بوده است. دادگان هاي موجود نسبتاً كوچك و نامتوازن هستند كه استفاده از رويكردهاي پيچيده يادگيري عميق را به چالش مي‌كشند. در اين پژوهش، به روش يادگيري انتقالي و با استفاده از مدل‌wav2vec كه به روش يادگيري خودنظارتي روي حجم عظميي داده گفتاري بدون برچسب پيش آموزش‌ ديده اند، به اين چالش مي پردازيم. آزمايش ها بر روي دادگان فارس دات (شامل 10 لهجه مرسوم) انجام شده است كه به نسبت ساير گزينه هاي موجود براي زبان فارسي، از جامعيت و مقبوليت كافي برخوردار است. براي ارزيابي، اين دادگان به دو زير بخش آموزش و آزمون بخش بندي شد و 80 درصد گويندگان هر لهجه در مجموعه آموزش و 20 درصد مابقي در مجموعه آزمون قرار گرفت. به اين ترتيب بين اين دو مجموعه، گويندۀ مشتركي وجود ندارد. با عنايت به كمبود داده آموزشي و همچنين و نامتوازن بودن تعداد گويندگان لهجه هاي، دقت حاصل شده قابل قبول است.
كشور :
ايران
لينک به اين مدرک :
بازگشت