بدست آوردن همترازي زماني بين متن و صوت با استفاده از تركيب الگوريتم CTC و MarbelNetVAD

پديدآورندگان

علويان شهري مصطفي mostafa.alaviyan@yahoo.com دانشگاه يزد , صفري محمد صادق mohammadsadeq.safari@partdp.ai مركز تحقيقات هوش مصنوعي پارت

تعداد صفحه

كليدواژه

همترازي زماني , الگوريتم ctc , MarbelNetVAD

سال انتشار

1402

عنوان كنفرانس

بيستمين سمپوزيوم بين‌المللي هوش مصنوعي و پردازش سيگنال

زبان مدرك

فارسي

چكيده فارسي

در اين مقاله روشي جديد با استفاده از تركيب الگوريتمهاي طبقه بندي زماني ارتباطگرا (CTC (و MarbelNetVAD به منظور برچسبزني دادههاي صوتي در حالتي كه عالوه بر كم بودن دادها، صوت متناظر با متن هم حالت استاندارد نداشته پيشنهاد شده است. از جمله اين نوع دادها ميتوان به متن و صوت ادعيه مفاتيجالجنان اشاره كرد كه تعداد محدودي دعا توسط چند مداح/گوينده با لحني خاص خوانده شده است. در اين روش با استفاده از الگوريتم CTC تخمين اوليه اي همترازيهاي زماني، مبتني بر توزيع احتمالي بدست آمده از يك مدل بازشناسي گفتار wav2vec2 بدست ميآيد. مشكل تخمين اوليه با توجه به نوع دادها اين است كه ممكن است صوت يك عبارت كوتاه از يك جمله در جمله ديگر تشخيص داده شود. از اين رو، در ادامه با تركيب خروجي CTC و زمانهاي بدست آمده از MarbelNetVAD تخمين دقيقي از همترازي زماني هر عبارت و صوت متناظر با آن در دنباله صوتي بدست ميآيد. نتايج حاصل از شبيهسازيها نشان ميدهد ميانگين و واريانس اختالف همترازيهاي زماني تخمين زده شده توسط روش پيشنهادي در حدود 64s.0 و 37.0 است، در عين حال كه روش CTC به عنوان روش پايه به ميانگين و واريانسي در حدود 87s.0 و 47.0 رسيده است.

كشور

ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=366416