شماره ركورد كنفرانس :
5530
عنوان مقاله :
بدست آوردن همترازي زماني بين متن و صوت با استفاده از تركيب الگوريتم CTC و MarbelNetVAD
پديدآورندگان :
علويان شهري مصطفي mostafa.alaviyan@yahoo.com دانشگاه يزد , صفري محمد صادق mohammadsadeq.safari@partdp.ai مركز تحقيقات هوش مصنوعي پارت
كليدواژه :
همترازي زماني , الگوريتم ctc , MarbelNetVAD
عنوان كنفرانس :
بيستمين سمپوزيوم بينالمللي هوش مصنوعي و پردازش سيگنال
چكيده فارسي :
در اين مقاله روشي جديد با استفاده از تركيب الگوريتمهاي طبقه بندي زماني ارتباطگرا (CTC (و MarbelNetVAD به منظور برچسبزني دادههاي صوتي در حالتي كه عالوه بر كم بودن دادها، صوت متناظر با متن هم حالت استاندارد نداشته پيشنهاد شده است. از جمله اين نوع دادها ميتوان به متن و صوت ادعيه مفاتيجالجنان اشاره كرد كه تعداد محدودي دعا توسط چند مداح/گوينده با لحني خاص خوانده شده است. در اين روش با استفاده از الگوريتم CTC تخمين اوليه اي همترازيهاي زماني، مبتني بر توزيع احتمالي بدست آمده از يك مدل بازشناسي گفتار wav2vec2 بدست ميآيد. مشكل تخمين اوليه با توجه به نوع دادها اين است كه ممكن است صوت يك عبارت كوتاه از يك جمله در جمله ديگر تشخيص داده شود. از اين رو، در ادامه با تركيب خروجي CTC و زمانهاي بدست آمده از MarbelNetVAD تخمين دقيقي از همترازي زماني هر عبارت و صوت متناظر با آن در دنباله صوتي بدست ميآيد. نتايج حاصل از شبيهسازيها نشان ميدهد ميانگين و واريانس اختالف همترازيهاي زماني تخمين زده شده توسط روش پيشنهادي در حدود 64s.0 و 37.0 است، در عين حال كه روش CTC به عنوان روش پايه به ميانگين و واريانسي در حدود 87s.0 و 47.0 رسيده است.