شماره ركورد كنفرانس :
5399
عنوان مقاله :
تشخيص انتها به انتها حملات جعل بازپخش صدا به كمك شبكه CNN-ViT جهت بهبود تعميم پذيري
پديدآورندگان :
حجازي حسين hossein.hejazi1994@gmail.com دانشگاه صدا و سيما , عسگري محمد m.asgari@iribu.ac.ir دانشگاه صدا و سيما
كليدواژه :
تاييد خودكار گوينده , ترنسفرمر بينايي , حملات بازپخش , شبكه عصبي كانولوشني
عنوان كنفرانس :
سي و يكمين كنفرانس بين المللي مهندسي برق
چكيده فارسي :
با وجود پيشرفت سيستم هاي تاييد خودكار گوينده (ASV)، اين سيستم ها در مواجهه با حملات جعل بازپخش كه نيازي به مهارت خاص يا سخت افزار تخصصي جهت اعمال به سيستم هاي ASV ندارند، آسيب پذير هستند. در اين مقاله سعي داريم با استفاده از ساختار شبكه ي عصبي كانولوشني (CNN) و به دنبال آن ترنسفرمر بينايي (ViT)، يك رويكرد جديد يادگيري عميق براي تشخيص حملات بازپخش صدا ارائه دهيم. با استفاده از اين سيستم واحد، نتايج نرخ خطاي برابر (EER) نشان از بهبود 84/23 درصدي در دادگان توسعه، 02/30 درصدي در دادگان ارزيابي و5/35 درصدي در تعميم پذيري نسبت به روش هاي پايه موجود در چالش ASVSpoof2017 دارد.