شماره ركورد كنفرانس
5250
عنوان مقاله
بازشناسي گوينده انتها به انتها با استفاده از شبكههاي عصبي كانوولوشني مبتني بر توابع سينك
عنوان به زبان ديگر
End-To-End Speaker Recognition by Convolutional Neural Networks Based on Sinc Functions
پديدآورندگان
انصاري زهره z_ansari@meybod.ac.ir گروه مهندسي پزشكي، دانشگاه ميبد، ميبد، يزد، ايران , محمودي رسول srmahmoodi1@gmail.com گروه مهندسي پزشكي، دانشگاه ميبد، ميبد، يزد، ايران , پورحسيني فرزين pourhoseinifarzin@gma گروه مهندسي پزشكي، دانشگاه ميبد، ميبد، يزد، ايران
تعداد صفحه
7
كليدواژه
شبكههاي عصبي كانوولوشني , بازشناسي گوينده , زيستسنجي , تشخيص هويت , شبكههاي عصبي كانوولوشني مبتني بر توابع سينك , سينكنت
سال انتشار
1400
عنوان كنفرانس
كتفرانس مهندسي زيست پزشكي ايران
زبان مدرك
فارسي
چكيده فارسي
تشخيص خودكار هويت انسان به يك چالش مهم براي جامعهي مدرن امروزي تبديل شده است. فناوري زيستسنجي بر پايه پارامترهايي از جمله ويژگيهاي صوتي افراد در پاسخ به اين رشد، توسعه يافتهاست. در اين مقاله، يك الگوريتم تشخيص هويت با استفاده از شبكههاي عصبي كانوولوشني مبتني بر روش سينكنت، بررسي شدهاست. در اين الگوريتم، از يك ساختار شبكه عصبي كانوولوشني عميق يكپارچه براي استخراج ويژگي و طبقهبندي گويندگان از روي سيگنال خام صوتي استفاده شدهاست. يكي از مهمترين بخشهاي شبكههاي عصبي كانوولوشني، اولين لايه كانوولوشن است. در معماري پيشنهادي سينكنت، شبكههاي عصبي كانوولوشني در كشف فيلترهاي معني دارتر در لايه اول هدايت ميشوند. در اين روش، سيگنال خام ورودي با مجموعهاي از توابع سينك مرتبط ميشود كه در حوزه فركانس سبب پيادهسازي فيلترهاي ميان گذر ميشود؛ بهگونهاي كه فركانسهاي قطع پايين و بالا تنها پارامترهاي هستند كه فيلترها از دادههاي خام ميآموزند. براي ارزيابي اين الگوريتم، از مجموعه دادههاي فارس دات و تيميت كه به ترتيب از معتبرترين مجموعه دادههاي صوتي به زبان فارسي و انگليسي هستند، استفاده شده است. پس از تعليم شبكه، به ترتيب، نرخ خطاي بازشناسي گوينده 6% براي دادههاي تيميت و 1% براي دادگان فارسدات بهدست آمد.
چكيده لاتين
Automatic person identification is an important challenge for the modern society. In response to this demand, Biometric technology is developed based on the parameters such as the acoustic features of the person. In this article, A deep integrated Convolutional Neural Network (CNN) based on the Sincnet method, for speaker recognition is investigated. This structure is implemented for both feature extraction as well as speaker classification from the raw speech signal. One of the important parts of the CNNs is the first convolutional layer. In the Sincnet method, the CNN structure is led to explore more sensible filters at the first layer. Therefore, the raw signal is applied to a set of filters parameterized by Sinc functions that end in the application of band pass filters in the frequency space. Experimental results on FARSDAT (a Persian speech data set) and TIMIT (an English speech dataset) verify that the Sincnet method achieves speaker recognition error rate of 1% and 6%, respectively.
كشور
ايران
لينک به اين مدرک