بازشناسي گوينده انتها به انتها با استفاده از شبكه‌هاي عصبي كانوولوشني مبتني بر توابع سينك

عنوان به زبان ديگر

End-To-End Speaker Recognition by Convolutional Neural Networks Based on Sinc Functions

پديدآورندگان

انصاري زهره z_ansari@meybod.ac.ir گروه مهندسي پزشكي، دانشگاه ميبد، ميبد، يزد، ايران , محمودي رسول srmahmoodi1@gmail.com گروه مهندسي پزشكي، دانشگاه ميبد، ميبد، يزد، ايران , پورحسيني فرزين pourhoseinifarzin@gma گروه مهندسي پزشكي، دانشگاه ميبد، ميبد، يزد، ايران

تعداد صفحه

كليدواژه

شبكههاي عصبي كانوولوشني , بازشناسي گوينده , زيستسنجي , تشخيص هويت , شبكههاي عصبي كانوولوشني مبتني بر توابع سينك , سينكنت

سال انتشار

1400

عنوان كنفرانس

كتفرانس مهندسي زيست پزشكي ايران

زبان مدرك

فارسي

چكيده فارسي

تشخيص خودكار هويت انسان به يك چالش مهم براي جامعه‌ي مدرن امروزي تبديل شده است. فناوري زيست‌سنجي بر پايه پارامترهايي از جمله ويژگي‌هاي صوتي افراد در پاسخ به اين رشد، توسعه يافته‌است. در اين مقاله، يك الگوريتم تشخيص هويت با استفاده از شبكه‌هاي عصبي كانوولوشني مبتني بر روش سينكنت، بررسي شده‌است. در اين الگوريتم، از يك ساختار شبكه عصبي كانوولوشني عميق يكپارچه براي استخراج ويژگي و طبقه‌بندي گويندگان از روي سيگنال خام صوتي استفاده شده‌است. يكي از مهم‌ترين بخش‌هاي شبكه‌هاي عصبي كانوولوشني، اولين لايه كانوولوشن است. در معماري پيشنهادي سينكنت، شبكه‌هاي عصبي كانوولوشني در كشف فيلترهاي معني دارتر در لايه اول هدايت مي‌شوند. در اين روش، سيگنال خام ورودي با مجموعه‌اي از توابع سينك مرتبط مي‌شود كه در حوزه فركانس سبب پياده‌سازي فيلترهاي ميان گذر مي‌شود؛ به‌گونه‌اي كه فركانس‌هاي قطع پايين و بالا تنها پارامترهاي هستند كه فيلترها از داده‌هاي خام مي‌آموزند. براي ارزيابي اين الگوريتم، از مجموعه داده‌هاي فارس دات و تيميت كه به ترتيب از معتبرترين مجموعه داده‌هاي صوتي به زبان فارسي و انگليسي هستند، استفاده شده است. پس از تعليم شبكه، به ترتيب، نرخ خطاي بازشناسي گوينده 6% براي داده‌هاي تيميت و 1% براي دادگان فارس‌دات به‌دست آمد.

چكيده لاتين

Automatic person identification is an important challenge for the modern society. In response to this demand, Biometric technology is developed based on the parameters such as the acoustic features of the person. In this article, A deep integrated Convolutional Neural Network (CNN) based on the Sincnet method, for speaker recognition is investigated. This structure is implemented for both feature extraction as well as speaker classification from the raw speech signal. One of the important parts of the CNNs is the first convolutional layer. In the Sincnet method, the CNN structure is led to explore more sensible filters at the first layer. Therefore, the raw signal is applied to a set of filters parameterized by Sinc functions that end in the application of band pass filters in the frequency space. Experimental results on FARSDAT (a Persian speech data set) and TIMIT (an English speech dataset) verify that the Sincnet method achieves speaker recognition error rate of 1% and 6%, respectively.

كشور

ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=340557