عنوان مقاله :
يك روش دو مرحلهاي جديد براي بهسازي گفتار مبتني بر بهسازي ادراكي، بسته موجك و تخمين نويز ناايستان و بهينهسازي ابرپارامترهاي آن با الگوريتم دسته ذرات كوانتومي (QPSO)
عنوان به زبان ديگر :
A new two-stage method for speech enhancement based on perceptual enhancement, wavelet packet and nonstationary noise detection and QPSO-based optimization of its hyperparameters
پديد آورندگان :
صاحبي همراه، الهه دانشگاه رازي - دانشكده مهندسي كامپيوتر و فناوري اطلاعات، كرمانشاه، ايران , كبوديان، جهانشاه دانشگاه رازي - دانشكده مهندسي كامپيوتر و فناوري اطلاعات، كرمانشاه، ايران
كليدواژه :
پردازش گفتار , حذف نويز , بهبود كيفيت گفتار , بسته موجك , الگوريتم بهينهسازي دسته ذرات كوانتومي , QPSO
چكيده فارسي :
موضوع بهبود كيفيت صدا امروزه به يكي از موضوعات مهم و اساسي روز تبديل شده است. تضعيف نويز بهنحويكه اختلالي در سيگنال اصلي بهوجود نياورد، يك چالش مهم براي بهبود صدا محسوب ميشود. موضوع تحقيق اين مقاله بررسي نويز موجود در سيگنالِ گفتار، حذف و يا كاهش آن از سيگنال گفتارِنويزي است . در اين مقاله يك روش دومرحلهاي جديد براي كاهش نويز موجود در سيگنال گفتار نويزي ارائه شده است. دراين روش، در مرحلة اول، سيگنال گفتار نويزي توسط روش ادراكي بيزين بهبود داده ميشود و سپس بر روي سيگنال بهبود دادهشده بسته موجك اعمال ميشود و سيگنال را به زير باندهاي مجزا از هم تبديل ميكند. در مرحله دوم بر روي هر زير باند روش بهسازي NNESE اعمال ميشود. همچنين ابرپارامترهاي روش NNESE در تمامي زيرباندها توسط الگوريتم فراابتكاري دسته ذرات كوانتومي (QPSO) بهينه ميشود. بدين ترتيب هر زير باند بهطور جداگانه بهبود داده ميشود. درنهايت سيگنال بهسازيشده با تركيب زير باندها حاصل ميشود. روش پيشنهادي نسبت به روشهاي ديگران ازلحاظ معيارهاي PESQ و SegmentalSNR بر روي بخشي از پايگاه داده TIMIT آغشتهشده به نويزهاي Noisex-92 بهتر عمل ميكند و منجر به كاهش بيشتر نويز از سيگنال ميگردد.
چكيده لاتين :
Nowadays, speech enhancement has become one of the most important issues in signal processing. Noise reduction such that it does not disturb the original signal is an important challenge in speech enhancement. In this paper, we have proposed a new hybrid two-stage method for speech enhancement. In the proposed method, noisy speech signal is enhanced using perceptually-motivated Bayesian approach in the first stage. Then, the signal is decomposed into sub-bands using wavelet packet decomposition. In the second stage, each sub-band signal is enhanced using NNESE method. Hyperparameters of NNESE is optimized using QPSO metaheuristic. Finally, all enhanced sub-band signals are combined together using wavelet packet reconstruction. Proposed method is better than others in terms of PESQ and Segmental SNR criteria over a subset of TIMIT speech database polluted by Noisex-92 noise database.
عنوان نشريه :
مهندسي برق دانشگاه تبريز