شماره ركورد كنفرانس :
4747
عنوان مقاله :
بهبود عملكرد سيستم تشخيص گفتار فارسي با استفاده از شبكه عصبي عميق
پديدآورندگان :
غياثوند حميدرضا سازمان صداوسيما اداره كل راديويي
كليدواژه :
تشخيص گفتار , شبكه عصبي عميق
عنوان كنفرانس :
اجلاس فناوري رسانه
چكيده فارسي :
يادگيري عميق از زير شاخه هاي يادگيري ماشيني است كه در سال هاي اخير مورد توجه قرار گرفته است و نتايج بسيار خوبي در زمينه هاي مختلف توسط آن بدست آمده است.يكي از اين زمينه ها پردازش زبان هاي طبيعي است. اما در زبان فارسي هنوز كاري به وسيله ي اين روش انجام نشده است.امروزه از روش هاي مختلفي جهت بازشناسي گفتار استفاده مي شود كه مهمترين آنها روش آماري مدل مخفي ماركوف وشبكه عصبي مي باشد. يكي از مشكلاتي كه هنوز در اين حوزه مطرح است، بحث افزايش دقت وكارايي اين سيستم ها مي باشد و با توجه به اينكه يكي از راه هاي افزايش دقت سيستم هاي بازشناسي گفتار، بهبود مدل آوايي مي باشد. پس از ارائه ي شبكه ي عصبي بازگشتي (RNN) و حل مشكل حافظه در اين شبكه ها، از شبكه LSTM به طور گسترده در تشخيص گفتار انگليسي استفاده شده است. از آنجايي كه سيگنال صوتي نم.نه اي از داده هاي متوالي مي باشدكه در آن مقدار داده فعلي به داده هاي قبلي وابسته است، شبكه هاي عصبي بازگشتي به دليل دارا بودن حافظه براي اين نوع داده ها مناسب مي باشد. شبكه عصبي حافظه كوتاه مدت ماندگار (LSTM)، يك شبكه عصبي بازگشتي است كه در آن با جايگزين كردن نرون هاي لايه پنهان با بلوك حافظه، مشكل فراموشي داده ها در دنباله هاي طولاني مدت رفع شده است و كارايي بالاي خود را در مدل سازي داده هاي ترتيبي در كاربردهاي مختلف نشان داده است. در اين مقاله به منظور افزايش دقت تشخيص گفتار زبان فارسي، از شبكه ي عصبي LSTM جهت مدل سازي آكوستيكي استفاده شده است كه دقت تشخيص واج 86 درصد ببا استفاده از آن به دست آمد. همچنين در اين مقاله با توجه به استفاده از شبكه LSTM، حذف بلوك DCT از الگوريتم استخراج ويژگي MFCC، تاثيري بر دقت تشخيص گفتار فارسي نداشته اما منجر به بهبود سرعت تشخيص گفتار شده است.