شماره ركورد كنفرانس :
5490
عنوان مقاله :
بازشناسي مقاوم اعداد گفتار فارسي با شبكه عصبي عميق
پديدآورندگان :
نصراصفهاني علي alinasresf8@gmail.com دانشگاه صنعتي قم، دانشكده مهندسي برق و كامپيوتر، گروه مخابرات و الكترونيك , بكراني مهدي bekrani@qut.ac.ir دانشگاه صنعتي قم، دانشكده مهندسي برق و كامپيوتر، گروه مخابرات و الكترونيك , رجبي روزبه rajabi@qut.ac.ir دانشگاه صنعتي قم، دانشكده مهندسي برق و كامپيوتر، گروه مخابرات و الكترونيك
كليدواژه :
بازشناسي ارقام مجزا , دادهافزايي , شبكه عصبي كانولوشنال باقيمانده , شبكه عصبي واحد بازگشتي گيتي دوطرفه
عنوان كنفرانس :
ششمين كنفرانس بينالمللي بازشناسي الگو و تحليل تصوير
چكيده فارسي :
از چالشهاي مهم در بازشناسي اعداد در گفتار وجود نويز در صداي دريافتي دستگاههاي ديجيتال و تشابهات وجهي اعداد ميباشد. براي مقابله با اين چالشها در اين پژوهش، علاوه بر درنظرگرفتن واحد كلمه بهجاي واحد واج، انجام عمليات دادهافزايي بهمنظور بهبود عملكرد سيستم، يك ساختار تركيبي از دو شبكه عصبي كانولوشنال باقيمانده و شبكه عصبي واحد بازگشتي گيتي دوطرفه براي بازشناسي اعداد فارسي گسسته صفر تا نه از گفتار ارائه شده است. نتايج حاصل نشان ميدهند كه دقت بازشناسي گفتار روش پيشنهادي براي دادههاي آموزش و اعتبارسنجي به ترتيب 98.53% و 96.10% است. اين نتايج نسبت به روشهاي مبتني بر شبكه عصبي LSTM داراي عملكرد بهتري است.