چكيده فارسي :
برخلاف پيشينۀ سيسالۀ پژوهش در حوزۀ بازشناسي گفتار فارسي در ايران و دستيافتن به پيشرفتهاي در خور توجه، نتايج عمده كارهاي انجامشده بهدليل عدم وجود بستر يكسان، قابل مقايسه و ارزيابي دقيق نيستند. بستر بيشتر شامل سامانۀ بازشناسي و دادگان با تعريف مشخص مجموعههاي آموزش، توسعه و ارزيابي است. سامانۀ متنباز كلدي با وجود نوظهوربودن آن ويژگيهاي منحصربهفردي دارد كه در سالهاي اخير مورد توجه اكثر آزمايشگاههاي تراز نخست پردازش گفتار دنيا قرار گرفته است و با لحاظ همه جوانب، بهترين انتخاب موجود در راستاي پايهگذاري اين بستر براي تمامي زبانها از جمله زبان فارسي است. در اين مقاله پس از بررسي خصوصيات، توانمنديها و اجزاي مختلف نرمافراز كلدي؛ دادگان فارسدات را بهدليل ثبت رسمي و قابل دسترسبودن آن براي همگان از سراسر دنيا بهعنوان بخش ديگر اين بستر انتخاب كرده و به تأسي از انتخاب انجامشده بر روي دادگان TIMIT به تعريف مجموعههاي آموزش، توسعه و ارزيابي ميپردازيم. درنهايت بيشتر قريب به اتفاق تكنيكها و روشهاي موجود در كلدي بر روي دادگان فارسدات، مطابق تعريف صورت گرفته، مورد آزمايش قرار گرفتهاند. بهترين ميزان خطاي حاصل در بازشناسي واج براي مجموعه توسعه 20/3 درصد و براي مجموعه آزمون 19/8 بوده است. دسترسي به كدهاي نوشته در جهت فراهمسازي اين بستر، در نرمافزار كلدي موجود است كه با توجه به متنبازبودن آن، دسترسي به آنها بهمنظور بازسازي نتايج آمده در اين مقاله درصورت دراختيارداشتن دادگان فارسدات بهراحتي قابل انجام است.
چكيده لاتين :
Although researches in the field of Persian speech recognition claim a thirty-year-old history in Iran which has achieved considerable progresses, due to the lack of well-defined experimental framework, outcomes from many of these researches are not comparable to each other and their accurate assessment won’t be possible. The experimental framework includes ASR toolkit and speech database which consists of training, development and test datasets. In recent years, as a state-of-the-art open-source ASR toolkit; Kaldi has been very well-received and welcomed in the community of the world-ranked speech researchers around the world. considering all aspects, Kaldi is the best option among all of the other ASR toolkits to establish a framework to do research in all languages, including Persian. In this paper, we chose Fardat as the speech database which is the counterpart of TIMIT for Persian language because not only it has got a standard form but it’s also accessible for all researchers around the world. Similar to the recipe on TIMIT database, we defined these three sets on the Farsdat: Training, Development and Test sets. After a survey on Kaldi’s components and features, we applied most of state-of-the-art ASR techniques in the Kaldi on the Farsdat based on three sets definition. The best phone error rate on development and test set have been 20.3% and 19.8%. All of the codes and the recipe that was written by author have been submitted to Kaldi repository and they are accessible for free, so all the reported results will be easily replicable if you have access to Farsdat database.