شماره ركورد :
997118
عنوان مقاله :
پايه‌گذاري بستري نو و كارآمد در حوزه بازشناسي گفتار فارسي
پديد آورندگان :
باباعلي، باقر دانشگاه تهران - دانشكده رياضي، آمار و علوم كامپيوتر
تعداد صفحه :
12
از صفحه :
51
تا صفحه :
62
كليدواژه :
بازشناسي گفتار پيوسته فارسي , دادگان فارس دات , نرم‌افزار متن‌باز كلدي
چكيده فارسي :
برخلاف پيشينۀ سي‌سالۀ پژوهش در حوزۀ بازشناسي گفتار فارسي در ايران و دست‌يافتن به پيشرفت‌هاي در خور توجه، نتايج عمده كارهاي انجام‌شده به‌دليل عدم وجود بستر يكسان، قابل مقايسه و ارزيابي دقيق نيستند. بستر بيش‌تر شامل سامانۀ بازشناسي و دادگان با تعريف مشخص مجموعه‌هاي آموزش، توسعه و ارزيابي است. سامانۀ متن‌باز كلدي با وجود نوظهور‌بودن آن ويژگي‌هاي منحصر‌به‌فردي دارد كه در سال‌هاي اخير مورد توجه اكثر آزمايشگاه‌هاي تراز نخست پردازش گفتار دنيا قرار گرفته است و با لحاظ همه جوانب، بهترين انتخاب موجود در راستاي پايه‌گذاري اين بستر براي تمامي زبان‌ها از جمله زبان فارسي است. در اين مقاله پس از بررسي خصوصيات، توانمندي‌ها و اجزاي مختلف نرم‌افراز كلدي؛ دادگان فارس‌دات را به‌دليل ثبت رسمي و قابل دسترس‌بودن آن براي همگان از سراسر دنيا به‌عنوان بخش ديگر اين بستر انتخاب كرده و به تأسي از انتخاب انجام‌شده بر روي دادگان TIMIT به تعريف مجموعه‌هاي آموزش، توسعه و ارزيابي مي‌پردازيم. در‌نهايت بيش‌تر قريب به اتفاق تكنيك‌ها و روش‌هاي موجود در كلدي بر روي دادگان فارس‌دات، مطابق تعريف صورت گرفته، مورد آزمايش قرار گرفته‌اند. بهترين ميزان خطاي حاصل در بازشناسي واج براي مجموعه توسعه 20/3 درصد و براي مجموعه آزمون 19/8 بوده است. دسترسي به كدهاي نوشته در جهت فراهم‌سازي اين بستر، در نرم‌افزار كلدي موجود است كه با توجه به متن‌باز‌بودن آن، دسترسي به آنها به‌منظور بازسازي نتايج آمده در اين مقاله در‌صورت در‌اختيارداشتن دادگان فارس‌دات به‌راحتي قابل انجام است.
چكيده لاتين :
Although researches in the field of Persian speech recognition claim a thirty-year-old history in Iran which has achieved considerable progresses, due to the lack of well-defined experimental framework, outcomes from many of these researches are not comparable to each other and their accurate assessment won’t be possible. The experimental framework includes ASR toolkit and speech database which consists of training, development and test datasets. In recent years, as a state-of-the-art open-source ASR toolkit; Kaldi has been very well-received and welcomed in the community of the world-ranked speech researchers around the world. considering all aspects, Kaldi is the best option among all of the other ASR toolkits to establish a framework to do research in all languages, including Persian. In this paper, we chose Fardat as the speech database which is the counterpart of TIMIT for Persian language because not only it has got a standard form but it’s also accessible for all researchers around the world. Similar to the recipe on TIMIT database, we defined these three sets on the Farsdat: Training, Development and Test sets. After a survey on Kaldi’s components and features, we applied most of state-of-the-art ASR techniques in the Kaldi on the Farsdat based on three sets definition. The best phone error rate on development and test set have been 20.3% and 19.8%. All of the codes and the recipe that was written by author have been submitted to Kaldi repository and they are accessible for free, so all the reported results will be easily replicable if you have access to Farsdat database.
سال انتشار :
1395
عنوان نشريه :
پردازش علائم و داده ها
فايل PDF :
7329022
عنوان نشريه :
پردازش علائم و داده ها
لينک به اين مدرک :
بازگشت