شماره ركورد كنفرانس :
3876
عنوان مقاله :
سامانهاي براي استانداردسازي و خطايابي متون علمي فارسي
پديدآورندگان :
عبدي قويدل هادي habdi.cnlp@gmail.com كارشناس ارشد زبانشناسي رايانشي، دانشگاه صنعتي شريف، تهران، ايران , حسيني بهشتي ملوكالسادات beheshti@irandoc.ac.ir دكتري زبانشناسي همگاني، استاديار پژوهشگاه علوم و فناوري اطلاعات ايران، تهران، ايران
كليدواژه :
مستندات علمي , پردازش ماشيني , صحت نگارشي , صحت املايي , شكل استاندارد
عنوان كنفرانس :
چهارمين همايش ملي مديران فناوري اطلاعات
چكيده فارسي :
روزانه هزاران مستند متني متنوع در حوزههاي مختلف علمي بر روي وب جهانگستر قرار ميگيرد. اين مستندات ميتواند شامل پاياننامهها، مقالهها، گزارشهاي علمي و مواردي از اين قبيل باشد. نگارش متن اين مستندات علمي جهت حفظ يكنواختي بايد بر اساس اصول ثابت انجام گيرد، اما همواره به طور غير عمدي دستخوش سليقههاي مختلفي در طول تاريخ ميشود. اگرچه اين تغييرات ناشي از پويا بودن زبان و خلاقيت ذهن بشري است، اما اين پويايي و خلاقيت پردازش ماشيني متن را با چالشهاي متعددي روبهرو ميكند و دقت پردازش دادهها را به ميزان چشمگيري پايين ميآورد. علاوه بر تنوع نگارشي، غلطهاي سهوي املايي نيز وجود دارد كه فحواي گفتماني متن را منحرف كرده و درك آن را با مشكل مواجه ميكند. بنابراين، كليۀ نويسههاي متن بايد به حالت استاندارد تبديل شوند و عاري از هر گونه خطاهاي املايي گردند. پژوهشگران مقالۀ حاضر سامانهاي براي استانداردسازي و خطايابي متون علمي فارسي طراحيكردهاند كه اين سامانه متون نوشتاري علمي و تخصصي فارسي را به لحاظ صحت نگارشي و املايي بررسي ميكند و متن را به شكل استاندارد در ميآورد. در اين مقاله، به معرفي كاربردهاي سامانه ميپردازيم.