شماره ركورد كنفرانس :
3945
عنوان مقاله :
طراحي نرمافزار ريشهيابي خودكار اسامي زبان فارسي تحت وب
پديدآورندگان :
سلطان آبادي سمانه دانشگاه آزاد اسلامي مرودشت , شرف زاده محمدحسين استاديار گروه زبانشناسي، واحد مرودشت، دانشگاه آزاد اسلامي، مرودشت، ايران
كليدواژه :
ريشهيابي خودكار , زبانشناسي رايانهاي , پردازش زبانهاي طبيعي , نرمافزار , زبان برنامهنويسي php.
عنوان كنفرانس :
نخستين كنفرانس ملي پژوهش هاي كاربردي در زبان شناسي رايانشي (با محوريت خط و زبان فارسي)
چكيده فارسي :
پردازش زبانها يكي از اموري است مورد توجه بسياري از پژوهشگران قرار گرفته است. بر اين مبنا، هدف از انجام اين پژوهش طراحي نرمافزار ريشهيابي واژگان زبان فارسي تحت وب است. ريشهيابي كه در آن با حذف پيشوندها و پسوندها، ريشهي واژه مشخص ميشود، يكي از كاربردهاي پردازش متن است. براي انجام عمليات ريشهيابي خودكار با رايانه، ابتدا مرز واژهها در متن مشخص ميشود تا بتوان ريشهي واژهها را استخراج كرد. علاتم اضافي مانند ويرگول، دو نقطه، كروشه، پرانتز و ... با استفاده از فراخواني تابع مربوط حذف ميشوند. سپس ساختار كلي برنامه كه شامل كلمه، طول كلمه، ريشهي موقت و ريشهي حقيقي ميباشد شكل ميگيرد. در مرحلهي بعد عمليات نرمالسازي در سطوح مختلف بر روي كلمات انجام ميگيرد. در آخر با توجه به حروف پاياني كلمات، فراخواني توابع مربوط و عمليات ريشهيابي صورت ميپذيرد. عمليات ريشهيابي تا زماني انجام ميشود كه ريشه پر نشده باشد و تا پيش از پرشدن ريشه، ريشهها در يك مكان موقت بهنام tmpRoot نگهداري ميشوند. در اين پژوهش40 تابع براي انجام عمليات ريشهيابي نوشته شده است كه هر كدام از آنها براي انجام عمليات مختلفي فراخوانده ميشوند. ديتابيسي نيز شامل 35 جدول فراهم گرديده كه اين جداول بر اساس حروف آخر كلمات فارسي تنظيم شدهاند. بدين ترتيب براي هر كدام از حروف دو جدول در نظر گرفته شده است. جدول ديگر، جدول بن افعال است كه دربردارندهي بن افعال ماضي، مضارع و مصادر آنها ميباشد. اين برنامه به زبان php نوشته شده است و از ديتابيس mysql براي ذخيرهسازي جداول استفاده شده است.