شماره ركورد كنفرانس :
4817
عنوان مقاله :
معرفي داده استاندارد طلايي در سطح معنا براي همنگارههاي زبان فارسي
عنوان به زبان ديگر :
Introducing a Gold Standard Data at the Semantic Level for Persian Words with Similar Written Forms
پديدآورندگان :
قيومي مسعود M.Ghayoomi@ihcs.ac.ir پژوهشگاه علوم انساني و مطالعات فرهنگي؛
كليدواژه :
پيكره زباني , داده استاندارد طلايي , نشانهگذاري داده , ابهام معنايي , طبقهبندي , خوشهبندي
عنوان كنفرانس :
سومين همايش ملي زبان شناسي پيكره اي
چكيده فارسي :
واژه كوچكترين عنصر زباني است كه حاوي اطلاعات وسيعي از ساخت آوايي تا نحو و معنا ميباشد. واژههاي يك زبان معمولاً بيش از يك مقوله دستوري و معنا دارند. اين ويژگي موجب ميشود بههنگام پردازش زبان با كمك رايانه دچار چالش شويم؛ چراكه نحوه پردازش داده زباني بايد به گونهاي باشد كه نقش دستوري يا معناي واژه باتوجهبه بافت محلي در جمله صحيح تشخيص داده شود. اين مقاله به معرفي يك داده استاندارد طلايي تهيهشده در سطح معنا براي واژههاي فارسي ميپردازد كه داراي صورت نوشتاري يكسان (همنگاره) بوده و رايانه بههنگام تشخيص معناي صحيح واژه با چالش مواجه ميگردد. اين داده براي تعداد ۲۰ واژه هدف فارسي تهيه شدهاست و تعداد ۱۰۰ جمله مستخرج از يك پيكره زباني براي اين واژهها، بهصورت دستي برچسبگذاري معنايي انجام ميشود. سپس اين داده به ساختار استاندارد تبديل ميگردد. از اين تعداد داده، نشانهگذاري ۴ واژه منتخب به ۵ برابر افزايش مييابد تا كارايي روش يادگيري ماشيني بامربي در طبقهبندي كه در «ابهامزدايي معنايي واژه» بهكار ميرود با روش يادگيري ماشيني بيمربي در خوشهبندي كه در «استنتاج استقرايي معناي واژه» بهكار ميرود قابلمقايسه گردد.