شماره ركورد كنفرانس :
4817
عنوان مقاله :
معرفي داده استاندارد طلايي در سطح معنا براي هم‌نگاره‌هاي زبان فارسي
عنوان به زبان ديگر :
Introducing a Gold Standard Data at the Semantic Level for Persian Words with Similar Written Forms
پديدآورندگان :
قيومي مسعود M.Ghayoomi@ihcs.ac.ir پژوهشگاه علوم انساني و مطالعات فرهنگي؛
تعداد صفحه :
28
كليدواژه :
پيكره زباني , داده استاندارد طلايي , نشانه‌گذاري داده , ابهام معنايي , طبقه‌بندي , خوشه‌بندي
سال انتشار :
1398
عنوان كنفرانس :
سومين همايش ملي زبان شناسي پيكره اي
زبان مدرك :
فارسي
چكيده فارسي :
واژه كوچكترين عنصر زباني است كه حاوي اطلاعات وسيعي از ساخت آوايي تا نحو و معنا مي‌باشد. واژه‌هاي يك زبان معمولاً بيش از يك مقوله دستوري و معنا دارند. اين ويژگي موجب مي‌شود به‌هنگام پردازش زبان با كمك رايانه دچار چالش شويم؛ چراكه نحوه پردازش داده زباني بايد به گونه‌اي باشد كه نقش دستوري يا معناي واژه باتوجه‌به بافت محلي در جمله صحيح تشخيص داده شود. اين مقاله به معرفي يك داده استاندارد طلايي تهيه‌شده در سطح معنا براي واژه‌هاي فارسي مي‌پردازد كه داراي صورت نوشتاري يكسان (هم‎نگاره) بوده و رايانه به‎هنگام تشخيص معناي صحيح واژه با چالش مواجه مي‎گردد. اين داده براي تعداد ۲۰ واژه هدف فارسي تهيه شده‌است و تعداد ۱۰۰ جمله مستخرج از يك پيكره زباني براي اين واژه‌ها، به‌صورت دستي برچسب‌گذاري معنايي انجام مي‎شود. سپس اين داده به ساختار استاندارد تبديل مي‎گردد. از اين تعداد داده، نشانه‌گذاري ۴ واژه منتخب به ۵ برابر افزايش مي‎‎يابد تا كارايي روش يادگيري ماشيني بامربي در طبقه‌بندي كه در «ابهام‌زدايي معنايي واژه» به‌كار مي‌رود با روش يادگيري ماشيني بي‌مربي در خوشه‌بندي كه در «استنتاج استقرايي معناي واژه» به‌كار مي‌رود قابل‎مقايسه گردد.
كشور :
ايران
لينک به اين مدرک :
بازگشت