مرکز منطقه ای اطلاع رساني علوم و فناوري - معرفي داده استاندارد طلايي در سطح معنا براي هم‌نگاره‌هاي زبان فارسي

چكيده فارسي :

واژه كوچكترين عنصر زباني است كه حاوي اطلاعات وسيعي از ساخت آوايي تا نحو و معنا مي‌باشد. واژه‌هاي يك زبان معمولاً بيش از يك مقوله دستوري و معنا دارند. اين ويژگي موجب مي‌شود به‌هنگام پردازش زبان با كمك رايانه دچار چالش شويم؛ چراكه نحوه پردازش داده زباني بايد به گونه‌اي باشد كه نقش دستوري يا معناي واژه باتوجه‌به بافت محلي در جمله صحيح تشخيص داده شود. اين مقاله به معرفي يك داده استاندارد طلايي تهيه‌شده در سطح معنا براي واژه‌هاي فارسي مي‌پردازد كه داراي صورت نوشتاري يكسان (هم‎نگاره) بوده و رايانه به‎هنگام تشخيص معناي صحيح واژه با چالش مواجه مي‎گردد. اين داده براي تعداد ۲۰ واژه هدف فارسي تهيه شده‌است و تعداد ۱۰۰ جمله مستخرج از يك پيكره زباني براي اين واژه‌ها، به‌صورت دستي برچسب‌گذاري معنايي انجام مي‎شود. سپس اين داده به ساختار استاندارد تبديل مي‎گردد. از اين تعداد داده، نشانه‌گذاري ۴ واژه منتخب به ۵ برابر افزايش مي‎‎يابد تا كارايي روش يادگيري ماشيني بامربي در طبقه‌بندي كه در «ابهام‌زدايي معنايي واژه» به‌كار مي‌رود با روش يادگيري ماشيني بي‌مربي در خوشه‌بندي كه در «استنتاج استقرايي معناي واژه» به‌كار مي‌رود قابل‎مقايسه گردد.