عنوان مقاله :
ارائه روشي براي استخراج اطلاعات ساختاريافته محدود به دامنه از صفحات وب فارسي
پديد آورندگان :
امامي ، حجت دانشگاه بناب - دانشكده فني و مهندسي - گروه مهندسي كامپيوتر
كليدواژه :
وبكاوي , استخراج اطلاعات , پردازش زبان طبيعي , آنتولوژي , اطلاعات ساختاريافته محدود به دامنه
چكيده فارسي :
استخراج اطلاعات ساختاريافته از متون وب يكي از وظايف اصلي در حوزه وبكاوي، پردازش زبان طبيعي و استخراج اطلاعات است. در سالهاي اخير، روشهاي مختلفي براي استخراج اطلاعات ساختاريافته از متون انگليسي وب ارائه شده است. اغلب روشهاي موجود براي استخراج اطلاعات در مورد انواع موجوديتها، به يك آنتولوژي از پيش تعريفشده نياز دارند كه شامل دانش كامل در مورد موجوديتها و خصلتهاي آنها است. مشكل اصلي اين روشها عدم توانايي آنها در استخراج اطلاعات موجوديتهايي است كه مشخصات آنها از قبل در آنتولوژي تعريف نشدهاند. در اين پژوهش، روش جديدي براي استخراج خودكار اطلاعات ساختاريافته محدود به دامنه از متون فارسي صفحات وب ارائه شده است كه نيازي به دانش پيشزمينه در مورد موجوديتها و خصلتهاي آنها ندارد. روش پيشنهادي شامل سه مؤلفه پيشپردازش، تحليل معنايي و نگاشت قاب است. تمركز اصلي روش پيشنهادي به افزودن اطلاعات معنايي به گزارههاي مسندآرگومان و استخراج اطلاعات معنادار و محدود به دامنه از گزارهها معطوف شده است. اطلاعات استخراجشده در اين روش، هم ساختاريافته بوده و هم به مدخلهاي آنتولوژي عمومي DBPedia نگاشت شدهاند، بهنحويكه پردازش آنها بهوسيله ماشين به سهولت انجام ميشود. براي ارزيابي روش پيشنهادي، يك مجموعهداده كوچك در زبان فارسي ايجاد شده است و روش پيشنهادي و ساير روشها بر روي اين مجموعهداده مورد ارزيابي قرار گرفتهاند. نتايج آزمايشها برتري روش پيشنهادي را در مقايسه با ساير روشها برحسب برخي از معيارهاي كارايي نشان ميدهد.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها