شماره ركورد :
1312525
عنوان مقاله :
ارائه روشي براي استخراج اطلاعات ساختاريافته محدود به دامنه از صفحات وب فارسي
پديد آورندگان :
امامي ، حجت دانشگاه بناب - دانشكده فني و مهندسي - گروه مهندسي كامپيوتر
از صفحه :
133
تا صفحه :
146
كليدواژه :
وب‌كاوي , استخراج اطلاعات , پردازش زبان طبيعي , آنتولوژي , اطلاعات ساختاريافته محدود به دامنه
چكيده فارسي :
استخراج اطلاعات ساختاريافته از متون وب يكي از وظايف اصلي در حوزه وب‌كاوي، پردازش زبان طبيعي و استخراج اطلاعات است. در سال‌هاي اخير، روش‌هاي مختلفي براي استخراج اطلاعات ساختاريافته از متون انگليسي وب ارائه شده است. اغلب روش‌هاي موجود براي استخراج اطلاعات در مورد انواع موجوديت‌ها، به يك آنتولوژي از پيش تعريف‌شده نياز دارند كه شامل دانش كامل در مورد موجوديت‌ها و خصلت‌هاي آن‌ها است. مشكل اصلي اين روش‌ها عدم توانايي آن‌ها در استخراج اطلاعات موجوديت‌هايي است كه مشخصات آن‌ها از قبل در آنتولوژي تعريف نشده‌اند. در اين پژوهش، روش جديدي براي استخراج خودكار اطلاعات ساختاريافته محدود به دامنه از متون فارسي صفحات وب ارائه شده است كه نيازي به دانش پيش‌زمينه در مورد موجوديت‌ها و خصلت‌هاي آن‌ها ندارد. روش پيشنهادي شامل سه مؤلفه پيش‌پردازش، تحليل معنايي و نگاشت قاب است. تمركز اصلي روش پيشنهادي به افزودن اطلاعات معنايي به گزاره‌هاي مسند‌آرگومان و استخراج اطلاعات معنادار و محدود به دامنه از گزاره‌ها معطوف شده است. اطلاعات استخراج‌شده در اين روش، هم ساختاريافته بوده و هم به مدخل‌هاي آنتولوژي عمومي DBPedia نگاشت شده‌اند، به‌نحوي‌كه پردازش آن‌ها به‌وسيله ماشين به سهولت انجام مي‌شود. براي ارزيابي روش پيشنهادي، يك مجموعه‌داده كوچك در زبان فارسي ايجاد شده است و روش پيشنهادي و ساير روش‌ها بر روي اين مجموعه‌داده مورد ارزيابي قرار گرفته‌اند. نتايج آزمايش‌ها برتري روش پيشنهادي را در مقايسه با ساير روش‌ها برحسب برخي از معيارهاي كارايي نشان مي‌دهد.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
لينک به اين مدرک :
بازگشت