شماره ركورد كنفرانس :
4847
عنوان مقاله :
گروه بندي چندگانه ركوردها در تفكيك پذيري موجوديتها
پديدآورندگان :
ايزدي سيد كاميار k.izadi@alzahra.ac.ir دانشگاه الزهرا , موسوي سيد مرتضي mousavi310@gmail.com دانشگاه شهيد بهشتي
كليدواژه :
تفكيك پذيري موجوديت , گروه بندي , فراگروه بندي , يادگيري پويا
عنوان كنفرانس :
چهارمين كنفرانس ملي موضوعات نوين در علوم كامپيوتر و اطلاعات
چكيده فارسي :
امروزه مجموعه داده هاي ساختيافته و نيمه ساختيافته بر روي گستره وب به طور قابل توجهي گسترش يافته است. اين داده ها ممكن است از منابع مختلفي بدست آمده باشند و با تركيب و ادغام اين مجموعه دادهها، اطلاعات جديدتري قابل استخراج خواهد بود. به اين منظور نياز است كه دادههاي متعلق به يك شي در جهان واقعيت شناسايي شوند. فرآيند شناسايي ركوردهايي در پايگاههاي داده كه به يك موجوديت در جهان واقعيت تعلق دارند را تفكيك پذيري موجوديت ميگويند. در عين حال ناهمگون بودن ساختار دادهها، خطاهاي نوشتاري و پويايي بالاي دادهها باعث ميشود كه انجام اين فرآيند با چالش مواجه شود. با توجه به اينكه هزينه فرآيند تفكيك پذيري موجوديت به صورت ذاتي از مرتبه چند جمله اي مرتبه 2 است، از روش هايي موسوم به گروه بندي براي كاهش تعداد مقايسهها استفاده ميشود. در حال حاضر روشهاي موجود به شماي دادهها وابسته هستند و زماني كه دادهها شما نداشته باشند، كارايي خود را از دست ميدهند. به تازگي چارچوبي براي اجراي گروهبندي بر روي اين نوع دادهها معرفي شده است كه از يادگيري با نظارت براي كاهش تعداد مقايسهها استفاده ميكند. اما تعداد نمونههايي كه در اين چارچوب براي برچسب گذاري به كابر معرفي ميگردد بسيار زياد است. در اين مقاله با استفاده از يادگيري پويا براي كاهش تعداد اين نمونه هاي تمريني روشي معرفي ميشود. ما نشان مي دهيم كه روشي كه ارائه مي دهيم با تعداد به مراتب كمتري از نمونه هاي تمريني ميتواند دقت بالايي را داشته باشد.