شماره ركورد كنفرانس :
3712
عنوان مقاله :
بررسي مدل هاي احتمالاتي تطبيق ركورد در پايگاه داده هاي بزرگ
پديدآورندگان :
قاري زاده بيرق مينا دانشگاه آزاد اسلامي , موسي زاده رعنا دانشگاه آزاد اسلامي , فيضي درخشي محمدرضا دانشگاه تبريز
كليدواژه :
تشخيص ركورد تكراري , مدل احتمالاتي تطبيق ركورد , بردار مقايسه ركورد , معيارهاي ارزيابي
عنوان كنفرانس :
اولين همايش ملي كاربرد سيستم هاي هوشمند (محاسبات نرم) در علوم و صنايع
چكيده فارسي :
تشخيص ركورد تكراري، فرآيندشناسايي ركوردهاي چند گانه و مختلف است كه به يك شي يا نهاد منحصر به فرد از جهان واقعي اشاره مي كند. با تشخيص ركورد تكراري، كيفيت داده ها افزايش مي يابد. براي شناسايي تكرار، بايد شباهت ركوردها محاسبه شود . الگوريتم ها تطبيق ركورد شامل روش هاي احتمالاتي، يادگيري بدون نظارت، يادگيري نظارت شده و غيره مي باشد. هدف اين مقاله بررسي جديدترين رويكردهاي مبتني بر مدل هاي احتمالاتي تطبيق است. مدل هاي احتمالاتي تطبيق شامل مدلهاي تصميم گيري بيز با حداقل خطا و حداقل هزينه، مدل Reject Region و مدل Fellegi-Sunter مي باشد كه در اين مقاله مدل ها معرفي شده است. سپس معيارهاي ارزيابي كه شامل Precision و Recall و F-measure مي باشد بر روي الگوريتم ها انجام شده است. هر چه معيارهاي ارزيابي بالاتر باشد كارايي الگوريتم بهتر است. نتايج مقايسه الگوريتم ها نشان ميدهد كه مقدار F-measure مدل Fellegi-Sunter با معيار فاصله TF-IDF+Jaro بيشتر است، بنابراين عملكرد بهتري را در بين مدل ها دارا مي باشد.