شماره ركورد كنفرانس :
4179
عنوان مقاله :
ميزان همگرايي روش هاي تشخيص داده هاي دورافتاده به كمك نرم افزار متن باز Rapidminer
عنوان به زبان ديگر :
Convergence degree of outlier detection methods with rapidminer
پديدآورندگان :
رهروان مريم m.rahrovan@gmail.com -
كليدواژه :
الگوريتم هاي خوشه بندي , تشخيص آنومالي , تشخيص داده هاي دورافتاده , داده كاوي
عنوان كنفرانس :
اولين مسابقه كنفرانس بين المللي جامع علوم مهندسي در ايران
چكيده فارسي :
داده كاوي كه به معناي كاوش داده از حجم انبوهي از داده هاي نيمه ساختاريافته و يا غيرساختار يافته است. يكي ازچالش هاي اين حوزه كه رسيدن به مدلي صحيح را تحت الشعاع قرار مي دهد بروز آنومالي و يا داده پرت در ديتاست وعدم شناسايي دقيق وكامل آن هاست.استخراج داده هاي دورافتاده (تشخيص ناهنجاري) در پايگاه هاي داده بزرگ همچنان يك فضاي فعال براي تحقيقات درحوزه ي داده كاوي باقي مانده است.تشخيص داده هاي دورافتاده مي تواند خطاهاي سيستم را شناسايي كند واثرات مخرب آنها را در مجموعه داده ها وخصوصا در مدل كردن داده ها حذف كند و همچنين داده ها را براي پردازش پاكسازي نمايد.روش هاي متفاوتي براي تشخيص داده هاي دور افتاده و آنومالي در داده ها وجود دارد كه هريك با الگوريتمي متفاوت به يافتن داده هاي دورافتاده در يك ديتاست مي پردازند.ازجمله مشكلات شناسايي داده هاي دورافتاده،بسط الگوريتم هاي شناسايي اين داده هامتناسب با كاربرد مورد نظر و همچنين عدم همپوشاني دقيق خروجي حاصل از اعمال الگوريتم هاي شناسايي داده هاي دورافتاده با يكديگر است.در اين مقاله، ميزان همگرايي چند روش تشخيص آنومالي با يكديگر تحت مدلي پيشنهادي مبتني بر روش خوشه بندي K-Means از نظر ميزان توانايي آن ها در يافتن تعداد بيشتري داده ي دورافتاده در بستر نرم افزار داده كاوي متن باز RapidMiner آزمايش و با يكديگر مقايسه شده است.