عنوان مقاله :
پركردن دادههاي گمشده در دادههاي سري زماني چندمتغيره
پديد آورندگان :
دانشپور ، نگين دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر , ميرابوالقاسمي ، فاطمه دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر
كليدواژه :
جايگذاري دادههاي گمشده , درونيابي IDW , الگوريتم جستجوي فاخته , خوشهبندي k-means , سريهاي زماني چندمتغيره
چكيده فارسي :
داده هاي سري زماني چندمتغيره در زمينه هاي مختلف مانند بيوانفورماتيك، زيست شناسي، ژنتيك، نجوم، علوم جغرافيايي و امور مالي يافت مي شوند. بسياري از اين مجموعهداده ها داراي داده گمشده هستند. جايگذاري داده هاي گمشده سري زماني چندمتغيره، يكي از مباحث چالش برانگيز است و قبل از فرايند يادگيري يا پيش بيني سري هاي زماني بايد با دقت مورد توجه و بررسي قرار گيرد. تحقيقات فراواني در استفاده از روشهاي مختلف براي جايگذاري داده هاي گمشده سري زماني انجام شده است كه بهطورمعمول شامل روش هاي تجزيه و تحليل و مدل سازي هاي ساده در كاربردهاي خاص و يا سري هاي زماني تكمتغيره هستند. در اين مقاله يك نسخه بهبوديافته از درونيابي معكوس فاصله وزندار براي جايگذاري داده هاي گمشده پيشنهاد شده است. روش درونيابي معكوس فاصله وزندار دو محدوديت اساسي دارد: 1) يافتن بهترين نقاط نزديك تر به داده هاي گمشده 2) انتخاب توان تأثير بهينه براي همسايگان داده گمشده. براي بهبود روش درونيابي، از خوشه بندي kmeans استفاده شده است، تا همسايه هاي با بيشترين شباهت به الگوي داده اي انتخاب شوند. از آنجا كه ميزان تأثير هر يك از همسايه ها بر روي داده گمشده متفاوت است، از الگوريتم جستجوي فاخته براي تعيين توان تأثير همسايگي استفاده مي شود. براي ارزيابي عملكرد روش پيشنهادي، از پنج معيار ارزيابي شناختهشده استفاده مي شود. نتايج تجربي بر روي چهار مجموعهداده UCI با درصدهاي مختلف گمشدگي مورد بررسي قرار گرفته و درمجموع الگوريتم پيشنهادي نسبت به سه روش مقايسه اي ديگر عملكرد بهتر و بهطور ميانگين حدود 0.05 خطاي RMSE، 0.04 خطاي MAE، 0.003 خطاي MSE و 5 درصد خطاي MAPE داشته است. ميزان همبستگي دادههاي واقعي و مقدار برآوردشده در روش پيشنهادي بسيار مطلوب و در حدود 99 درصد است.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها