عنوان مقاله :
استفاده از خوشه بندي و رويكردي تركيبي براي پركردن مقادير جا افتاده عددي
عنوان به زبان ديگر :
Using Clustering and a Hybrid Method to Fill the Numeric Missing Values
پديد آورندگان :
سفيديان، اميرمسعود دانشگاه تربيت دبير شهيد رجايي تهران - دانشكده مهندسي كامپيوتر , دانشپور، نگين دانشگاه تربيت دبير شهيد رجايي تهران - دانشكده مهندسي كامپيوتر
كليدواژه :
رگرسيون , مقادير جا افتاده , نزديكترين همسايگان , همبستگي
چكيده فارسي :
تخمين مقادير جا افتاده يك گام مهم در پيش پردازش داده ها است. در اين مقاله يك رويكرد دومرحله اي براي پركردن مقادير جاافتاده عددي ارائه شده است. در مرحله اول داده ها خوشه بندي مي شوند و در مرحله دوم داده هاي جاافتاده درون هر خوشه با استفاده از يك روش تركيبي از k نزديك ترين همسايه وزن دار و رگرسيون خطي تخمين زده مي شوند. از معيار همبستگي بين صفات در هر خوشه براي تعيين روش پركردن داده هاي جاافتاده استفاده مي شود. كيفيت پركردن مقادير جاافتاده با استفاده از معيار ميانگين مربعات خطا سنجيده مي شود. تاثير پارامترهاي مختلف بر ميزان خطاي داده هاي تخمين زده شده بررسي مي گردد. عملكرد روش ارائه شده براي تخمين داده هاي جاافتاده بر روي پنج مجموعه داده نيز بررسي مي شود. در نهايت عملكرد روش ارائه شده با چهار روش پركردن با مقدار ميانگين، روش تخمين با شبكه عصبي پرسپترون چندلايه (MLP)، روش پركردن با خوشه بندي c-means فازي و روش k خوشه و نزديك ترين همسايه مبتني بر دسته (CKNNI) مقايسه مي شود. نتايج به دست آمده نشان داده كه خطاي تخمين مقادير جاافتاده در روش ارائه شده كمتر از خطا در ديگر روش هاي مقايسه شده است.
چكيده لاتين :
Estimation of missing values is an important step in the preprocessing. In this paper، at two-step approach is proposed to fill the numeric missing values. In the first step، data is clustered. In the second step، the missing data in each cluster are estimated using a combination of weighted k nearest neighbors and linear regression methods. The correlation measure is employed to determine the appropriate method for the filling of missing data in each cluster. The quality of estimated missing values is evaluated using the root mean squared error (RMSE) criterion. Effect of different input parameters on the error of estimated values is investigated. Moreover، the performance of the proposed method for the estimation purpose is evaluated on five datasets. Finally، the efficiency of the proposed method is compared to four different estimation methods، namely، Mean estimation، multi-layer perceptron (MLP) based estimation، fuzzy C-means (FCM) based approximation method، and Class-based K-clusters nearest neighbor imputation (CKNNI) method. Experimental results show that the proposed method produces less error in comparison to other compared methods، in most of the cases.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران