شماره ركورد كنفرانس :
5264
عنوان مقاله :
عملكرد الگوريتم هاي ماتريس كواريانس با كمترين دترمينان در تحليل داده هاي اكتشافي به روش تحليل تمايز
پديدآورندگان :
گرانيان حميد h.geranian@birjandut.ac.ir دانشيار گروه مهندسي معدن، دانشگاه صنعتي بيرجند، بيرجند، ايران
كليدواژه :
الگوريتم Fast-MCD , الگوريتم Det-MCD , الگوريتم MRCD , الگوريتم Kernel-MRCD , تحليل تمايز
عنوان كنفرانس :
چهارمين كنفرانس ملي دادهكاوي در علوم زمين
چكيده فارسي :
داده هاي خارج از رديف باعث اريبدار شدن بردار ميانگين و تورم ماتريس كواريانس براي يك مجموعه داده ي چندمتغيره مي شوند. استفاده از چنين بردار و ماتريسي نيز نتايج اشتباهي را در تحليل هاي آماري چندمتغيره و داده كاوي به همراه خواهد داشت. براي رفع اين مشكل برآوردگرهاي مقاوم پيشنهاد شده اند كه نسبت به داده هاي خارج از رديف پايا هستند. در اين مقاله چهار برآوردگر مقاوم Fast-MCD، Det-MCD، MRCD و Kernel-MRCD بر اساس كمينه كردن دترمينان ماتريس كواريانس معرفي شده اند كه به ترتيب براي حالت هاي رسيدن سريع به جواب، جواب قطعي، داده ها با بعد زياد و داده ها با ساختارهاي پيچيده كاربرد دارند. كلاسه بندي يك مجموعه داده ي ژئوشيميايي متعلق به نمونه هاي رسوبات آبراهه اي در برگه 000/1:100 خور در استان اصفهان با بعد 13×148 و با بردار ميانگين و ماتريس كواريانس مرسوم توسط روش تحليل تمايز نشان داد كه صحت كلاسه بندي براي داده هاي آموزشي و آزمايشي حدود 71 درصد است. در حاليكه اين صحت كلاسه بندي با برآوردگرهاي مقاوم به حدود 85 درصد توسط الگوريتم Fast-MCD، حدود 93 درصد توسط الگوريتم Det-MCD، حدود 96 درصد توسط الگوريتم MRCD و حدود 98 درصد توسط الگوريتم Kernel-MRCD ميرسد. بنابراين استفاده از برآوردگرهاي مقاوم در هنگام تحليل داده هاي اكتشافي خصوصاً داده هاي ژئوشيميايي كه احتمال وجود داده ي خارج از رديف در آنها بالا مي باشد، لازم به نظر مي رسد.