شماره ركورد كنفرانس :
4093
عنوان مقاله :
بررسي روش هاي پيش پردازش داده هاي بزرگ براي افزايش دقت طبقه بندي آنها
پديدآورندگان :
نيلگون بخت مهديه nilgounbakht@hotmail.com دانشگاه آزاد اسلامي، شبستر
كليدواژه :
استخراج ويژگي , انتخاب ويژگي , بزرگترين زيرماتريس نماينده , تحليل تفكيكي خطي , ريزآرايهي دياناي.
عنوان كنفرانس :
سومين كنفرانس ملي محاسبات توزيعي و پردازش داده هاي بزرگ
چكيده فارسي :
انتخاب و استخراج يك يا چندين ويژگي محدود و در عين حال مهم و موثر، از بين تعداد بسيار زيادي از ويژگيهاي
مختلف، چالش اصلي و پيشپردازش ضروري بسياري از الگوريتمهاي طبقهبندي است. تا كنون الگوريتمهاي بسياري براي انتخاب يا
استخراج بهينهي ويژگيها پيشنهاد شده است كه بسته به كاربردشان، مزايا و معايب متفاوتي دارند. در اين مقاله، ضمن توصيف و
بررسي الگوريتمهاي تحليل تفكيكي خطي و بزرگترين زير ماتريس نماينده، به ارزيابي كارآيي آنها در انتخاب و استخراج بهينه
ويژگي از رشتههاي ريزآرايهي دياناي پرداخته ميشود كه به دليل بعد نسبتاً بزرگ دادههاي مذكور، كاهش ابعاد آن از طريق
الگوريتمهاي موثر، قبل از هر تحليل كاربردي ضروري است. نتايج حاصل از ارزيابي كارآيي الگوريتمها در محيط نرمافزار متلب،
نشان ميدهد كه تحليل تفكيكي خطي در يك مجموعه دادهي دوكلاسي به شكل موثرتري منجر به كاهش بعد بهينه دادهها و دقت
در طبقه بندي نهايي ميشود اما، پيچيدگي زماني بيشتري را داشته و كندتر اجرا ميشود؛ در حاليكه در دادههاي دوكلاسي،
الگوريتم بزرگترين زيرماتريس نماينده به طور متوسط 83 % دقت با وجود 30 % كاهش حجم داده را ممكن ميكند.