مرکز منطقه ای اطلاع رساني علوم و فناوري - خوشه‌بندي داده‌هاي بيان‌ژني توسط عدم تشابه جنگل تصادفي

چكيده فارسي :

زمينه و هدف: خوشه بندي داده هاي بيان ژني در تشخيص و درمان سرطان، داراي اهميت بسزايي است. مشخصه ي بارز اين داده ها تعداد زياد متغيرها (ژن ها) نسبت به تعداد داده ها (بيماران) است. بسياري از روش هاي خوشه بندي بر پايه ي عدم تشابه داده ها كه حاصل محاسبه ي يك تابع فاصله است ، بنا شده اند و افزايش بعد ، كارآيي توابع فاصله را كاهش مي دهد . در اين تحقيق معياري جديد براي محاسبه ي عدم تشابه در ابعاد بالا ، بر اساس يك روش رده بندي به نام جنگل تصادفي معرفي شده و كارايي آن در تحليل داده هاي بيان ژني، مورد ارزيابي قرار گرفته است. روش كار: در اين مقاله خوشه بندي مجموعه داده ي چاودري و همكاران توسط عدم تشابه جنگل تصادفي مد نظر قرار گرفته است. بدين منظور ابتدا مسئله ي خوشه بندي به مسئله ي رده بندي تبديل شده و با انجام رده بندي جنگل تصادفي، عدم تشابه مربوطه محاسبه شده است. سر انجام داده ها توسط روش خوشه بندي افراز حول مدويد، خوشه بندي شده و نتيجه ي خوشه بندي توسط شاخص رند تعديل يافته مورد ارزيابي قرار گرفته است. تمامي تحليل ها با نرم افزار R انجام شده است. يافته ها: مقدار شاخص رند تعديل يافته (8149.0)، نشان دهنده ي انطباق مطلوب خوشه هاي تخميني با گروه هاي واقعي است. همچنين با استفاده از قابليت تعيين اهميت متغيرها در روش جنگل تصادفي، ژن شماره ي ۳۱ موثرترين ژن در اين خوشه بندي شناخته شد و توانستيم خوشه هاي تخميني را تنها بوسيله ي اين ژن توصيف كنيم. نتيجه گيري: عدم تشابه جنگل تصادفي، معياري كارا براي سنجش عدم تشابه داده ها در خوشه بندي داده هاي بيان ژني است. همچنين مي توان با استفاده از قابليت متحصر به فرد اين روش، ژن هاي موثر در خوشه بندي را شناسايي نموده و خوشه هاي تخميني را به وسيله ي آن ها توصيف نمود.