مرکز منطقه ای اطلاع رساني علوم و فناوري - مقايسه روش‌هاي خوشه‌بندي در داده‌هاي بيان ژني

شماره ركورد :

556582

عنوان مقاله :

مقايسه روش‌هاي خوشه‌بندي در داده‌هاي بيان ژني

عنوان فرعي :

CCK (Clustering-Classification-Kappa); a new validation index to assessing clustering results of gene expression data

پديد آورندگان :

شاكري ، محمدتقي نويسنده shakeri, mohammad taghi , صباغيان، احسان نويسنده دانشگاه علوم پزشكي مشهد Sabaghian , E , اسماعيلي، حبيب اله نويسنده ,

اطلاعات موجودي :

فصلنامه سال 1390 شماره 5

رتبه نشريه :

علمي پژوهشي

تعداد صفحه :

از صفحه :

تا صفحه :

كليدواژه :

شاخص‌هاي ارزيابي نتايج روش‌هاي خوشه‌بندي , خوشه‌بندي , Bootstrap , Clustering , Indicator to assess the of clustering methods , Microarray , بوت استرپ , ريزآرايه

چكيده فارسي :

زمينه و هدف: با گسترش روش‌هاي استخراج داده‌هاي ژنتيكي، روش‌هاي تجزيه و تحليل اين نوع داده‌ها نيز در حال توسعه مي‌باشند. اين مطالعه با هدف مقايسه يكي از پركاربردترين روش‌هاي تجزيه و تحليل اين نوع داده ها، يعني خوشه‌بندي انجام شده است. مواد و روش كار: در اين پژوهش با استفاده از 5 مجموعه داده مايكروآرايه، نه تركيب روش خوشه‌بندي سلسله مراتبي تجمعي، سلسله مراتبي تقسيم‌شونده و K- ميانگين با متريك‌هاي فاصله اقليدسي، منهاتان و ضريب همبستگي پيرسون پيوند و با استفاده از شاخص پهناي نيمرخ با استفاده از روش نمونه‌گيري بوت استرپ مقايسه شده است. يافته‌ها: نتايج نشان داد روش خوشه‌بندي سلسله مراتبي تجمعي با پيوند متوسط داراي بهترين عملكرد بود. همچنين اين روش در مقايسه با ديگر روش‌ها از پايايي بيشتري برخوردار بود. درعين حال روش خوشه‌بندي سلسله مراتبي تقسيم شونده عملكرد نسبتاً مشابهي با روش خوشه‌بندي K- ميانگين داشته است. نتيجه‌گيري: با توجه به نتايج مي توان گفت كه مبتني بر شرايط موجود در داده ها بهترين روش‌ خوشه‌بندي انتخاب مي شود.

چكيده لاتين :

Background& Objective: The use of clustering methods for the discovery of cancer subtypes has drawn a great deal of attention in the scientific community. While bioinformaticians have proposed new clustering methods that take advantage of characteristics of the gene expression data, the medical community has a preference for using "classic" clustering methods. There have been no studies thus far performing a large-scale evaluation of different clustering methods in this context. Method & Material: We present CCK index for assessing clustering result of gene expression data. This index was made by combining two arbitrary classification and clustering algorithms result and finally. the first large-scale analysis of nine different clustering methods, Hierarchical clustering with Single, Average, Complete and Ward linkages, UPGMA, Diana, K-means, PAM and CLARA methods for the analysis of 5 cancer gene expression data sets. Afterward we use Margin Trees method for assessing quality of result of clustering methods. Ultimately we calculate quality of result of clustering methods via Kappa coefficient between result of clustering methods and result of Margin Tree method for each clustering methods. Results: Our results reveal that the PAM, followed closely by CLARA, exhibited the best performance in terms of recovering the true structure of the data sets. Also we found that Partitioning clustering methods (PAM, CLARA and K-means) have better performance than Hierarchical clustering methods (Hierarchical clustering with Single, Average, Complete and Ward linkages, UPGMA and Diana). Conclusion: The validation technique was used in this paper (Margin Trees) can aid in the selection of an optimal algorithm, for a given data set, from a collection of available clustering algorithms.

سال انتشار :

1390

عنوان نشريه :

مجله دانشگاه علوم پزشكي خراسان شمالي

عنوان نشريه :

مجله دانشگاه علوم پزشكي خراسان شمالي

اطلاعات موجودي :

فصلنامه با شماره پیاپی 5 سال 1390

كلمات كليدي :

#تست#آزمون###امتحان

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=8&DC=556582