عنوان مقاله :
ارائه يك روش خوشهبندي گراف-محور جهت شناسايي جمعيتهاي سلولي در دادههاي توالييابي RNA سلول-منفرد
عنوان به زبان ديگر :
A Graph-Based Clustering Approach to Identify Cell Populations in Single-Cell RNA Sequencing Data
پديد آورندگان :
عيني پور، امين دانشگاه آزاد اسلامي واحد دزفول - گروه مهندسي كامپيوتر , مصلح، محمد دانشگاه آزاد اسلامي واحد دزفول - گروه مهندسي كامپيوتر , انصاري اصل، كريم دانشگاه شهيد چمران اهواز -دانشكده مهندسي - گروه مهندسي برق
كليدواژه :
توالييابي RNA سلول-منفرد , خوشهبندي , شناسايي جمعيتهاي سلولي , كرنل گاوسي مبتني بر گراف
چكيده فارسي :
مقدمه: استفاده از فناوري «توالي يابي RNA سلول-منفرد» باعث شناخت بهتر ساختارهاي سلولي شده و دادههاي با وضوح بسيار بالايي از بيان ژنهاي مختلف هر سلول را در يك زمان واحد ارائه ميدهد. يكي از زمينه هاي پركاربرد در اين حوزه، خوشهبندي داده ها بر اساس ژنهاي بيان شده است كه بعضاً منتج به شناسايي جمعيت هاي سلولي جديد ميگردد. عملكرد روش هاي پيشنهادي عمدتاً به شكل جمعيت ها و ابعاد داده ها بستگي دارد؛ لذا توسعه يك روش كه بتواند فارغ از اين موانع به شناسايي جمعيت هاي سلولي بپردازد، بسيار مهم است.
روش: در روش پيشنهادي كه يك روش كتابخانه اي بود، ابتدا تعداد جمعيتهاي سلولي تخمين زده شد. اين تخمين از آن جهت اهميت دارد كه در دنياي واقعي، اطلاعات اوليه مثل تعداد و نوع جمعيتهاي سلولي در دسترس نيست. سپس با استفاده از يك كرنل گاوسي مبتني بر گراف، ضمن كاهش ابعاد مسئله، اقدام به شناسايي جمعيتهاي سلولي با روش خوشهبندي kmeans++ شد.
نتايج: نتايج پيادهسازي نشان داد كه روش پيشنهادي ميتواند نسبت به ساير روشهاي يادگيري ماشين ارائه شده در اين زمينه، بهبود قابل قبولي را حاصل كند. به عنوان مثال براي معيار ARI، مقادير 100، 93/47 و 84/69 به ترتيب براي مجموعه دادههاي سلول-منفرد Kolod، Buettner و Usoskin حاصل شد.
نتيجه گيري: روش پيشنهادي بدون هيچ اطلاعات اوليه در مورد تعداد و نوع جمعيتهاي سلولي و فارغ از ابعاد بالاي مسئله، ميتواند اقدام به خوشهبندي و در نتيجه شناسايي جمعيتهاي سلولي با دقت و كيفيت بالايي نمايد.
چكيده لاتين :
Introduction: The emergence of single-cell RNA-sequencing (scRNA-seq) technology has
provided new information about the structure of cells, and provided data with very high resolution
of the expression of different genes for each cell at a single time. One of the main uses of scRNAseq is data clustering based on expressed genes, which sometimes leads to the detection of rare cell
populations. However, the results of the proposed methods mainly depend on the shape of the cell
populations and the dimensions of the data. Therefore, it is very important to develop a method that
can identify cell populations regardless of these obstacles.
Method: In the proposed method, which was a library method, at first, the number of clusters (cell
populations) was estimated. Estimating the number of clusters is important because in the real
world, basic information such as the number and type of cell populations is not available.
Thereafter, using a graph-based Gaussian kernel, while reducing the dimensions of the problem, the
cell populations were identified by means of the kmeans++ clustering.
Results: The results of the implementation showed that the proposed method can achieve an
acceptable improvement compared to other machine learning methods presented in this regard. For
example, for the ARI criterion, values of 100, 93.47 and 84.69 were obtained for Kolod, Buettner,
and Usoskin single-cell data sets, respectively.
Conclusion: The proposed method can cluster and thus identify cell populations with high accuracy
and quality without having any basic information about the number and type of cell populations,
regardless of the high dimensions of the problem.
عنوان نشريه :
مجله انفورماتيك سلامت و زيست پزشكي