شماره ركورد كنفرانس :
4041
عنوان مقاله :
مهندسي ويژگي توالي DNA با استفاده از يادگيري عميق
عنوان به زبان ديگر :
Feature Engineering of DNA sequences using deep learning
پديدآورندگان :
احسن رضا ahsansoftware@gmail.com دانشگاه قم; , ابراهيمي منصور mansour@future.edu دانشگاه قم; , حنيفه مريم maryamhanifeh.mis@gmail.com موسسه آموزش عالي غيرانتفاعي تعالي قم; , شم آبادي نرگس n.shamabadi@qom.ac.ir دانشگاه قم;
كليدواژه :
يادگيري عميق , شبكه عصبي كانولوشن , پروتيئين مزوفيل , پروتئين ترموفيل , مهندسي ويژگي
عنوان كنفرانس :
سومين كنفرانس ملي فناوري در مهندسي برق، كامپيوتر
چكيده فارسي :
چكيده در حوزه داده هاي حجيم، تبديل داده هاي حجيم زيست فناوري به دانش ارزشمند يكي از چالش هاي مهم زيست فناوري است. يادگيري عميق از اوايل سال 2000 به سرعت در حال پيشرفت است و هم اكنون نشان دهنده پيشرفت هاي اخير در زمينه هاي مختلف است. بر اين اساس استفاده از يادگيري عميق در زيست فناوري براي بدست آوردن بينش از داده ها در صنعت و دانشگاه تاكيد شده است.استفاده از ابزارهاي كامپيوتري مكانيزه كننده , مخصوصا در يادگيري ماشين به منظور تسهيل آناليزهاي پزشكي و تشخيص ,يك عرصه مهم و اميد بخش مي باشد. در اين تحقيق نشان خواهيم داد كه چگونه يادگيري مشخصه با ناظر و بدون ناظر , مي تواند براي كشف نوع پروتئين و تحليل نوع آن از داده توالي پروتئين، با استفاده از روشهاي مختلف وزن دهي و كلاس بندي بخصوص يادگيري عميق مورد استفاده قرار گيرد. مزيت اصلي روش پيشنهادي نسبت به روش هاي قبلي تشخيص پرروتئين , امكان به كارگيري داده از انواع مختلف پروتئين به صورت خودكار از مشخصه اي است كه كمك به تسهيل كشف و تشخيص يك نوع مشخص پروتئين مي كند. شناخت توالي DNA و محصولات آنها در ميان افراد، مي تواند منجر به يافتن راه هاي جديد و انقلابي براي تشخيص، درمان و حتي پيشگيري از هزاران اختلال كه بر ما اثر مي گذارد، شود. مجموعه داده هاي مورداستفاده در اين مقاله برگرفته از مقالاتي كه اثبات شده است كه پروتئين موردنظر از نوع ترموفيل يا مزوفيل هستند جمع آوري شده اند زيرا هر باكتري چندين پروتئين مقاوم و يا حساس دارد و اگر يك باكتري حساس باشد لزوما به اين معني نيست كه همه ژنهاي آن حساس هستند به همين جهت ميبايست داده هاي صحيح استخراج شود كه از بانك داده پروتئين rcsb ، ncbi، uniprot كه پايگاه داده در حوزه شناسايي پروتئين و توالي آن هستند جمع آوري شده اند كه با استفاده از شبكه عصبي عميق , جهت كشف و دسته بندي انواع پروتئين بر اساس داده هاي توالي پروتئيني به كار برده شده است. هدف ما از اين تحقيق، تشخيص و دسته بندي نوع پروتئين و انتخاب بهترين ويژگي ها با استفاده ازروشهاي مختلف و يادگيري عميق است. روش پيشنهادي ما در اين تحقيق، شبكه عصبي عميق مي باشد كه با استفاده از داده هاي توالي پروتئيني براي تشخيص ودسته بندي نوع پروتئين استفاده كرديم.در روش پيشنهادي، داده هاي توالي پروتئينهاي مقاوم به گرما و نامقاوم به گرما را بررسي كرديم. نتايج بدست آمده از تجزيه و تحليل بر روي داده هاي توالي پروتئيني ، با استفاده از شبكه عصبي عميق، نشان مي دهد كه در تشخيص و دسته بندي پروتئين، درصد دقت آن بالا مي باشد و مي توان از اين روش براي تشخيص و دسته بندي پروتئين ها استفاده كرد.بنابراين نويددهنده دستيابي كلي تر و جامع تري براي كشف و تشخيص پروتئين است.
چكيده لاتين :
in big data subject,biotech big data exchange to valuable knowledge,it is the most noticeable biotech challenge. basically,deep learning utilize in biotech to achieve data in industry and university.using of mechanizing computer tools,especially to using of learning machin to facilitate medieul analysis and diagnosis is very important that is to say,how to learn it with observer and observer less,It can to discover and analysis of protein sequence data ,wit using weighting and classifying especially deep learning of different way.the most profit of this method. it able to data utilize of different type of protein that can solve a type protein discover and diagnosis. knowing DNA sequences able to examine the new method to diagnosis ,the treatment and even the prevention of thousands of disorders that affect as. on the whole,protein diagnosable clustering and choose best property with using different method. the our method is neural network,in this way me revierrad heat and non-heat resistance the results obtained from the analysis showed on the protein data sequences,with utilizing deep neural network,it has high accuracy percentage in protein diagnosis and classtering and we able to use this method to diagnosis and protein grouping.that is to say,it is the best approach to achievement comprehensive for protein diagnosis and if corer.