شماره ركورد كنفرانس :
4093
عنوان مقاله :
پردازش و طبقه بندي داده هاي حجيم نامتعادل براي پيش بيني ساختار پروتئين ها
پديدآورندگان :
محمدعلمي پوريا por.m.alamy@gmail.com دانشگاه بين المللي امام رضا (ع) , قاضي خاني عادل adel.ghazi@gmail.com دانشگاه بين المللي امام رضا (ع) , فاضلي نيا وحيد V.Fazelinia@ImamReza.ac.ir دانشگاه بين المللي امام رضا (ع)
كليدواژه :
داده هاي حجيم , بايوانفورماتيك , طبقه بندي نامتعادل , ساختار پروتئين , نقشه تماس پروتئين , مدل نگاشت-كاهش.
عنوان كنفرانس :
سومين كنفرانس ملي محاسبات توزيعي و پردازش داده هاي بزرگ
چكيده فارسي :
محققين و دانشمندان بر اين باورند در داده هاي خام دانشي نهفته است كه مي تواند تحولي عظيم در تصميمات خرد و كلان جهاني ايجاد نمايد. اين دادهها نياز به تحليل و مديريت براي استخراج دانش خواهد داشت. از اينرو تكنيك هاي داده كاوي و يادگيري ماشين به يك جنبه مهم در مسايل زيستي بويژه علم بايوانفورماتيك بدل شده است. از طرفي با پيشرفت سريع تكنولوژي اطلاعات بسيار زيادي در خصوص سلول ها، پروتئين ها، ژن ها و غيره بدست آمده و در بانك هاي اطلاعاتي مربوطه ذخيره شده اند.
در اين مقاله سعي شده است تا از اطلاعات با ارزش موجود در بانك پروتئين ها استفاده شود تا به پيش بيني دقيقتر و سريعتر ساختار آنها دست يابيم. براي اين منظور مجموعه داده اي از «نقشه تماس پروتئين ها» تهيه مي شود كه ذاتا، به شدت «نامتعادل» و «حجيم» است. در نتيجه الگوريتم ها و روش هاي معمول كارامد نيستند. بنابراين روشي ارائه شده است تا با استفاده از مدل برنامه نويسي موازي «نگاشت-كاهش» در بستر توزيع شده، با كارايي بالا بر اين چالش فائق آييم. نتايج بدست آمده از مقايسه با بهترين روش هاي كنوني حاكي از آن است كه در تعداد مشخص از نگاشت ها شاهد افزايش معنا دار در كارايي (10%) و تا حدي كاهش در زمان اجرا بوده ايم. اين ارزيابي با معيار هاي ميانگين هندسي (GM) و AUC صورت گرفته كه سنجه هاي بسيار مناسبي براي داده هاي نامتعادل هستند. از آزمون آماري t-test نيز براي معنادار بودن تفاوت نتايج بهره گرفته شده است.