انتقال دانش تنظيم شده براي يادگيري تقويتي چندعاملي

پديد آورندگان

علوي ، نيلوفر دانشگاه صنعتي اروميه - دانشكده مهندسي فناوري اطلاعات و كامپيوتر , طهمورث نژاد ، جعفر دانشگاه صنعتي اروميه

از صفحه

141

تا صفحه

160

كليدواژه

يادگيري تقويتي چند عاملي , انتقال دانش , تعادل‌هاي متا و نش , تنظيم‌پذيري , تعاملات پراكنده , مذاكره بين عامل‌ها

چكيده فارسي

يادگيري تقويتي به آموزش مدل‌هاي يادگيري ماشين براي اتخاذ تصميمات متوالي اشاره مي كند كه در آن يك عامل از طريق تعامل با محيط، آموزش ديده، نتايج اين تعامل را مشاهده كرده و بر اين اساس، پاداش مثبت يا منفي دريافت مي كند. يادگيري تقويتي كاربردهاي زيادي براي سيستم هاي چند عاملي به خصوص در محيط هاي پويا و ناشناخته دارد. با اين حال، اكثر الگوريتم هاي يادگيري تقويتي چند عاملي با مشكلاتي همچون پيچيدگي محاسباتي نمايي براي محاسبه فضاي حالت مشترك مواجه هستند كه منجر به عدم مقياس پذيري الگوريتم ها درمسائل چند عاملي واقعي مي شود. كاربردهاي يادگيري تقويتي چند عاملي را مي توان از فوتبال ربات‌ها، شبكه ها، محاسبات ابري، زمانبندي شغل تا اعزام نيروي واكنشي دسته بندي كرد. در اين مقاله يك الگوريتم جديد به نام انتقال دانش تنظيم‌شده براي يادگيري تقويتي چند عاملي (RKT-MARL) معرفي مي شود كه براساس مدل تصميم گيري ماركوف كار مي كند. اين الگوريتم برخلاف روش هاي يادگيري تقويتي سنتي، مفاهيم تعاملات پراكنده و انتقال دانش را براي رسيدن به تعادل بين عامل ها استفاده مي كند. علاوه بر اين، RKT-MARL از مكانيزم مذاكره براي يافتن مجموعه تعادل و از روش حداقل واريانس براي انتخاب بهترين عمل در مجموعه تعادل به دست آمده استفاده مي كند. همچنين الگوريتم پيشنهادي، دانش مقادير حالت-عمل را در ميان عامل هاي مختلف انتقال مي دهد. از طرفي، الگوريتم RKT-MARL مقادير Q را در حالت هاي هماهنگي به عنوان ضريبي از اطلاعات محيطي جاري و دانش قبلي مقداردهي مي كند. به منظور ارزيابي عملكرد روش پيشنهادي، يك گروه از آزمايشات بر روي پنج بازي جهاني انجام شده و نتايج حاصل بيانگر همگرايي سريع و مقياس پذيري بالا در RKT-MARL است.

عنوان نشريه

پردازش علائم و داده ها

عنوان نشريه

پردازش علائم و داده ها

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1363357