عنوان مقاله :
يك روش تركيبي جديد يادگيري تقويتي فازي
عنوان فرعي :
A Novel approach in Fuzzy Reinforcement Learning
پديد آورندگان :
قرباني، فرزانه نويسنده , , درهمي، ولي نويسنده دانشگاه يزد Derhami, Vali , نظام آبادي پور، حسين نويسنده دانشگاه باهنر كرمان NezamAbadi pour, Hossein
اطلاعات موجودي :
فصلنامه سال 1393 شماره 0
كليدواژه :
يادگيري تقويتي , Fuzzy system , reinforcement learning , state-action function approximation , تقريب تابع ارزش حالت-عمل , سيستم فازي , تكرار سياست كمترين مربعات , least square policy iteration
چكيده فارسي :
در اين مقاله يك روش جديد يادگيری تقويتی پيوسته برای مسائل كنترل ارائه میشود. روش ارائه شده از تركيب روش "تكرار سياست كمترين مربعات " با يك سيستم فازی سوگنوی مرتبه صفر حاصل شده و "تكرار سياست كمترين مربعات فازی" ناميده شده است. در اينجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته میشود. هدف، يافتن مناسبترين عمل نامزد (تالی) برای هر قاعده میباشد. با استفاده از بردار شدت آتش قواعد فازی و عملهای نامزد مربوط به قواعد، توابع پايه حالت –عمل به گونهای تعريف شدهاند كه شرايط قضايای روش تكرار سياست كمترين مربعات را برآورده مینمايند. با استفاده از توابع پايه حالت- عمل تعريف شده و بهرهگيری از الگوريتم تكرار سياست كمترين مربعات، يك روش جديد برای تازهسازی پارامترهای وزن تالی قواعد ارائه میشود. تحليل رياضی كه برای اين الگوريتم آورده میشود، كران خطايی برای اختلاف تابع مقدار ارزش حالت-عمل واقعی و تخمين تابع ارزش حالت-عمل حاصل از الگوريتم ارائه شده، تعريف میكند. نتايج شبيهسازی در مساله معروف قايق، حاكی از سرعت آموزش بالاتر و نيز كيفيت عملكرد بهترِ روش پيشنهادی نسبت به دو روش يادگيری كيوی فازی و يادگيری سارسای فازی است. از مزايای ديگر روش ارائه شده، عدم نياز به تعيين نرخ آموزش است.
چكيده لاتين :
In this paper, we present a novel continuous reinforcement learning approach. The proposed approach, called "Fuzzy Least Squares Policy Iteration (FLSPI)", is obtained from combination of "Least Squares Policy Iteration (LSPI)" and a zero order Takagi Sugeno fuzzy system. We define state-action basis function based on fuzzy system so that LSPI conditions are satisfied. It is proven that there is an error bound for difference of the exact state-action value function and approximated state-action value function obtained by FLSPI. Simulation results show that learning speed and operation quality for FLSPI are higher than two previous critic-only fuzzy reinforcement learning approaches i.e. fuzzy Q-learning and fuzzy Sarsa learning. Another advantage of this approach is needlessness to learning rate determination.
اطلاعات موجودي :
فصلنامه با شماره پیاپی 0 سال 1393
كلمات كليدي :
#تست#آزمون###امتحان