مرکز منطقه ای اطلاع رساني علوم و فناوري - يك روش تركيبي جديد يادگيري تقويتي فازي

شماره ركورد :

698522

عنوان مقاله :

يك روش تركيبي جديد يادگيري تقويتي فازي

عنوان فرعي :

A Novel approach in Fuzzy Reinforcement Learning

پديد آورندگان :

قرباني، فرزانه نويسنده , , درهمي، ولي نويسنده دانشگاه يزد Derhami, Vali , نظام آبادي پور، حسين نويسنده دانشگاه باهنر كرمان NezamAbadi pour, Hossein

اطلاعات موجودي :

فصلنامه سال 1393 شماره 0

رتبه نشريه :

علمي پژوهشي

تعداد صفحه :

از صفحه :

تا صفحه :

كليدواژه :

يادگيري تقويتي , Fuzzy system , reinforcement learning , state-action function approximation , تقريب تابع ارزش حالت-عمل , سيستم فازي , تكرار سياست كمترين مربعات , least square policy iteration

چكيده فارسي :

در اين مقاله يك روش جديد يادگيری تقويتی پيوسته برای مسائل كنترل ارائه می‌شود. روش ارائه شده از تركيب روش "تكرار سياست كمترين مربعات " با يك سيستم فازی سوگنوی مرتبه صفر حاصل شده و "تكرار سياست كمترين مربعات فازی" ناميده شده است. در اينجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته می‌شود. هدف، يافتن مناسب‌ترين عمل نامزد (تالی) برای هر قاعده می‌باشد. با استفاده از بردار شدت آتش قواعد فازی و عمل‌های نامزد مربوط به قواعد، توابع پايه حالت –عمل به گونه‌ای تعريف شده‌اند كه شرايط قضايای روش تكرار سياست كمترين مربعات را برآورده می‌نمايند. با استفاده از توابع پايه حالت- عمل تعريف شده و بهره‌گيری از الگوريتم تكرار سياست كمترين مربعات، يك روش جديد برای تازه‌سازی پارامترهای وزن تالی قواعد ارائه می‌شود. تحليل رياضی كه برای اين الگوريتم آورده می‌شود، كران خطايی برای اختلاف تابع مقدار ارزش حالت-عمل واقعی و تخمين تابع ارزش حالت-عمل حاصل از الگوريتم ارائه شده، تعريف می‌كند. نتايج شبيه‌سازی در مساله معروف قايق، حاكی از سرعت آموزش بالاتر و نيز كيفيت عملكرد بهترِ روش پيشنهادی نسبت به دو روش يادگيری كيوی فازی و يادگيری سارسای فازی است. از مزايای ديگر روش ارائه شده، عدم نياز به تعيين نرخ آموزش است.

چكيده لاتين :

In this paper, we present a novel continuous reinforcement learning approach. The proposed approach, called "Fuzzy Least Squares Policy Iteration (FLSPI)", is obtained from combination of "Least Squares Policy Iteration (LSPI)" and a zero order Takagi Sugeno fuzzy system. We define state-action basis function based on fuzzy system so that LSPI conditions are satisfied. It is proven that there is an error bound for difference of the exact state-action value function and approximated state-action value function obtained by FLSPI. Simulation results show that learning speed and operation quality for FLSPI are higher than two previous critic-only fuzzy reinforcement learning approaches i.e. fuzzy Q-learning and fuzzy Sarsa learning. Another advantage of this approach is needlessness to learning rate determination.

سال انتشار :

1393

عنوان نشريه :

كنترل

عنوان نشريه :

كنترل

اطلاعات موجودي :

فصلنامه با شماره پیاپی 0 سال 1393

كلمات كليدي :

#تست#آزمون###امتحان

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=8&DC=698522