يادگيري تكرار سياست حداقل مربعات عصبي با معماري نقاد- تنها

پديد آورندگان

محرابي ، اميد دانشگاه آزاد اسلامي واحد علوم و تحقيقات , فخاريان ، احمد دانشگاه آزاد اسلامي واحد قزوين - گروه مهندسي برق , سياهي ، مهدي دانشگاه آزاد اسلامي واحد علوم و تحقيقات تهران - دانشكده مهندسي برق و كامپيوتر , رمضاني ، امين دانشگاه تربيت مدرس - دانشكده مهندسي برق و كامپيوتر

از صفحه

تا صفحه

كليدواژه

يادگيري تقويتي عصبي , معماري نقاد- تنها , تكرار سياست كمترين مربعات , شبكه توابع پايه شعاعي

چكيده فارسي

كنترل هوشمند مسائل كنترلي واقعي بر پايه يادگيري تقويتي اغلب نياز به تصميم گيري در فضاي حالت– عمل بزرگ و يا پيوسته دارد. از آنجا كه تعداد پارامترهاي قابل تنظيم در يادگيري تقويتي گسسته، رابطه مستقيمي با عدد اصلي فضاي متغيرهاي حالت– عمل مسأله دارد، لذا در چنين مسائلي مشكل تنگناي ابعاد، سرعت كم يادگيري و راندمان پايين وجود دارد. استفاده از روشهاي آموزش تقويتي پيوسته براي حل اين مشكلات مورد توجه محققان است. در همين راستا، در اين مقاله يك الگوريتم جديد يادگيري تقويتي عصبي (NRL) بر مبناي معماري نقاد– تنها براي حل مسائل كنترلي معرفي ميگردد. روش ارائه شده يك روش مستقل از مدل و نرخ يادگيري است و از تركيب روش تكرار سياست كمترين مربعات (LSPI) با شبكه توابع پايه شعاعي (RBF) به عنوان يك تقريب زننده ي تابعي حاصل شده است. الگوريتم پيشنهادي تكرار سياست كمترين مربعات عصبي (NLSPI) ناميده مي شود. در اين روش، با استفاده از توابع پايه تعريف شده در ساختار شبكه عصبي RBF، راهكاري براي رفع چالشِ تعريف توابع پايه حالت- عمل در LSPI ارائه شده است. ورودي هاي شبكه جفت حالت و عمل هاي مسأله و خروجي آن تابع ارزش عمل تقريب زده شده مي باشد. هدف، به روز رساني برخط وزن هاي شبكه عصبي با استفاده از روش ارائه شده به صورتي است كه بهترين تقريب از تابع ارزش عمل صورت گيرد. به منظور اعتبارسنجي روش ارائه شده، عملكرد الگوريتم پيشنهادي در مورد حل دو مسأله كنترلي با روش هاي ديگر مقايسه شده است. نتايج بدست آمده، برتري روش در يادگيري سياست شبه بهينه را بخوبي نشان مي دهد.

عنوان نشريه

كنترل

عنوان نشريه

كنترل

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1351377