شماره ركورد :
1003708
عنوان مقاله :
توليد قواعد فازي احتمالي به‌كمك يادگيري تقويتي
عنوان به زبان ديگر :
Generation of Probabilistic Fuzzy Rule by Reinforcement Learning
پديد آورندگان :
محمدكريمي، نعيمه دانشگاه يزد - دانشكده مهندسي برق و كامپيوتر , درهمي، ولي دانشگاه يزد - دانشكده مهندسي برق و كامپيوتر
تعداد صفحه :
8
از صفحه :
1669
تا صفحه :
1676
كليدواژه :
كنترل‌گر فازي , توليد قواعد فازي , داده آموزشي ناسازگار , معماري عملگر - نقاد
چكيده فارسي :
مهم‌ترين بخش در يك سيستم فازي پايگاه قواعد آن است. يكي از مشكلات موجود در توليد قواعد فازي با داده‌هاي آموزشي، وجود داده‌هاي ناسازگار است زيرا در اين‌گونه داده‌ها چند خروجي براي وضعيت‌هاي يكسان وجود دارد. لذا توليد قواعد و تصميم‌گيري براي انتخاب تالي مناسب براي هر قاعده با چالش همراه خواهد بود. روش‌هاي موجود از برآيند حالت‌هاي ناسازگار استفاده مي‌كنند كه باعث توليد خروجي با مقدار ميانگين تالي‌هاي مربوطه مي‌شود. به‌منظور بهبود اين مشكل در اين مقاله از مقداردهي اوليه به‌مقدار احتمال انتخاب عمل‌ها، در يادگيري تقويتي فازي مبتني بر معماري عملگر-نقاد استفاده مي‌شود. با خوشه‌بندي داده آموزشي و استفاده از مدل سوگنوي مرتبه صفر با تعدادي عمل كانديد در هر قاعده، پارامترهاي ماژول عملگر مقداردهي اوليه شده و درنهايت با معماري عملگر-نقاد و سيگنال تقويتي، به‌صورت برخط تنظيم مي‌شوند. با توجه به اينكه مشكل ناسازگاري در داده‌هاي مربوط به ناوبري ربات نسبت به موارد ديگر نمايان‌تر است، ايده ارائه‌شده در مسئله ناوبري ربات استفاده مي‌شود. آزمايش‌ها در شبيه‌ساز Webots براي ربات ايپاك انجام شده است. نتايج آزمايش‌ها حاكي از آن است كه روش ارائه‌شده موجب كاهش زمان يادگيري، كاهش برخورد به موانع در مسئله ناوبري ربات با قواعد فازي كم‌تر است.
چكيده لاتين :
Rule base is the most important part of a fuzzy inference system. Inconsistent data make some challenges in generating of fuzzy rules. In these cases, since there are multiple outputs for the same states, hence making decision for suitable consequence selection in each rule is a big challenge. Averaging of inconsistent states has been adopted by current methods and they create output with average of related consequences. The initialization of actions selection probability in fuzzy reinforcement learning based on architecture Actor-critic is used in this method. In this method, training data is clustered and zero order Sugeno method with number of candidate action in each rule are used for the initialization of the actor module parameters and they are online tuned with adopting actor-critic and reinforcement signal finally. There are many inconsistent challenges in robot navigation data in comparing other cases. Therefore the proposed method is used in robot navigation problem. The experiments are done for e-puck robot in Webots simulation. Results show that proposed method has reduced training time, collision to obstacle and fuzzy rule numbers.
سال انتشار :
1396
عنوان نشريه :
مهندسي برق دانشگاه تبريز
فايل PDF :
7440980
عنوان نشريه :
مهندسي برق دانشگاه تبريز
لينک به اين مدرک :
بازگشت