عنوان مقاله :
كنترل بهينه توزيع شده بازي هاي گرافي ديفرانسيلي غير خطي به صورت برخط با استفاده از يادگيري تقويتي
عنوان فرعي :
Distributed Optimal Control of Nonlinear Differential Graphical Games based on Reinforcement Learning
پديد آورندگان :
تاتاري، فرزانه نويسنده دانشگاه فردوسي مشهد Tatari, Farzaneh , نقيبي سيستاني، محمد باقر نويسنده دانشگاه فردوسي مشهد Naghibi-S, Mohammad-B
اطلاعات موجودي :
فصلنامه سال 1393 شماره 0
كليدواژه :
Nonlinear differential graphical games , Artificial neural networks , optimal control , بازي هاي گرافي ديفرانسيلي غيرخطي , شبكه هاي عصبي , يادگيري تقويتي , reinforcement learning. , كنترل بهينه
چكيده فارسي :
اين مقاله به معرفی بازی های گرافی ديفرانسيلی برای سيستم های چند عاملی غير خطی زمان پيوسته می پردازد و يك روش بهينه توزيع شده برخط برای حل آنها پيشنهاد می كند. در بازی های گرافی ديفرانسيلی، ديناميك خطا و انديس عملكرد هر بازيكن تنها بستگی به اطلاعات همسايگان محلی آن عامل دارد. الگوريتم تكرار سياست توزيع شده پيشنهاد شده، حل تقريبی معادلات هميلتون-جاكوبی كوپل شده همكارانه متعلق به عامل های غير خطی را به صورت برخط انجام می دهد. در اين الگوريتم كه بر مبنای يادگيری تقويتی طراحی شده، هر يك از بازيكنان از ساختار شبكه عصبی نقاد-كنترلر استفاده می كند و تنظيم وزن های شبكه های عصبی نقاد و كنترلر به صورت همزمان انجام می شود. در حالی كه تمام شبكه های عصبی نقاد-كنترلر در حال يادگيری هستند، پايداری حلقه بسته و همگرايی به قوانين كنترل بهينه تضمين می گردد. در انتها، نتايج به دست آمده از شبيه سازی، عملكرد و صحت الگوريتم پيشنهادی را نشان می دهد.
چكيده لاتين :
This paper introduces continuous time nonlinear differential graphical games and proposes an online distributed optimal control algorithm to solve them. In differential graphical games, each agent error dynamics and performance index depend on its neighbors’ information. The proposed online distributed policy iteration algorithm solves the cooperative coupled Hamilton-Jacobi equations. In this algorithm which is based on reinforcement learning, each agent uses an actor-critic neural network structure where the weights of these neural networks are tuned synchronously. While all actor-critic networks are learning, closed loop stability and convergence to optimal control laws are guaranteed. Finally simulation results demonstrate the validity and performance of the proposed algorithm.
اطلاعات موجودي :
فصلنامه با شماره پیاپی 0 سال 1393
كلمات كليدي :
#تست#آزمون###امتحان