عنوان مقاله :
كنترل به روش يادگيري تقويتي پاندول معكوس چهار درجه آزادي
عنوان به زبان ديگر :
Reinforcement learning control of four degree of freedom inverted pendulum
پديد آورندگان :
خوشرو، مرتضي دانشگاه شهيد باهنر كرمان , افتخاري، مجتبي دانشگاه شهيد باهنر كرمان , افتخاري، مهدي دانشگاه شهيد باهنر كرمان
كليدواژه :
يادگيري تقويتي , كنترلر LQR , پاندول معكوس چهار درجه آزادي
چكيده فارسي :
در اين مقاله كنترلر خطي درجه دوم (LQR) مقاوم با استفاده از روش يادگيري تقويتي براي پاندول معكوس چهار درجه آزادي طراحي شده است. سيستم ارائه شده متشكل از يك پاندول معكوس چهار درجه آزادي و يك جرم متمركز در انتهاي آن مي باشد. ابتداي پاندول در صفحه x-y توانايي حركت در جهت هاي x و y را دارد. براي كنترل دو زاويه پاندول معكوس، دو نيروي صفحه اي در جهت هاي x و y به پايين پاندول وارد مي شود. معادلات مدل حاكم بر سيستم با استفاده از روش لاگرانژ استخراج شده اند و سپس يك كنترلر LQR مقاوم بر اساس روش يادگيري تقويتي براي اين مسئله طراحي شده است. پاندول براي بازه اي از زاويه ها مختلف ، طول ها و جرم هاي مختلف آموزش داده شده است. نامعيني هاي پارامتري به صورت طول و جرم هاي مختلف پاندول معكوس و اغتشاشات به صورت نيرو هاي ضربه اي و متغير با زمان اعمال شده به پاندول تعريف شده است. پس از يادگيري كنترلر، كنترلر يادگير مي تواند به صورت آنلاين براي بازه اي متفاوت از طول و جرم كه قبلا آموزش نيافته و در برابر اغتشاشات پيوسته و ضربه اي كه به سيستم اعمال مي شود سيستم را كنترل كند. نتايج عددي نشان دهنده عملكرد خوب كنترلر يادگير در حضور نامعيني هاي ساختاري و پارامتري، اغتشاشات ضربه اي و پيوسته و نويز سنسورها مي باشد.
چكيده لاتين :
In this paper, a robust linear quadratic regulator (LQR) based Reinforcement learning method is designed for a four degree of freedom inverted pendulum. The considered system contains a four degree of freedom inverted pendulum with a concentrated mass at the tip of it. The bottom of inverted pendulum is moved in 𝑥−𝑦 plane in 𝑥 and 𝑦 directions. For tracking control of two angles of inverted pendulum, two plane forces are applied in 𝑥 and 𝑦 directions at the bottom of pendulum. The governing equations of the system are derived using the Lagrange method and then a robust linear quadratic regulator (LQR) based Reinforcement learning controller is designed. The inverted pendulum is learned for a range of different angles, different lengths and different masses. The parametric uncertainties are defined as various lengths and masses of inverted pendulum and the disturbances are defined as impact and continuous forces which are applied on the inverted pendulum. After learning, the controller can learn online the system for any arbitrary angle, length, mass or disturbance which are not learned in the defined range. Numerical results show that the good performance of the reinforcement learning controller for the inverted pendulum in the presence of structural and parametric uncertainties, impact and continuous disturbances and sensor noises.
عنوان نشريه :
مهندسي مكانيك مدرس
عنوان نشريه :
مهندسي مكانيك مدرس