شماره ركورد :
1009262
عنوان مقاله :
حل برخط معادله ي هميلتون - ژاكوبي - بلمن براي سيستم هاي غيرخطي با ديناميك داخلي نا معلوم با استفاده از شبكه ي عصبي
عنوان به زبان ديگر :
Online solution of the Hamilton–Jacobi–Bellman equation for nonlinear systems with unknown drift dynamics using neural network
پديد آورندگان :
موجودي، آرمان دانشگاه صنعتي اميركبير - مهندسي مكانيك , نراقي، مهيار دانشگاه صنعتي اميركبير - مهندسي مكانيك , مرادي، مجتبي دانشگاه صنعتي اميركبير - مهندسي مكانيك
تعداد صفحه :
12
از صفحه :
241
تا صفحه :
252
كليدواژه :
معادله‌ي هميلتون - ژاكوبي - بلمن , كنترل بهينه سيستم غيرخطي , شبكه‌ي عصبي , ساختار عملگر- ارزياب
چكيده فارسي :
در اين مقاله روشي براي حل برخط معادله ي هميلتون-ژاكوبي-بلمن به منظور طراحي كنترلر بهينه براي سيستم هاي غيرخطي زمان پيوسته ارائه شده است. ديدگاه اساسي در اين روش استفاده از تجربيات براي تقويت كنترلر مي باشد، كه با عنوان يادگيري تقويتي معروف است. ابتدا بر اساس ساختار عملگر- ارزياب و به صورت برخط با استفاده از دو شبكه ي عصبي مجزا، معادله ي هميلتون-ژاكوبي-بلمن به صورت تقريبي حل مي شود. شبكه هاي عملگر و ارزياب به ترتيب قانون كنترل بهينه و تابع ارزش بهينه را تخمين مي زنند. سپس با استفاده از گراديان نزولي اين تخمين ها بهبود مي يابند. از آنجاكه مدل كردن و تعيين مواردي چون اصطكاك و ميرايي پيچيده و مشكل مي باشد، از يك شبكه ي عصبي-مقاوم به منظور تخمين ديناميك داخلي سيستم استفاده شده است. به اين ترتيب ساختار نهايي، عملگر- ارزياب- شناساگر مي باشد كه با استفاده از آن بدون نياز به دانستن ديناميك داخلي سيستم، معادله ي هميلتون-ژاكوبي-بلمن حل و كنترلر بهينه طراحي مي شود. پايداري روش ارائه شده با استفاده از تابع لياپانوف اثبات شده است. كارايي روش ارائه شده به صورت عملي براي سيستم خطي موتور DC و با شبيه سازي براي يك سيستم غيرخطي نشان داده شده است. نتايج، عملكرد مناسب روش ارائه شده براي حل معادله ي هميلتون-ژاكوبي-بلمن نشان مي دهد.
چكيده لاتين :
In this paper a method for online solution of the Hamilton-Jacobi–Bellman (HJB) equation is proposed. The method is utilized to design an optimal controller for continuous-time nonlinear systems. The main concept in this approach is using experiences to reinforce the controller, which is called Reinforcement Learning (RL). The online solution is based on the actor-critic (AC) structure where two Neural Networks (NNs) approximately solve the HJB equation. Optimal control and optimal value function are approximated by the actor and the critic, respectively. Then, employing gradient descent algorithm, accuracy of the approximation is improved. Since some items like friction and damping are difficult to model and calculate, a neural-robust identifier is used in conjunction with the AC to approximate drift dynamics. Finally, the Actor-Critic-Identifier (ACI) structure is proposed to solve the HJB equation online with no prior knowledge of drift dynamics. The closed-loop stability of the overall system is assured by the Lyapunov theory employing the direct method. Then the effectiveness of the proposed method is illustrated by experiment for DC motor and simulation for a nonlinear system. Results indicate satisfactory performance of the proposed method to solve the Hamilton-Jacobi-Bellman equation.
سال انتشار :
1395
عنوان نشريه :
مهندسي مكانيك مدرس
فايل PDF :
7448938
عنوان نشريه :
مهندسي مكانيك مدرس
لينک به اين مدرک :
بازگشت