عنوان مقاله :
بهبود عملكرد حمله در تيم رباتهاي فوتباليست با استفاده از يادگيري تقويتي
عنوان به زبان ديگر :
Improve Performance of Attack in the Team Robots Soccer using Reinforcement Learning
پديد آورندگان :
خاكسار، مينا دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر , درهمي، ولي دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر , رضائيان، مهدي دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر
كليدواژه :
فوتبال شبيهسازيشده رباتها , حمله , يادگيري تقويتي , سيستمهاي چندعامله , يادگيري كيو ـ وي
چكيده فارسي :
بهدليل عدم امكان پيشبيني همه وضعيتهاي ممكن براي عاملها در يك سيستم چندعاملهي پويا و گسترده، روشهاي يادگيري ماشين، ابزار مناسبي براي كنترل رفتار عاملها ميباشد. فوتبال شبيهسازي شده رباتها يك مسئله شناختهشده براي ارزيابي الگوريتمهاي يادگيري ماشين روي سيستمهاي چندعامله است. در اين مقاله الگوريتم يادگيري كيو ـ وي (يكي از الگوريتمهاي معروف يادگيري تقويتي) جهت بهبود عملكرد حمله در تيم رباتهاي فوتباليست دو بعدي بكار گرفته شدهاست. سيگنال تقويتي براساس اينكه بازيكناني كه در حمله دخالت دارند، توپ را جلوي دروازه ميرسانند، يا اينكه توپ را از دست ميدهند، تعريف شدهاست و بهترتيب عاملها با توجه به وضعيت ذكرشده، جايزه و جريمه دريافت ميكنند. جهت بهبود عملكرد از ايده تقسيم سيگنال تقويتي متناسب با مقدار خبرگي عاملها در يك سيستم چندعامله استفاده شدهاست. در اينجا ميزان خبرگي متناسب با تفاوت ارزش عملِ با بالاترين ارزش با ارزشِ عملِ با كمترين مقدار ارزش در هر حالت تعريف ميشود. نتايج شبيهسازي نشان ميدهد، بهرهگيري از ايده تقسيم سيگنال تقويتي براساس خبرگي در آموزش باعث افزايش سرعت در آموزش و بهبود عملكرد عاملها شدهاست.
چكيده لاتين :
Due to the impossibility of predicting all possible states for agents in a wide dynamic multi-agent system, machine learning methods are useful tools to control agent behavior. Simulated Robot Soccer is a well known multi agent benchmark to evaluate machine learning algorithms. In this paper, QV-Learning algorithm (a well known reinforcement learning algorithm) is used to improve the performance of the attack in 2D robots soccer team. The reinforcement signal is defined based on the players involved in the attack can reach the ball in front of goal or lose the ball; They receive positive and negative reward according to the mentioned status, respectively. We use the idea of division the reinforcement signal proportional to the amount of expertness (knowledge) of agents to improve the performance. Here, the expertise is defined as the difference between highest action value and lowest action value in the each state. The simulation results show using the idea of expertise improves the train speed and the performance.
عنوان نشريه :
مهندسي برق دانشگاه تبريز
عنوان نشريه :
مهندسي برق دانشگاه تبريز