بهبود عملكرد حمله در تيم ربات‌هاي فوتباليست با استفاده از يادگيري تقويتي

عنوان به زبان ديگر

Improve Performance of Attack in the Team Robots Soccer using Reinforcement Learning

پديد آورندگان

خاكسار، مينا دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر , درهمي، ولي دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر , رضائيان، مهدي دانشگاه يزد - پرديس فني و مهندسي - گروه مهندسي كامپيوتر

تعداد صفحه

از صفحه

585

از صفحه (ادامه)

تا صفحه

594

تا صفحه(ادامه)

كليدواژه

فوتبال شبيه‌سازي‌شده ربات‌ها , حمله , يادگيري تقويتي , سيستم‌هاي چندعامله , يادگيري كيو ـ وي

چكيده فارسي

به‌دليل عدم امكان پيش‌بيني همه وضعيت‌هاي ممكن براي عامل‌ها در يك سيستم چندعامله‌ي پويا و گسترده، روش‌هاي يادگيري ماشين، ابزار مناسبي براي كنترل رفتار عامل‌ها مي‌باشد. فوتبال شبيه‌سازي شده ربات‌ها يك مسئله شناخته‌شده براي ارزيابي الگوريتم‌هاي يادگيري ماشين روي سيستم‌هاي چندعامله است. در اين مقاله الگوريتم يادگيري كيو ـ وي (يكي از الگوريتم‌هاي معروف يادگيري تقويتي) جهت بهبود عملكرد حمله در تيم ربات‌هاي فوتباليست دو بعدي بكار گرفته شده‌است. سيگنال تقويتي براساس اينكه بازيكناني كه در حمله دخالت دارند، توپ را جلوي دروازه مي‌رسانند، يا اينكه توپ را از دست مي‌دهند، تعريف شده‌است و به‌ترتيب عامل‌ها با توجه به وضعيت ذكرشده، جايزه و جريمه دريافت مي‌كنند. جهت بهبود عملكرد از ايده تقسيم سيگنال تقويتي متناسب با مقدار خبرگي عامل‌ها در يك سيستم چندعامله استفاده شده‌است. در اينجا ميزان خبرگي متناسب با تفاوت ارزش عملِ با بالاترين ارزش با ارزشِ عملِ با كمترين مقدار ارزش در هر حالت تعريف مي‌شود. نتايج شبيه‌سازي نشان مي‌دهد، بهره‌گيري از ايده تقسيم سيگنال تقويتي براساس خبرگي در آموزش باعث افزايش سرعت در آموزش و بهبود عملكرد عامل‌ها شده‌است.

چكيده لاتين

Due to the impossibility of predicting all possible states for agents in a wide dynamic multi-agent system, machine learning methods are useful tools to control agent behavior. Simulated Robot Soccer is a well known multi agent benchmark to evaluate machine learning algorithms. In this paper, QV-Learning algorithm (a well known reinforcement learning algorithm) is used to improve the performance of the attack in 2D robots soccer team. The reinforcement signal is defined based on the players involved in the attack can reach the ball in front of goal or lose the ball; They receive positive and negative reward according to the mentioned status, respectively. We use the idea of division the reinforcement signal proportional to the amount of expertness (knowledge) of agents to improve the performance. Here, the expertise is defined as the difference between highest action value and lowest action value in the each state. The simulation results show using the idea of expertise improves the train speed and the performance.

سال انتشار

1397

عنوان نشريه

مهندسي برق دانشگاه تبريز

فايل PDF

7550511

عنوان نشريه

مهندسي برق دانشگاه تبريز

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1033944