مرکز منطقه ای اطلاع رساني علوم و فناوري - بهبود عملكرد حمله در تيم ربات هاي شبيه ساز فوتبال با استفاده از يادگيري تقويتي

شماره ركورد كنفرانس :

4004

عنوان مقاله :

بهبود عملكرد حمله در تيم ربات هاي شبيه ساز فوتبال با استفاده از يادگيري تقويتي

پديدآورندگان :

خاكسار مينا khaksarmina@stu.yazd.ac.ir دانشجو پرديس فني و مهندسي گروه مهندسي كامپيوتر دانشگاه يزد , درهمي ولي vderhami@yazd.ac.ir دانشيار پرديس فني و مهندسي گروه مهندسي كامپيوتر دانشگاه يزد , رضائيان مهدي mrezaeian@yazd.ac.ir استاديار پرديس فني و مهندسي گروه مهندسي كامپيوتر دانشگاه يزد

تعداد صفحه :

كليدواژه :

فوتبال ربات‎ها , يادگيري تقويتي , يادگيري كيو ‎ـ ‎وي , يادگيري كيو , عملكرد حمله.

سال انتشار :

1395

عنوان كنفرانس :

دومين همايش ملي محاسبات تكاملي و هوش جمعي

زبان مدرك :

فارسي

چكيده فارسي :

سيستم هاي چندعامله اغلب براي انجام وظايفي كه كامل كردن آن توسط يك ربات سخت است استفاده مي شود. شبيه ساز فوتبال ربات ها به‌عنوان يك سيستم چندعامله پويا و متغير، بستر مناسبي براي تست و توسعه روش هاي يادگيري و الگوريتم هاي هوش مصنوعي مي باشد. اين مقاله دو روش يادگيري تقويتي براي بهبود رفتار حمله در فوتبال ربات هاي دو بعدي ارائه مي دهد. روش ارائه شده رفتار بازيكنان حمله هنگامي كه صاحب توپ باشند را بهبود مي دهد. با بررسي محيط و عملكرد بازيكن ها مجموعه حالت ها و عمل هاي مناسب تعريف مي شود. سيگنال تقويتي براساس اينكه بازيكناني كه در حمله دخالت دارند توپ را جلوي دروازه مي رسانند يا توپ را از دست مي دهند تعريف شده است و بترتيب به عامل جايزه و جريمه تعلق مي گيرد. دو الگوريتم شناخته شده يادگيري تقويتي شامل يادگيري كيو و يادگيري كيوـوي با انتخاب عمل شبه‎حريصانه در دو وضعيت اپسيلون ثابت و كاهشي پياده‎سازي مي-شوند. بعد از آموزش، هر بازيكن حمله در هر وضعيت، بهترين عمل را از مجموعه عمل هاي: دريبل، پاس، شوت، فوروارد سريع، فوروارد آهسته، و نگه داشتن توپ ياد ‌مي گيرد. نتايج شبيه سازي نشان مي دهد كه الگوريتم يادگيري كيوـوي نتايج بهتري نسبت به الگوريتم يادگيري كيو ارائه مي كند و قابليت يادگيري چگونگي كسب امتياز، حتي در مقابل قهرمان سال هاي قبل ربوكاپ را دارد.

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=216610