شماره ركورد كنفرانس :
4004
عنوان مقاله :
بهبود عملكرد حمله در تيم ربات هاي شبيه ساز فوتبال با استفاده از يادگيري تقويتي
پديدآورندگان :
خاكسار مينا khaksarmina@stu.yazd.ac.ir دانشجو پرديس فني و مهندسي گروه مهندسي كامپيوتر دانشگاه يزد , درهمي ولي vderhami@yazd.ac.ir دانشيار پرديس فني و مهندسي گروه مهندسي كامپيوتر دانشگاه يزد , رضائيان مهدي mrezaeian@yazd.ac.ir استاديار پرديس فني و مهندسي گروه مهندسي كامپيوتر دانشگاه يزد
كليدواژه :
فوتبال رباتها , يادگيري تقويتي , يادگيري كيو ـ وي , يادگيري كيو , عملكرد حمله.
عنوان كنفرانس :
دومين همايش ملي محاسبات تكاملي و هوش جمعي
چكيده فارسي :
سيستم هاي چندعامله اغلب براي انجام وظايفي كه كامل كردن آن توسط يك ربات سخت است استفاده مي شود. شبيه ساز فوتبال ربات ها بهعنوان يك سيستم چندعامله پويا و متغير، بستر مناسبي براي تست و توسعه روش هاي يادگيري و الگوريتم هاي هوش مصنوعي مي باشد. اين مقاله دو روش يادگيري تقويتي براي بهبود رفتار حمله در فوتبال ربات هاي دو بعدي ارائه مي دهد. روش ارائه شده رفتار بازيكنان حمله هنگامي كه صاحب توپ باشند را بهبود مي دهد. با بررسي محيط و عملكرد بازيكن ها مجموعه حالت ها و عمل هاي مناسب تعريف مي شود. سيگنال تقويتي براساس اينكه بازيكناني كه در حمله دخالت دارند توپ را جلوي دروازه مي رسانند يا توپ را از دست مي دهند تعريف شده است و بترتيب به عامل جايزه و جريمه تعلق مي گيرد. دو الگوريتم شناخته شده يادگيري تقويتي شامل يادگيري كيو و يادگيري كيوـوي با انتخاب عمل شبهحريصانه در دو وضعيت اپسيلون ثابت و كاهشي پيادهسازي مي-شوند. بعد از آموزش، هر بازيكن حمله در هر وضعيت، بهترين عمل را از مجموعه عمل هاي: دريبل، پاس، شوت، فوروارد سريع، فوروارد آهسته، و نگه داشتن توپ ياد مي گيرد. نتايج شبيه سازي نشان مي دهد كه الگوريتم يادگيري كيوـوي نتايج بهتري نسبت به الگوريتم يادگيري كيو ارائه مي كند و قابليت يادگيري چگونگي كسب امتياز، حتي در مقابل قهرمان سال هاي قبل ربوكاپ را دارد.