شماره ركورد :
1307964
عنوان مقاله :
ارائه الگوريتم يادگيري تقويتي عميق در مسئله تعقيب و گريز قابل استفاده در پليس هوشمند
پديد آورندگان :
اميني باغ ، علي دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري - گروه سيستم‌هاي اطلاعات جغرافيايي , مسگري ، محمدسعدي دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري - گروه سيستم‌هاي اطلاعات جغرافيايي , محمدي كزج ، پويا دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري - گروه سيستم‌هاي اطلاعات جغرافيايي
از صفحه :
115
تا صفحه :
132
كليدواژه :
هوش مصنوعي , مسئله‌‌ي تعقيب و گريز , پليس هوشمند , يادگيري عميق Q , يادگيري ماشين
چكيده فارسي :
توسعه و استفاده از روش‌‌هاي مختلف هوش مصنوعي براي حل مسائل مختلف، يك زمينه تحقيقاتي وسيع و فعال در عصر جديد فنّاوري مي‌باشد. مسئله‌‌ي تعقيب و گريز به‌‌عنوان يك مسئله‌‌ي نمونه در بسياري از تحقيقات جديد مربوط به يادگيري ماشين و هوش مصنوعي استفاده شده است. در شكل خاصي از مسئله‌‌ي تعقيب و گريز كه موردبررسي اين تحقيق است، تعدادي عامل تعقيب كننده در تعقيب عامل‌‌هاي ديگر هستند. هدف اين تحقيق، آموزش دو عامل هوشمند تعقيب كننده با استفاده از شبكه‌‌هاي يادگيري عميق Q است به نحوي كه بتوانند در كمترين زمان ممكن، عامل فراركننده را به موقعيت مشخصي برگردانند. در اين تحقيق دو مدل با استفاده از الگوريتم مذكور در دو سناريوي مختلف براي يادگيري از تجربه‌‌هاي عامل‌‌هاي تعقيب كننده، ارائه‌شده و درنهايت عملكرد مدل‌هاي پيشنهادي از طريق مقايسه با الگوريتم دقيق جستجوي فراگير مورد تست و ارزيابي قرار گرفتند. پس از آموزش عامل‌‌ها، مشاهده شد كه در هر دو سناريو به تدريج ميزان هزينه شبكه‌ها كاهش و ميزان پاداش‌هاي دريافتي توسط تعقيب‌كننده‌ها در انتهاي آموزش افزايش مي‌يابند و به مقادير مشخصي همگرا مي‌شوند. در سناريوي اول عامل‌‌هاي تعقيب‌كننده در برگرداندن عامل فراركننده به موقعيت مشخص، كاملاً موفق عمل مي‌‌كنند و در سناريوي دوم نيز در بيش از 90 درصد محيط‌‌هاي تصادفي، اين عمل را با موفقيت انجام مي‌‌دهند.
عنوان نشريه :
فناوري اطلاعات و ارتباطات انتظامي
عنوان نشريه :
فناوري اطلاعات و ارتباطات انتظامي
لينک به اين مدرک :
بازگشت