عنوان مقاله :
ارائه الگوريتم يادگيري تقويتي عميق در مسئله تعقيب و گريز قابل استفاده در پليس هوشمند
پديد آورندگان :
اميني باغ ، علي دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري - گروه سيستمهاي اطلاعات جغرافيايي , مسگري ، محمدسعدي دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري - گروه سيستمهاي اطلاعات جغرافيايي , محمدي كزج ، پويا دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده مهندسي نقشه برداري - گروه سيستمهاي اطلاعات جغرافيايي
كليدواژه :
هوش مصنوعي , مسئلهي تعقيب و گريز , پليس هوشمند , يادگيري عميق Q , يادگيري ماشين
چكيده فارسي :
توسعه و استفاده از روشهاي مختلف هوش مصنوعي براي حل مسائل مختلف، يك زمينه تحقيقاتي وسيع و فعال در عصر جديد فنّاوري ميباشد. مسئلهي تعقيب و گريز بهعنوان يك مسئلهي نمونه در بسياري از تحقيقات جديد مربوط به يادگيري ماشين و هوش مصنوعي استفاده شده است. در شكل خاصي از مسئلهي تعقيب و گريز كه موردبررسي اين تحقيق است، تعدادي عامل تعقيب كننده در تعقيب عاملهاي ديگر هستند. هدف اين تحقيق، آموزش دو عامل هوشمند تعقيب كننده با استفاده از شبكههاي يادگيري عميق Q است به نحوي كه بتوانند در كمترين زمان ممكن، عامل فراركننده را به موقعيت مشخصي برگردانند. در اين تحقيق دو مدل با استفاده از الگوريتم مذكور در دو سناريوي مختلف براي يادگيري از تجربههاي عاملهاي تعقيب كننده، ارائهشده و درنهايت عملكرد مدلهاي پيشنهادي از طريق مقايسه با الگوريتم دقيق جستجوي فراگير مورد تست و ارزيابي قرار گرفتند. پس از آموزش عاملها، مشاهده شد كه در هر دو سناريو به تدريج ميزان هزينه شبكهها كاهش و ميزان پاداشهاي دريافتي توسط تعقيبكنندهها در انتهاي آموزش افزايش مييابند و به مقادير مشخصي همگرا ميشوند. در سناريوي اول عاملهاي تعقيبكننده در برگرداندن عامل فراركننده به موقعيت مشخص، كاملاً موفق عمل ميكنند و در سناريوي دوم نيز در بيش از 90 درصد محيطهاي تصادفي، اين عمل را با موفقيت انجام ميدهند.
عنوان نشريه :
فناوري اطلاعات و ارتباطات انتظامي
عنوان نشريه :
فناوري اطلاعات و ارتباطات انتظامي