عنوان مقاله :
توسعه كنترلر هوشمند چراغهاي راهنمايي بر پايه يادگيري تقويتي حالت پيوسته در محيط ترافيكي ميكروسكوپيك
عنوان به زبان ديگر :
Developing Adaptive Traffic Signal Controller based on Continuous Reinforcment Learning in a Microscopic Traffic Environment
پديد آورندگان :
اصلاني، محمد دانشگاه صنعتي خواجه نصيرالدين طوسي - گروه مهندسي جي آي اس، تهران , سعدي مسگري، محمد دانشگاه صنعتي خواجه نصيرالدين طوسي - گروه مهندسي جي آي اس، تهران
كليدواژه :
يادگيري تقويتي پيوسته , يادگيري Q , عملگر-نقاد , ناحيه بندي فضا و كنترل ميكروسكوپيك ترافيك
چكيده فارسي :
افزايش روزافزون تعداد خودروها و در پي آن ترافيكهاي سنگين شهري چالش بزرگي را براي كنترل بهينه ترافيك شهري براي مهندسين ايجاد كرده است. روش مناسب براي كنترل بهينه ترافيك هرچه باشد يقيناً بايد وفق پذير بوده تا بتواند ترافيك شهري را كه داراي طبيعت پويا، پيچيده و تغييرپذير است را بهخوبي مديريت نمايد. در اين راستا تمركز اصلي تحقيق حاضر كنترل هوشمند و توزيع يافته چراغهاي راهنمايي بر پايه يادگيري تقويتي است. كنترل هوشمند چراغهاي راهنمايي بر پايه يادگيري تقويتي نياز به يادگيري و تصميمگيري در فضاي حالت بزرگ (پيوسته) را دارد. همين امر باعث ميشود كه روشهاي رايج يادگيري تقويتي (حالت گسسته) براي چنين مسائلي (با فضاي حالت بزرگ) بهخوبي قابل بسط نباشند. هدف تحقيق حاضر حل اين چالش در مسئله كنترل ترافيك ميكروسكوپيك است. در همين راستا نوآوري تحقيق حاضر را ميتوان توسعه كنترلر هوشمند چراغهاي راهنمايي بر پايه يادگيري تقويتي حالت پيوسته براي حل چالش بزرگ بودن فضاي حالت برشمرد. يادگيري تقويتي حالت پيوسته از شباهت سنجي حالات براي تخمين ارزش آنها استفاده ميكند. در اين تحقيق بهمنظور اعتبار سنجي، دو روش يادگيري Q و عملگر-نقاد حالت گسسته نيز پيادهسازي و عملكرد آنها با روش پيشنهادي مقايسه شدند. نتايج نشان ميدهند كه روش پيشنهادي منجر به كاهش 16% و 13% زمان سفر در مقايسه با دو روش عملگر-نقاد و يادگيري Q ميشود.
چكيده لاتين :
The daily increase of a number of vehicles in big cities poses a serious challenge to
efficient traffic control. The suitable approach for optimum traffic control should be adaptive in
order to successfully content with the urban traffic that has the dynamic and complex nature. Within
such a context, the major focus of this research is developing a method for adaptive and distributed
traffic signal control based on reinforcement learning (RL). RL as a promising approach for
generating, evaluating, and improving traffic signal decision-making solutions is beneficial and
synergetic. RL-embedded traffic signal controller has the capability to learn through experience by
dynamically interacting with the traffic environment in order to reach its goals. Traffic signal
control often requires dealing with continuous state defined by means of continuous variables.
Conventional RL methods do not scale well to problems with continuous state space or very large
state space because they require storing distinct estimations of each state value in lookup tables. The
contribution of the present research is developing adaptive traffic signal controllers based on
continuous state RL for handling the big state space challenge arises in traffic control. The performance of the proposed method is compared with Q-learning and actor-critic and the results
reveal that the proposed method outperforms others