مرکز منطقه ای اطلاع رساني علوم و فناوري - توسعه كنترلر هوشمند چراغ‌هاي راهنمايي بر پايه يادگيري تقويتي حالت پيوسته در محيط ترافيكي ميكروسكوپيك

شماره ركورد :

1172864

عنوان مقاله :

توسعه كنترلر هوشمند چراغ‌هاي راهنمايي بر پايه يادگيري تقويتي حالت پيوسته در محيط ترافيكي ميكروسكوپيك

عنوان به زبان ديگر :

Developing Adaptive Traffic Signal Controller based on Continuous Reinforcment Learning in a Microscopic Traffic Environment

پديد آورندگان :

اصلاني، محمد دانشگاه صنعتي خواجه نصيرالدين طوسي - گروه مهندسي جي آي اس، تهران , سعدي مسگري، محمد دانشگاه صنعتي خواجه نصيرالدين طوسي - گروه مهندسي جي آي اس، تهران

تعداد صفحه :

از صفحه :

از صفحه (ادامه) :

تا صفحه :

تا صفحه(ادامه) :

كليدواژه :

يادگيري تقويتي پيوسته , يادگيري Q , عملگر-نقاد , ناحيه بندي فضا و كنترل ميكروسكوپيك ترافيك

چكيده فارسي :

افزايش روزافزون تعداد خودروها و در پي آن ترافيك‌هاي سنگين شهري چالش بزرگي را براي كنترل بهينه ترافيك شهري براي مهندسين ايجاد كرده است. روش مناسب براي كنترل بهينه ترافيك هرچه باشد يقيناً بايد وفق پذير بوده تا بتواند ترافيك شهري را كه داراي طبيعت پويا، پيچيده و تغييرپذير است را به‌خوبي مديريت نمايد. در اين راستا تمركز اصلي تحقيق حاضر كنترل هوشمند و توزيع يافته چراغ‌هاي راهنمايي بر پايه يادگيري تقويتي است. كنترل هوشمند چراغ‌هاي راهنمايي بر پايه يادگيري تقويتي نياز به يادگيري و تصميم‌گيري در فضاي حالت بزرگ (پيوسته) را دارد. همين امر باعث مي‌شود كه روش‌هاي رايج يادگيري تقويتي (حالت گسسته) براي چنين مسائلي (با فضاي حالت بزرگ) به‌خوبي قابل بسط نباشند. هدف تحقيق حاضر حل اين چالش در مسئله كنترل ترافيك ميكروسكوپيك است. در همين راستا نوآوري تحقيق حاضر را مي‌توان توسعه كنترلر هوشمند چراغ‌هاي راهنمايي بر پايه يادگيري تقويتي حالت پيوسته براي حل چالش بزرگ بودن فضاي حالت برشمرد. يادگيري تقويتي حالت پيوسته از شباهت سنجي حالات براي تخمين ارزش آن‌ها استفاده مي‌كند. در اين تحقيق به‌منظور اعتبار سنجي، دو روش يادگيري Q و عملگر-نقاد حالت گسسته نيز پياده‌سازي و عملكرد آن‌ها با روش پيشنهادي مقايسه شدند. نتايج نشان مي‌دهند كه روش پيشنهادي منجر به كاهش 16% و 13% زمان سفر در مقايسه با دو روش عملگر-نقاد و يادگيري Q مي‌شود.

چكيده لاتين :

The daily increase of a number of vehicles in big cities poses a serious challenge to efficient traffic control. The suitable approach for optimum traffic control should be adaptive in order to successfully content with the urban traffic that has the dynamic and complex nature. Within such a context, the major focus of this research is developing a method for adaptive and distributed traffic signal control based on reinforcement learning (RL). RL as a promising approach for generating, evaluating, and improving traffic signal decision-making solutions is beneficial and synergetic. RL-embedded traffic signal controller has the capability to learn through experience by dynamically interacting with the traffic environment in order to reach its goals. Traffic signal control often requires dealing with continuous state defined by means of continuous variables. Conventional RL methods do not scale well to problems with continuous state space or very large state space because they require storing distinct estimations of each state value in lookup tables. The contribution of the present research is developing adaptive traffic signal controllers based on continuous state RL for handling the big state space challenge arises in traffic control. The performance of the proposed method is compared with Q-learning and actor-critic and the results reveal that the proposed method outperforms others

سال انتشار :

1396

عنوان نشريه :

كنترل

فايل PDF :

8208549

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=8&DC=1172864