مرکز منطقه ای اطلاع رساني علوم و فناوري - توسعۀ الگوريتم يادگيري تقويتي براي مدل كردن اثر ايماي پاولفي روي برنامه‌ريزي دوجهته

چكيده فارسي :

مقدمه: فرآيند تصميم‌گيري در مغز انسان توسط دو سازوكار يادگيري پاولفي و ابزاري كنترل مي‌شود. يادگيري پاولفي با آموختن پيوند محرك نتيجه به يادگيري منجر مي‌شود بدون آن‌كه به عمل انتخابي وابسته باشد. همچنين اين يادگيري به‌ صورت تمايل به نزديك شدن به محرك‌هاي نويد دهندۀ پاداش ظاهر مي‌شود. اما كنترلر ابزاري به ‌دنبال يادگيري پيوند عمل نتيجه است. البته يادگيري ابزاري تنها به نتيجۀ عمل كنوني بسنده نكرده، و ممكن است به ‌صورت يك برنامه‌ريزي رو به‌ جلو دنباله‌اي از عمل‌ها را ارزيابي كند. از طرفي، برنامه‌ريزي رو به ‌جلو ممكن است تنها فرآيند برنامه‌ريزي‌اي نباشد كه يادگيري ابزاري از آن استفاده مي‌كند. ممكن است انسان‌ها از برنامه‌ريزي روبه‌عقب نيز به ‌منظور ارزيابي توالي عمل‌ها بهره برند. با اين وجود برنامه‌ريزي روبه‌عقب كمتر تاكنون مورد توجه قرار گرفته است. پژوهش‌هاي پيشين نشان دادند با وجود مستقل بودن يادگيري پاولفي و ابزاري، آن‌ها با يكديگر تعامل ‌مي‌كنند. در حقيقت يادگيري پاولفي نزديك شوندگي روي برنامه‌ريزي رو به ‌جلو تأثير گذاشته و منجر به اتخاذ تصميماتي مي‌شود كه ممكن است از نظر كنترلر ابزاري بهينه‌ نباشند. اما تأثير يادگيري پاولفي روي برنامه‌ريزي رو‌به‌عقب هنوز مطالعه نشده است. مواد و روش‌ها: در اين مقاله، ما يك آزمايش مسيريابي طراحي كرديم كه امكان برنامه‌ريزي‌هاي رو به ‌جلو، رو به ‌عقب، و دوجهته در آن فراهم است، و ايماهاي پاولفي نزديك ‌شوندگي را نيز در نقشه‌ها تعبيه نموديم. يافته‌ها: تحليل آماري داده‌هاي جمع‌آوري شده نه تنها از وجود برنامه‌ريزي رو به ‌عقب حكايت مي‌كنند، بلكه نشان ‌مي‌دهند كه ايماي پاولفي نزديك ‌شوندگي بر روي سه برنامه‌ريزي تاثير مي‌گذارد، هر چند كه اين تأثير در برنامه‌ريزي دوجهته بيش‌تر از روبه‌جلو، و در روبه‌جلو بيش‌تر از روبه‌عقب است. همچنين در بستر يادگيري تقويتي، الگوريتم برنامه‌ريزي دوجهته را تحت باياس پاولفي توسعه داديم. نتيجه‌گيري: نتايج شبيه‌سازي با نتايج برآمده از آزمايش سازگار بوده و بيان مي‌كنند كه تأثير باياس پاولفي را مي‌توان به ‌نوعي در قالب هرس درختان تصميم مدل‌سازي نمود.