شماره ركورد كنفرانس :
4079
عنوان مقاله :
فرمول بندي تجريد حالت در يادگيري تقويتي چند و ظيفه اي
پديدآورندگان :
طاهريان ناهيد taherian@khu.ac.ir دانشگاه خوارزمي , عربي نرئي سميه s.arabi@khu.ac.ir دانشگاه خوارزمي
تعداد صفحه :
6
كليدواژه :
يادگيري تقويتي چند وظيفه اي , تجريد حالت , فرايند ماركوف فاكتور شده.
سال انتشار :
1395
عنوان كنفرانس :
چهل و هفتمين كنفرانس رياضي ايران
زبان مدرك :
فارسي
چكيده فارسي :
تجريد حالت روشي قدرتمند براي مديريت زمان و حافظه در يادگيري تقويتي هست. در رويكردهاي قديمي اين روش براي افزايش سرعت يادگيري وظيفه فعلي مورد استفاده قرار مي گيرد. در بيشتر اين موارد، هزينه يافتن تجريد مناسب و سپس بهره گيري از آن در برابر سود حاصله مقرون به صرفه نيست. با اين وجود، وقتي قرار است چندين محيط مشابه از يك حوزه ياد گرفته شوند، از اين روش براي بهبود يادگيري در وظايف ديگر حوزه و در نتيجه افزايش سود در برابر هزينه مي توان بهره برد. در اين مقاله يك فرمول بندي براي شناسايي متغيرهاي حالت كه در بيشتر وظايف حوزه تأثيري در يادگيري ندارند ارائه مي شود تا با حذف آن ها در وظايف بعدي، سرعت يادگيري با پذيرش خطايي كنترل شده افزايش يابد.
كشور :
ايران
لينک به اين مدرک :
بازگشت