شماره ركورد كنفرانس :
3503
عنوان مقاله :
فرمول بندي تجريد حالت در يادگيري تقويتي چند و ظيفه اي
پديدآورندگان :
طاهريان ناهيد دانشگاه خوارزمي , عربي سميه دانشگاه خوارزمي
كليدواژه :
يادگيري تقويتي چند وظيفه اي , تجريد حالت , فرايند ماركوف فاكتور شده
سال انتشار :
شهريور 1395
عنوان كنفرانس :
چهل و هفتمين كنفرانس رياضي ايران
زبان مدرك :
فارسي
چكيده فارسي :
تجريد حالت روشي قدرتمند براي مديريت زمان و حافظه در يادگيري تقويتي هست. در رويكردهاي قديمي اين روش براي افزايش سرعت يادگيري وظيفه فعلي مورد استفاده قرار مي گيرد. در بيشتر اين موارد، هزينه يافتن تجريد مناسب و سپس بهره گيري از آن در برابر سود حاصله مقرون به صرفه نيست. با اين وجود، وقتي قرار است چندين محيط مشابه از يك حوزه ياد گرفته شوند، از اين روش براي بهبود يادگيري در وظايفِ ديگرِ حوزه و در نتيجه افزايش سود در برابر هزينه مي توان بهره برد. در اين مقاله يك فرمول بندي براي شناسايي متغيرهاي حالت كه در بيشتر وظايف حوزه تأثيري در يادگيري ندارند ارائه مي شود تا با حذف آن ها در وظايف بعدي، سرعت يادگيري با پذيرش خطايي كنترل شده افزايش يابد
كشور :
ايران
تعداد صفحه 2 :
6
از صفحه :
1
تا صفحه :
6
لينک به اين مدرک :
بازگشت