Markov decision Processes with fractional costs

Author

Ren, Zhiyuan ; Krogh, Bruce H.

Author_Institution

Signal Electron. & Embedded Syst. Lab., Gen. Electr. Global Res. Center, Niskayuna, NY, USA

Volume

Issue

fYear

2005

fDate

5/1/2005 12:00:00 AM

Firstpage

646

Lastpage

650

Abstract

Certain methods for constructing embedded Markov decision processes (MDPs) lead to performance measures that are the ratio of two long-run averages. For such MDPs with finite state and action spaces and under an ergodicity assumption, this note presents algorithms for computing optimal policies based on policy iterations, linear programming, value iterations and Q-learning.

Keywords

Markov processes; iterative methods; linear programming; Q-learning; embedded Markov decision processes; ergodicity assumption; fractional costs; linear programming; optimal policy computation; policy iterations; value iterations; Cost function; Embedded system; Linear programming; Probability; Q factor; State-space methods; Fractional costs; Markov decision processes;

fLanguage

English

Journal_Title

Automatic Control, IEEE Transactions on

Publisher

ieee

ISSN

0018-9286

Type

jour

DOI

10.1109/TAC.2005.846520

Filename

1431043

Link To Document

https://search.isc.ac/dl/search/defaultta.aspx?DTC=49&DC=810207