On the adaptive control of a class of partially observed Markov decision processes

被引：0

作者：

Hsu, Shun-Pin ^{[1
]}

Arapostathis, Ari ^{[2
]}

机构：

[1] Natl Chung Hsing Univ, Dept Elect Engn, Taichung 402, Taiwan

[2] Univ Texas Austin, Dept Elect & Comp Engn, Austin, TX 78712 USA

来源：

JOURNAL OF MATHEMATICAL ANALYSIS AND APPLICATIONS | 2011年 / 380卷 / 01期

关键词：

Adaptive control; Markov decision processes; Average-cost optimality; AVERAGE COST CRITERION; CHAINS;

D O I：

10.1016/j.jmaa.2011.03.004

中图分类号：

O29 [应用数学];

学科分类号：

070104 ;

摘要：

This paper is concerned with the adaptive control problem, over the infinite horizon, for partially observable Markov decision processes whose transition functions are parameterized by an unknown vector. We treat finite models and impose relatively mild assumptions on the transition function. Provided that a sequence of parameter estimates converging in probability to the true parameter value is available, we show that the certainty equivalence adaptive policy is optimal in the long-run average sense. (C) 2011 Elsevier Inc. All rights reserved.

引用

页码：1 / 9

页数：9

共 13 条

[1] [Anonymous], 1979, GRUNDLEHREN MATH WIS
[2] ANALYSIS OF AN IDENTIFICATION ALGORITHM ARISING IN THE ADAPTIVE ESTIMATION OF MARKOV-CHAINS
ARAPOSTATHIS, A
MARCUS, SI
[J]. MATHEMATICS OF CONTROL SIGNALS AND SYSTEMS, 1990, 3 (01) : 1 - 29
[3] DISCRETE-TIME CONTROLLED MARKOV-PROCESSES WITH AVERAGE COST CRITERION - A SURVEY
ARAPOSTATHIS, A
BORKAR, VS
FERNANDEZGAUCHERAND, E
GHOSH, MK
MARCUS, SI
[J]. SIAM JOURNAL ON CONTROL AND OPTIMIZATION, 1993, 31 (02) : 282 - 344
[4] Bertsekas D. P., 1978, MATH SCI ENG, V139
[5] Di Masi GB, 1998, SYST CONTROL LETT, V34, P55, DOI 10.1016/S0167-6911(97)00123-0
[6] Adaptive control of a partially observed discrete time Markov process
Duncan, TE
Pasik-Duncan, B
Stettner, L
[J]. APPLIED MATHEMATICS AND OPTIMIZATION, 1998, 37 (03) : 269 - 293
[7] FERNANDEZGAUCHE.E, 1992, P 31 IEEE C DEC CONT, V3, P2750
[8] ANALYSIS OF AN ADAPTIVE-CONTROL SCHEME FOR A PARTIALLY OBSERVED CONTROLLED MARKOV-CHAIN
FERNANDEZGAUCHERAND, E
ARAPOSTATHIS, A
MARCUS, SI
[J]. IEEE TRANSACTIONS ON AUTOMATIC CONTROL, 1993, 38 (06) : 987 - 993
[9] Hernandez-Lerma O., 1996, APPL MATH N Y, V30
[10] On the existence of stationary optimal policies for partially observed MDPs under the long-run average cost criterion
Hsu, SP
Chuang, DM
Arapostathis, A
[J]. SYSTEMS & CONTROL LETTERS, 2006, 55 (02) : 165 - 173

← 1 2 →