UAV Maneuvering Target Tracking in Uncertain Environments Based on Deep Reinforcement Learning and Meta-Learning

被引：56

作者：

Li, Bo ^{[1
]}

Gan, Zhigang ^{[1
]}

Chen, Daqing ^{[2
]}

Sergey Aleksandrovich, Dyachenko ^{[3
]}

机构：

[1] Northwestern Polytech Univ, Sch Elect & Informat, Xian 710072, Peoples R China

[2] London South Bank Univ, Sch Engn, London SE1 0AA, England

[3] Moscow Inst Aviat Technol, Sch Robot & Intelligent Syst, Moscow 125993, Russia

来源：

REMOTE SENSING | 2020年 / 12卷 / 22期

关键词：

UAV; maneuvering target tracking; deep reinforcement learning; meta-learning; multi-tasks; SYSTEM;

D O I：

10.3390/rs12223789

中图分类号：

X [环境科学、安全科学];

学科分类号：

08 ; 0830 ;

摘要：

This paper combines deep reinforcement learning (DRL) with meta-learning and proposes a novel approach, named meta twin delayed deep deterministic policy gradient (Meta-TD3), to realize the control of unmanned aerial vehicle (UAV), allowing a UAV to quickly track a target in an environment where the motion of a target is uncertain. This approach can be applied to a variety of scenarios, such as wildlife protection, emergency aid, and remote sensing. We consider a multi-task experience replay buffer to provide data for the multi-task learning of the DRL algorithm, and we combine meta-learning to develop a multi-task reinforcement learning update method to ensure the generalization capability of reinforcement learning. Compared with the state-of-the-art algorithms, namely the deep deterministic policy gradient (DDPG) and twin delayed deep deterministic policy gradient (TD3), experimental results show that the Meta-TD3 algorithm has achieved a great improvement in terms of both convergence value and convergence rate. In a UAV target tracking problem, Meta-TD3 only requires a few steps to train to enable a UAV to adapt quickly to a new target movement mode more and maintain a better tracking effectiveness.

引用

页码：1 / 20

页数：20

共 50 条

[31] Self-learning UAV Motion Planning Based on Meta Reinforcement Learning
Wang, Minchun
Jiang, Bo
Xie, Jinhui
2024 9TH INTERNATIONAL CONFERENCE ON ELECTRONIC TECHNOLOGY AND INFORMATION SCIENCE, ICETIS 2024, 2024, : 225 - 231
[32] SAC-PER: A Navigation Method Based on Deep Reinforcement Learning Under Uncertain Environments
Wang, Xinmeng
Wang, Lisong
She, Shifan
Hu, Lingling
WEB AND BIG DATA, PT II, APWEB-WAIM 2022, 2023, 13422 : 501 - 510
[33] An AUV Target-Tracking Method Combining Imitation Learning and Deep Reinforcement Learning
Mao, Yubing
Gao, Farong
Zhang, Qizhong
Yang, Zhangyi
JOURNAL OF MARINE SCIENCE AND ENGINEERING, 2022, 10 (03)
[34] Application of Deep Reinforcement Learning to UAV Fleet Control
Tozicka, Jan
Szulyovszky, Benedek
de Chambrier, Guillaume
Sarwal, Varun
Wani, Umar
Gribulis, Mantas
INTELLIGENT SYSTEMS AND APPLICATIONS, INTELLISYS, VOL 2, 2019, 869 : 1169 - 1177
[35] Deep Reinforcement Learning Enabled Covert Transmission With UAV
Hu, Jinsong
Guo, Mingqian
Yan, Shihao
Chen, Youjia
Zhou, Xiaobo
Chen, Zhizhang
IEEE WIRELESS COMMUNICATIONS LETTERS, 2023, 12 (05) : 917 - 921
[36] Trajectory planning for airborne radar in extended target tracking based on deep reinforcement learning
Zhang, Hongyun
Chen, Hui
Zhang, Wenxu
Zhang, Xindi
DIGITAL SIGNAL PROCESSING, 2024, 153
[37] Research on Autonomous Maneuvering Decision of UCAV Based on Deep Reinforcement Learning
Zhang, Yesheng
Hi, Wei
Gao, Yang
Chang, Hongxing
PROCEEDINGS OF THE 30TH CHINESE CONTROL AND DECISION CONFERENCE (2018 CCDC), 2018, : 230 - 235
[38] Airborne Radar Trajectory Optimization Based on Deep Reinforcement Learning in Extended Target Tracking
Zhang, Hongyun
Xi, Lei
Chen, Hui
Zhang, Wenxu
Liu, Jiabin
Li, Tao
Liu, Jianrong
2024 43RD CHINESE CONTROL CONFERENCE, CCC 2024, 2024, : 2106 - 2111
[39] Maneuvering penetration strategies of ballistic missiles based on deep reinforcement learning
Qiu, Xiaoqi
Gao, Changsheng
Jing, Wuxing
PROCEEDINGS OF THE INSTITUTION OF MECHANICAL ENGINEERS PART G-JOURNAL OF AEROSPACE ENGINEERING, 2022, 236 (16) : 3494 - 3504
[40] Meta-learning approaches for learning-to-learn in deep learning: A survey
Tian, Yingjie
Zhao, Xiaoxi
Huang, Wei
NEUROCOMPUTING, 2022, 494 : 203 - 223

← 1 2 3 4 5 →