深度学习在飞行器动力学与控制中的应用研究综述

doi:10.6052/1000-0879-20-077

[1]

刘金琨

. 滑模变结构控制 MATLAB 仿真. 北京: 清华大学出版社, 2005

[本文引用: 1]

Liu

Jinkun

. MATLAB Simulation for Sliding Model Control. Beijing: Tsinghua University Press, 2005 (in Chinese)

[本文引用: 1]

[2]

韩正之, 陈彭年, 陈树中. 自适应控制. 北京: 清华大学出版社, 2011

[本文引用: 1]

Han

Zhengzhi

, Chen

Pengnian

, Chen

Shuzhong

. Adaptive Control. Beijing: Tsinghua University Press, 2011 (in Chinese)

[本文引用: 1]

[3]

Cheng

L

, Wang

Z

, Jiang

F

, et al.

An identifier-actor-optimizer policy learning architecture for optimal control of continuous-time nonlinear systems

Science China Physics, Mechanics & Astronomy, 2020, 63(6)(On-line)

[本文引用: 6]

[4]

Goodfellow

I

, Bengio

Y

, Courville

A

, et al. Deep Learning. Cambridge: MIT Press, 2016

[本文引用: 2]

[5]

Schmidhuber

J

.

Deep learning in neural networks: an overview

Neural Networks, 2015,61:85-117

DOI URL PMID [本文引用: 1]

In recent years, deep artificial neural networks (including recurrent ones) have won numerous contests in pattern recognition and machine learning. This historical survey compactly summarizes relevant work, much of it from the previous millennium. Shallow and Deep Learners are distinguished by the depth of their credit assignment paths, which are chains of possibly learnable, causal links between actions and effects. I review deep supervised learning (also recapitulating the history of backpropagation), unsupervised learning, reinforcement learning & evolutionary computation, and indirect search for short programs encoding deep and large networks.

[6]

Sutton

RS

, Barto

AG

. Reinforcement Learning: An Introduction. Cambridge, MA: MIT Press, 2011

[本文引用: 2]

[7]

Silver

D

, Huang

A

, Maddison

CJ

, et al.

Mastering the game of go with deep neural networks and tree search

Nature, 2016,529(7587):484

DOI URL PMID [本文引用: 2]

The game of Go has long been viewed as the most challenging of classic games for artificial intelligence owing to its enormous search space and the difficulty of evaluating board positions and moves. Here we introduce a new approach to computer Go that uses 'value networks' to evaluate board positions and 'policy networks' to select moves. These deep neural networks are trained by a novel combination of supervised learning from human expert games, and reinforcement learning from games of self-play. Without any lookahead search, the neural networks play Go at the level of state-of-the-art Monte Carlo tree search programs that simulate thousands of random games of self-play. We also introduce a new search algorithm that combines Monte Carlo simulation with value and policy networks. Using this search algorithm, our program AlphaGo achieved a 99.8% winning rate against other Go programs, and defeated the human European Go champion by 5 games to 0. This is the first time that a computer program has defeated a human professional player in the full-sized game of Go, a feat previously thought to be at least a decade away.

[8]

Mnih

V

, Badia

AP

, Mirza

M

, et al.

Asynchronous methods for deep reinforcement learning

The 33rd International Conference on Machine Learning, New York, NY, USA, 2016

[本文引用: 3]

[9]

Furfaro

R

, Linares

R

, Reddy

V

, et al.

Modelling irregular small bodies gravity field via extreme learning machines

27th AAS/AIAA Space Flight Mechanics Meeting, Marriott Plaza, San Antonio, Texas, USA, 2017

[本文引用: 1]

[10]

Song

Y

, Cheng

L

, Gong

S

.

Fast estimation of gravitational field of irregular asteroids based on deep neural network and its application

29th AAS/AIAA Space Flight Mechanics Meeting, Maui, HI, United States, 2019

[本文引用: 1]

[11]

Cheng

L

, Li

H

, Wang

Z

, et al.

Fast solution continuation of time-optimal asteroid landing trajectories using deep neural networks

Acta Astronautica, 2020,167:63-72

[本文引用: 1]

[12]

Cheng

L

, Wang

Z

, Song

Y

, et al.

Real-time optimal control for irregular asteroid landings using deep neural networks

29th AAS/AIAA Space Flight Mechanics Meeting, Maui, HI, United States, 2019

[本文引用: 1]

[13]

Wei

B

, Shang

H

, Qiao

D

.

Hybrid model of gravitational fields around small bodies for efficient trajectory propagations

Journal of Guidance, Control, Dynamics, 2020,43(2):232-249

[本文引用: 2]

[14]

Werner

RA

, Scheeres

DJ

.

Exterior gravitation of a polyhedron derived and compared with harmonic and mascon gravitation representations of asteroid 4769 Castalia

Celestial Mechanics and Dynamical Astronomy, 1996,65(3):313-344

[本文引用: 1]

[15]

Silver

D

, Lever

G

, Heess

N

, et al.

Deterministic policy gradient algorithms

The 31st International Conference on Machine Learning, Beijing, China, 2014

[本文引用: 2]

[16]

Schulman

J

, Levine

S

, Abbeel

P

, et al.

Trust region policy optimization

The 31st International Conference on Machine Learning, Lille, France, 2015

[本文引用: 2]

[17]

Schulman

J

, Wolski

F

, Dhariwal

P

, et al.

Proximal policy optimization algorithms

arXiv preprint arXiv: 1707. 06347, 2017

[本文引用: 2]

[18]

Hwangbo

J

, Lee

J

, Dosovitskiy

A

, et al.

Learning agile and dynamic motor skills for legged robots

Science Robotics, 2019,4(26):5872

[本文引用: 1]

[19]

Wang

T

, Bao

X

, Clavera

I

, et al.

Benchmarking model-based reinforcement learning

arXiv preprint arXiv: 1907. 02057, 2019

[本文引用: 2]

[20]

Gal

Y

, McAllister

R

, Rasmussen

CE

.

Improving Pilco with Bayesian neural network dynamics models

Data-Efficient Machine Learning Workshop, ICML, New York City, NY, USA, 2016

[本文引用: 1]

[21]

韩京清

.

自抗扰控制器及其应用

控制与决策, 1998,13(1):19-23

[本文引用: 1]

Hang

Jingqing

.

Auto-disturbances-rejection controller and its application

Control and Decision, 1998,13(1):19-23 (in Chinese)

[本文引用: 1]

[22]

Betts

JT

.

Survey of numerical methods fortrajectory optimization

Journal of Guidance, Control, Dynamics, 1998,21(2):193-207

[本文引用: 1]

[23]

王青, 陈宇, 张颖昕. 最优控制: 理论, 方法与应用. 北京: 高等教育出版社, 2011

[本文引用: 1]

Wang

Qing

, Chen

Yu

, Zhang

Yingxin

. Optimal Control: Theory, Methods and Applications. Beijing: Higher Education Press, 2011 (in Chinese)

[本文引用: 1]

[24]

Yang

H

, Li

S

, Bai

X

.

Fast homotopy method for asteroid landing trajectory optimization using approximate initial costates

Journal of Guidance, Control, Dynamics, 2019,42(3):1-13

[本文引用: 1]

[25]

Jiang

F

, Baoyin

H

, Li

F

.

Practical techniques for low-thrust trajectory optimization with homotopic approach

Journal of Guidance, Control, Dynamics, 2012,35(1):245-258

[本文引用: 2]

[26]

程林, 张庆振, 蒋方华.

基于在线模型辨识的飞行器多约束复合制导技术

清华大学学报 (自然科学版), 2019,59(9):712-719

[本文引用: 1]

Cheng

Lin

, Zhang

Qingzhen

, Jiang

Fanghua

.

Multi-constraint compound reentry guidance based on onboard model identification

Journal of Tsinghua University (Science and Technology), 2019,59(9):712-719 (in Chinese)

[本文引用: 1]

[27]

雍恩米

.

高超声速滑翔式再入飞行器轨迹优化与制导方法研究

[博士论文]. 长沙: 国防科技大学, 2008

[本文引用: 1]

Yong

Enmi

.

Research on trajectory optimization and guidance method of hypersonic glider reentry vehicle

[PhD Thesis]. Changsha: National Defense Science University, 2008 (in Chinese)

[本文引用: 1]

[28]

Kang

Y

, Cheng

L

, Zhang

Q

, et al.

Data-driven RLV multi-objective reentry trajectory optimization based on new QABC algorithm

International Journal of Advanced Manufacturing Technology, 2016,84(1-4):453-471

[本文引用: 1]

[29]

Mao

Y

, Zhang

D

, Wang

L

.

Reentry trajectory optimization for hypersonic vehicle based on improved gauss pseudospectral method

Soft Computing, 2017,21(16):4583-4592

[本文引用: 1]

[30]

Zhao

J

, Zhou

R

, Jin

X

.

Reentry trajectory optimization based on a multistage pseudospectral method

The Scientific World Journal, 2014,2014:1-13

[本文引用: 1]

[31]

Liu

X

, Lu

P

.

Solving nonconvex optimal control problems by convex optimization

Journal of Guidance, Control, Dynamics, 2014,37(3):750-765

[本文引用: 1]

[32]

Wang

Z

, Grant

MJ

.

Minimum-fuel low-thrust transfers for spacecraft: a convex approach

IEEE Transactions on Aerospace and Electronic Systems, 2018,54(5):2274-2290

[33]

Yang

H

, Bai

C

, Baoyin

X

.

Rapid generation of time-optimal trajectories for asteroid landing via convex optimization

Journal of Guidance, Control, Dynamics, 2017,40(3):628-641

[本文引用: 1]

[34]

Arulkumaran

K

, Deisenroth

MP

, Brundage

M

, et al.

Deep reinforcement learning: a brief survey

IEEE Signal Processing Magazine, 2017,34(6):26-38

[本文引用: 1]

[35]

Mnih

V

, Kavukcuoglu

K

, Silver

D

, et al.

Human-level control through deep reinforcement learning

Nature, 2015,518(7540):529

DOI URL PMID [本文引用: 1]

The theory of reinforcement learning provides a normative account, deeply rooted in psychological and neuroscientific perspectives on animal behaviour, of how agents may optimize their control of an environment. To use reinforcement learning successfully in situations approaching real-world complexity, however, agents are confronted with a difficult task: they must derive efficient representations of the environment from high-dimensional sensory inputs, and use these to generalize past experience to new situations. Remarkably, humans and other animals seem to solve this problem through a harmonious combination of reinforcement learning and hierarchical sensory processing systems, the former evidenced by a wealth of neural data revealing notable parallels between the phasic signals emitted by dopaminergic neurons and temporal difference reinforcement learning algorithms. While reinforcement learning agents have achieved some successes in a variety of domains, their applicability has previously been limited to domains in which useful features can be handcrafted, or to domains with fully observed, low-dimensional state spaces. Here we use recent advances in training deep neural networks to develop a novel artificial agent, termed a deep Q-network, that can learn successful policies directly from high-dimensional sensory inputs using end-to-end reinforcement learning. We tested this agent on the challenging domain of classic Atari 2600 games. We demonstrate that the deep Q-network agent, receiving only the pixels and the game score as inputs, was able to surpass the performance of all previous algorithms and achieve a level comparable to that of a professional human games tester across a set of 49 games, using the same algorithm, network architecture and hyperparameters. This work bridges the divide between high-dimensional sensory inputs and actions, resulting in the first artificial agent that is capable of learning to excel at a diverse array of challenging tasks.

[36]

Heess

N

, Sriram

S

, Lemmon

J

, et al.

Emergence of locomotion behaviours in rich environments

arXiv preprint arXiv: 1707. 02286, 2017

[本文引用: 1]

[37]

Wu

Y

, Mansimov

E

, Grosse

RB

, et al.

Scalable trust-region method for deep reinforcement learning using kronecker-factored approximation

Advances in Neural Information Processing Systems, Long Beach, CA, USA, 2017

[本文引用: 1]

[38]

Sanchez-Sanchez

C

, Izzo

D

, Hennes

D

.

Learning the optimal state-feedback using deep networks

2016 IEEE Symposium Series on Computational Intelligence (SSCI), IEEE, Athens, Greece, 2016

[本文引用: 1]

[39]

Sanchez-Sanchez

C

, Izzo

D

.

Real-time optimal control via deep neural networks: study on landing problems

Journal of Guidance, Control, Dynamics, 2018,41(5):1122-1135

[本文引用: 2]

[40]

Furfaro

R

, Bloise

I

, Orlandelli

M

, et al.

Deep learning for autonomous lunar landing

2018 AAS/AIAA Astrodynamics Specialist Conference, Cliff Lodge, Snowbird, UT, USA, 2018

[本文引用: 1]

[41]

Cheng

L

, Wang

Z

, Song

Y

, et al.

Real-time optimal control for irregular asteroid landings using deep neural networks

Acta Astronautica, 2020,170:66-79

[本文引用: 2]

[42]

You

S

, Wan

C

, Dai

R

, et al.

Learning-based optimal control for planetary entry, powered descent and landing guidance

AIAA Scitech 2020 Forum, Orlando, Florida, USA, 2020

[本文引用: 1]

[43]

Li

H

, Baoyin

H

, Topputo

F

.

Neural networks in time-optimal low-thrust interplanetary transfers

IEEE Access, 2019,7:156413-156419

[本文引用: 1]

[44]

Tang

G

, Sun

W

, Hauser

K

.

Learning trajectories for real-time optimal control of quadrotors

2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), IEEE, Madrid, Spain, 2018

[本文引用: 1]

[45]

Izzo

D

, Ozturk

E

, Martens

M

.

Interplanetary transfers via deep representations of the optimal policy and/or of the value function

The Genetic and Evolutionary Computation Conference Companion, Prague, Czech, 2019

[本文引用: 2]

[46]

Biggs

JD

, Fournier

H

.

Neural-network-based optimal attitude control using four impulsive thrusters

Journal of Guidance, Control, Dynamics, 2020,43(2):299-309

[本文引用: 1]

[47]

Cheng

L

, Wang

Z

, Jiang

F

, et al.

Fast generation of optimal asteroid landing trajectories using deep neural networks

IEEE Transactions on Aerospace and Electronic Systems, 2019 (Early Access)

DOI URL PMID [本文引用: 3]

This work intends to design, analyze and solve, from the systems control perspective, a complex, dynamic, and multiconstrained planning system for generating training plans for crew members of the NASA-led International Space Station. Various intelligent planning systems have been developed within the framework of artificial intelligence. These planning systems generally lack a rigorous mathematical formalism to allow a reliable and flexible methodology for their design, modeling, and performance analysis in a dynamical, time-critical, and multiconstrained environment. Formulating the planning problem in the domain of discrete-event systems under a unified framework such that it can be modeled, designed, and analyzed as a control system will provide a self-contained theory for such planning systems. This will also provide a means to certify various planning systems for operations in the dynamical and complex environments in space. The work presented here completes the design, development, and analysis of an intricate, large-scale, and representative mathematical formulation for intelligent control of a real planning system for Space Station crew training. This planning system has been tested and used at NASA-Johnson Space Center.

[48]

Cheng

L

, Wang

Z

, Jiang, F, et al.

Real-time optimal control for spacecraft orbit transfer via multi-scale deep neural networks

IEEE Transactions on Aerospace and Electronic Systems, 2019,55(5):2436-2450

DOI URL [本文引用: 2]

[49]

Cheng

L

, Wang

Z

, Jiang

F

.

Real-time control for fuel-optimal moon landing based on an interactive deep reinforcement learning algorithm

Astrodynamics, 2019,3(4):375-386

DOI URL [本文引用: 1]

[50]

Gaudet

B

, Linares

R

, Furfaro

R

.

Deep reinforcement learning for six degree-of-freedom planetary landing

Advances in Space Research, 2020,65(7):1723-1741

[本文引用: 1]

[51]

Mereta

A

, Izzo

D

, Wittig

A

.

Machine learning of optimal low-thrust transfers between near-earth objects

International Conference on Hybrid Artificial Intelligence Systems, Springer, Logroño, Spain, 2017

[本文引用: 1]

[52]

Li

H

, Chen

S

, Izzo

D

, et al.

Deep networks as approximators of optimal low-thrust and multi impulse cost in multitarget missions

Acta Astronautica, 2020,166:469-481

[本文引用: 1]

[53]

Zhu

Y

, Luo

Y

.

Fast evaluation of low-thrust transfers via multilayer perceptions

Journal of Guidance, Control, Dynamics, 2019,42(12):2627-2637

[本文引用: 2]

[54]

Song

Y

, Gong

S

.

Solar-sail trajectory design for multiple near-earth asteroid exploration based on deep neural networks

Aerospace Science and Technology, 2019,91:28-40

[本文引用: 1]

[55]

Julian

KD

, Kochenderfer

MJ

, Owen

MP

.

Deep neural network compression for aircraft collision avoidance systems

Journal of Guidance, Control, Dynamics, 2019,42(3):598-608

[本文引用: 1]

[56]

Peng

H

, Bai

X

.

Comparative evaluation of three machine learning algorithms on improving orbit prediction accuracy

Astrodynamics, 2019,3(4):325-343

[本文引用: 1]

1

2005

... 传统上,受到机载计算机软硬件技术限制,飞行器控制系统难以实现飞行剖面的实时规划.工程上,多以离线标称轨迹设计和在线标称轨迹跟踪相结合的跟踪制导方式实现飞行任务.以经典控制理论为基础发展起来的PID (proportion-integral-derivative)控制技术和以极点配置、滑模控制^[1]、自适应控制^[2]、鲁棒控制为代表的现代反馈技术能够基于当前状态解析计算控制指令,具有算法简单易实现、实时性好、稳定可靠的优势,至今被绝大多数飞行任务所采用.然而,此类方法基于当前状态(非全局)生成指令,导致其对全局约束和性能指标的考量不足.当飞行任务包含复杂约束和最优指标时,飞行控制系统往往需要离线设计好的标称轨迹作为飞行参考,PID技术和现代反馈控制技术用于标称的轨迹跟踪和姿态调整.由于标称轨迹离线设计所得,此类标称轨迹跟踪制导方式的自主性和鲁棒性较差,尤其是当飞行环境存在较大的不确定性时.随着任务需求的不断发展,未来飞行任务的控制复杂性也日益提高.例如,高超声速飞行器再入飞行轨迹实时规划的需求、末制导中多个终端约束的严格限制、以太阳帆为代表的欠驱动控制模式、小行星着陆任务中的远程通讯限制等都对未来飞行控制系统全局自主决策能力和智能化水平提出更高的要求.从技术的发展趋势来看,为满足未来强不确定性、欠驱动、多约束、通讯限制等任务特点,需要发展新型动力学与控制技术,以实现控制任务自主性、鲁棒性、多约束满足和实时智能决策等性能的全面提升. ...

1

2005

... 传统上,受到机载计算机软硬件技术限制,飞行器控制系统难以实现飞行剖面的实时规划.工程上,多以离线标称轨迹设计和在线标称轨迹跟踪相结合的跟踪制导方式实现飞行任务.以经典控制理论为基础发展起来的PID (proportion-integral-derivative)控制技术和以极点配置、滑模控制^[1]、自适应控制^[2]、鲁棒控制为代表的现代反馈技术能够基于当前状态解析计算控制指令,具有算法简单易实现、实时性好、稳定可靠的优势,至今被绝大多数飞行任务所采用.然而,此类方法基于当前状态(非全局)生成指令,导致其对全局约束和性能指标的考量不足.当飞行任务包含复杂约束和最优指标时,飞行控制系统往往需要离线设计好的标称轨迹作为飞行参考,PID技术和现代反馈控制技术用于标称的轨迹跟踪和姿态调整.由于标称轨迹离线设计所得,此类标称轨迹跟踪制导方式的自主性和鲁棒性较差,尤其是当飞行环境存在较大的不确定性时.随着任务需求的不断发展,未来飞行任务的控制复杂性也日益提高.例如,高超声速飞行器再入飞行轨迹实时规划的需求、末制导中多个终端约束的严格限制、以太阳帆为代表的欠驱动控制模式、小行星着陆任务中的远程通讯限制等都对未来飞行控制系统全局自主决策能力和智能化水平提出更高的要求.从技术的发展趋势来看,为满足未来强不确定性、欠驱动、多约束、通讯限制等任务特点,需要发展新型动力学与控制技术,以实现控制任务自主性、鲁棒性、多约束满足和实时智能决策等性能的全面提升. ...

1

2011

... 传统上,受到机载计算机软硬件技术限制,飞行器控制系统难以实现飞行剖面的实时规划.工程上,多以离线标称轨迹设计和在线标称轨迹跟踪相结合的跟踪制导方式实现飞行任务.以经典控制理论为基础发展起来的PID (proportion-integral-derivative)控制技术和以极点配置、滑模控制^[1]、自适应控制^[2]、鲁棒控制为代表的现代反馈技术能够基于当前状态解析计算控制指令,具有算法简单易实现、实时性好、稳定可靠的优势,至今被绝大多数飞行任务所采用.然而,此类方法基于当前状态(非全局)生成指令,导致其对全局约束和性能指标的考量不足.当飞行任务包含复杂约束和最优指标时,飞行控制系统往往需要离线设计好的标称轨迹作为飞行参考,PID技术和现代反馈控制技术用于标称的轨迹跟踪和姿态调整.由于标称轨迹离线设计所得,此类标称轨迹跟踪制导方式的自主性和鲁棒性较差,尤其是当飞行环境存在较大的不确定性时.随着任务需求的不断发展,未来飞行任务的控制复杂性也日益提高.例如,高超声速飞行器再入飞行轨迹实时规划的需求、末制导中多个终端约束的严格限制、以太阳帆为代表的欠驱动控制模式、小行星着陆任务中的远程通讯限制等都对未来飞行控制系统全局自主决策能力和智能化水平提出更高的要求.从技术的发展趋势来看,为满足未来强不确定性、欠驱动、多约束、通讯限制等任务特点,需要发展新型动力学与控制技术,以实现控制任务自主性、鲁棒性、多约束满足和实时智能决策等性能的全面提升. ...

1

2011

... 传统上,受到机载计算机软硬件技术限制,飞行器控制系统难以实现飞行剖面的实时规划.工程上,多以离线标称轨迹设计和在线标称轨迹跟踪相结合的跟踪制导方式实现飞行任务.以经典控制理论为基础发展起来的PID (proportion-integral-derivative)控制技术和以极点配置、滑模控制^[1]、自适应控制^[2]、鲁棒控制为代表的现代反馈技术能够基于当前状态解析计算控制指令,具有算法简单易实现、实时性好、稳定可靠的优势,至今被绝大多数飞行任务所采用.然而,此类方法基于当前状态(非全局)生成指令,导致其对全局约束和性能指标的考量不足.当飞行任务包含复杂约束和最优指标时,飞行控制系统往往需要离线设计好的标称轨迹作为飞行参考,PID技术和现代反馈控制技术用于标称的轨迹跟踪和姿态调整.由于标称轨迹离线设计所得,此类标称轨迹跟踪制导方式的自主性和鲁棒性较差,尤其是当飞行环境存在较大的不确定性时.随着任务需求的不断发展,未来飞行任务的控制复杂性也日益提高.例如,高超声速飞行器再入飞行轨迹实时规划的需求、末制导中多个终端约束的严格限制、以太阳帆为代表的欠驱动控制模式、小行星着陆任务中的远程通讯限制等都对未来飞行控制系统全局自主决策能力和智能化水平提出更高的要求.从技术的发展趋势来看,为满足未来强不确定性、欠驱动、多约束、通讯限制等任务特点,需要发展新型动力学与控制技术,以实现控制任务自主性、鲁棒性、多约束满足和实时智能决策等性能的全面提升. ...

An identifier-actor-optimizer policy learning architecture for optimal control of continuous-time nonlinear systems

6

2020

... 近年来,人工智能技术的飞速发展为飞行器自主智能飞行的实现提供了新的可能^[3]. 人工智能是计算机科学的一个分支领域,主要研究人类智能活动的规律,构造具有一定智能的人工系统,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术^[4].人工智能属于应用范畴,在算法层面主要依赖机器学习算法.机器学习又可分为监督学习、非监督学习和强化学习^[4].其中,深度神经网络飞跃式发展促进了近年来机器学习研究的再次活跃,引领了第三次人工智能的浪潮.深度神经网络映射能力好、学习能力强、适应性广、纯数据驱动的优点使其在图像识别、自然语言处理、健康医疗等任务中具有超过人类的表现^[5].深度学习主要实现数据的函数映射功能,可用来解决智能中的辨识问题.不同的是,强化学习针对Markov决策问题,通过与被控对象的不断交互和迭代学习,生成可供全局决策的最优策略,可解决智能中的决策问题^[6].深度神经网络为强化学习的智能存储提供了强大记忆载体.应运而生的深度强化学习技术适合于解决复杂且难以建模的应用场景问题,其有效性在围棋AlphaZero算法中得到验证^[7]. 深度强化学习技术已经在工业自动化、数据科学、神经网络优化、医学等方面逐渐开展应用^[8].总而言之,人工智能基于存储、记忆、预训练的应用模式为传统学科难题的解决提供了新途径.近年来,人工智能技术应用于飞行器动力学与控制,用以提升飞行控制的自主性和智能化水平,尤其备受关注. ...

... 为了进一步提升飞行器动力学建模的精度,深度神经网络也可用来学习动力学的未知部分$F_{\text{du}}( x, u)$.文献^[3]中提出一种智能动力学模型 ...

... 其中,深度神经网络模块$Net_{\text{du}} ( x)$用来表征动力学中的$F_{\text{du}} ( x, u)$部分,$\epsilon_{\rm f}$表示拟合误差.为了实现模型的自我学习,文献^[3] 基于扩张观测技术提出了一种模型迭代学习算法,并给出了详细的算法稳定性证明.值得说明的是,文献^[3]为了保证后续间接法的求解需要,只考虑动力学$F_{\text{du}} ( x, u)$与控制变量$ u$无关的情况.式(2)也被尝试应用于小行星绕飞过程中的引力场在线学习.小行星探测器前期绕飞中,通过一定的反演算法,推算出当前位置下的引力场修正值.观测的引力场修正值与地面雷达或者光学估算值(例如多面体算法^[14])进行数据融合,从而实现智能动力学模型的在线调整与学习.基于引力场的学习效果,研究者还可以进一步对探测器绕飞轨道进行优化.当前,针对反演算法、数据融合算法、绕飞轨道的优化还在技术攻关中. ...

... [3]为了保证后续间接法的求解需要,只考虑动力学$F_{\text{du}} ( x, u)$与控制变量$ u$无关的情况.式(2)也被尝试应用于小行星绕飞过程中的引力场在线学习.小行星探测器前期绕飞中,通过一定的反演算法,推算出当前位置下的引力场修正值.观测的引力场修正值与地面雷达或者光学估算值(例如多面体算法^[14])进行数据融合,从而实现智能动力学模型的在线调整与学习.基于引力场的学习效果,研究者还可以进一步对探测器绕飞轨道进行优化.当前,针对反演算法、数据融合算法、绕飞轨道的优化还在技术攻关中. ...

... 为了进一步解决动力学模型中可能存在的未知部分,文献^[3]进一步构建智能动力学Identifier模块.借助于算法与实物的交互,不断提升数字模型的准确性.从而在减少与实物交互的情况下尽可能提升策略的学习效果.文献^[3]最终提出新型Identifier-Actor-Optimizer交互式策略学习架构,如图4所示.新型架构在模型依赖、算法学习效率、应用灵活性上都具有一定优势. ...

... [3]最终提出新型Identifier-Actor-Optimizer交互式策略学习架构,如图4所示.新型架构在模型依赖、算法学习效率、应用灵活性上都具有一定优势. ...

2

2016

... 近年来,人工智能技术的飞速发展为飞行器自主智能飞行的实现提供了新的可能^[3]. 人工智能是计算机科学的一个分支领域,主要研究人类智能活动的规律,构造具有一定智能的人工系统,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术^[4].人工智能属于应用范畴,在算法层面主要依赖机器学习算法.机器学习又可分为监督学习、非监督学习和强化学习^[4].其中,深度神经网络飞跃式发展促进了近年来机器学习研究的再次活跃,引领了第三次人工智能的浪潮.深度神经网络映射能力好、学习能力强、适应性广、纯数据驱动的优点使其在图像识别、自然语言处理、健康医疗等任务中具有超过人类的表现^[5].深度学习主要实现数据的函数映射功能,可用来解决智能中的辨识问题.不同的是,强化学习针对Markov决策问题,通过与被控对象的不断交互和迭代学习,生成可供全局决策的最优策略,可解决智能中的决策问题^[6].深度神经网络为强化学习的智能存储提供了强大记忆载体.应运而生的深度强化学习技术适合于解决复杂且难以建模的应用场景问题,其有效性在围棋AlphaZero算法中得到验证^[7]. 深度强化学习技术已经在工业自动化、数据科学、神经网络优化、医学等方面逐渐开展应用^[8].总而言之,人工智能基于存储、记忆、预训练的应用模式为传统学科难题的解决提供了新途径.近年来,人工智能技术应用于飞行器动力学与控制,用以提升飞行控制的自主性和智能化水平,尤其备受关注. ...

... [4].其中,深度神经网络飞跃式发展促进了近年来机器学习研究的再次活跃,引领了第三次人工智能的浪潮.深度神经网络映射能力好、学习能力强、适应性广、纯数据驱动的优点使其在图像识别、自然语言处理、健康医疗等任务中具有超过人类的表现^[5].深度学习主要实现数据的函数映射功能,可用来解决智能中的辨识问题.不同的是,强化学习针对Markov决策问题,通过与被控对象的不断交互和迭代学习,生成可供全局决策的最优策略,可解决智能中的决策问题^[6].深度神经网络为强化学习的智能存储提供了强大记忆载体.应运而生的深度强化学习技术适合于解决复杂且难以建模的应用场景问题,其有效性在围棋AlphaZero算法中得到验证^[7]. 深度强化学习技术已经在工业自动化、数据科学、神经网络优化、医学等方面逐渐开展应用^[8].总而言之,人工智能基于存储、记忆、预训练的应用模式为传统学科难题的解决提供了新途径.近年来,人工智能技术应用于飞行器动力学与控制,用以提升飞行控制的自主性和智能化水平,尤其备受关注. ...

Deep learning in neural networks: an overview

1

2015

... 近年来,人工智能技术的飞速发展为飞行器自主智能飞行的实现提供了新的可能^[3]. 人工智能是计算机科学的一个分支领域,主要研究人类智能活动的规律,构造具有一定智能的人工系统,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术^[4].人工智能属于应用范畴,在算法层面主要依赖机器学习算法.机器学习又可分为监督学习、非监督学习和强化学习^[4].其中,深度神经网络飞跃式发展促进了近年来机器学习研究的再次活跃,引领了第三次人工智能的浪潮.深度神经网络映射能力好、学习能力强、适应性广、纯数据驱动的优点使其在图像识别、自然语言处理、健康医疗等任务中具有超过人类的表现^[5].深度学习主要实现数据的函数映射功能,可用来解决智能中的辨识问题.不同的是,强化学习针对Markov决策问题,通过与被控对象的不断交互和迭代学习,生成可供全局决策的最优策略,可解决智能中的决策问题^[6].深度神经网络为强化学习的智能存储提供了强大记忆载体.应运而生的深度强化学习技术适合于解决复杂且难以建模的应用场景问题,其有效性在围棋AlphaZero算法中得到验证^[7]. 深度强化学习技术已经在工业自动化、数据科学、神经网络优化、医学等方面逐渐开展应用^[8].总而言之,人工智能基于存储、记忆、预训练的应用模式为传统学科难题的解决提供了新途径.近年来,人工智能技术应用于飞行器动力学与控制,用以提升飞行控制的自主性和智能化水平,尤其备受关注. ...

2

2011

... 近年来,人工智能技术的飞速发展为飞行器自主智能飞行的实现提供了新的可能^[3]. 人工智能是计算机科学的一个分支领域,主要研究人类智能活动的规律,构造具有一定智能的人工系统,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术^[4].人工智能属于应用范畴,在算法层面主要依赖机器学习算法.机器学习又可分为监督学习、非监督学习和强化学习^[4].其中,深度神经网络飞跃式发展促进了近年来机器学习研究的再次活跃,引领了第三次人工智能的浪潮.深度神经网络映射能力好、学习能力强、适应性广、纯数据驱动的优点使其在图像识别、自然语言处理、健康医疗等任务中具有超过人类的表现^[5].深度学习主要实现数据的函数映射功能,可用来解决智能中的辨识问题.不同的是,强化学习针对Markov决策问题,通过与被控对象的不断交互和迭代学习,生成可供全局决策的最优策略,可解决智能中的决策问题^[6].深度神经网络为强化学习的智能存储提供了强大记忆载体.应运而生的深度强化学习技术适合于解决复杂且难以建模的应用场景问题,其有效性在围棋AlphaZero算法中得到验证^[7]. 深度强化学习技术已经在工业自动化、数据科学、神经网络优化、医学等方面逐渐开展应用^[8].总而言之,人工智能基于存储、记忆、预训练的应用模式为传统学科难题的解决提供了新途径.近年来,人工智能技术应用于飞行器动力学与控制,用以提升飞行控制的自主性和智能化水平,尤其备受关注. ...

... (2) 强化学习方法：强化学习基于最优性原理将多级决策问题转化为一系列单级决策问题,具体公式为：当前状态的好坏=当前动作的奖励+下一个状态的好坏^[6].强化学习以离线反复学习为代价,根据状态和动作对应的价值函数来优化动作指令,经过反复训练得到最优控制策略;在在线应用阶段,训练得到的最优控制策略无需求解最优控制问题,能够根据状态查询得到最优指令,因此具有显著的实时性优势. ...

Mastering the game of go with deep neural networks and tree search

2

2016

... 近年来,人工智能技术的飞速发展为飞行器自主智能飞行的实现提供了新的可能^[3]. 人工智能是计算机科学的一个分支领域,主要研究人类智能活动的规律,构造具有一定智能的人工系统,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术^[4].人工智能属于应用范畴,在算法层面主要依赖机器学习算法.机器学习又可分为监督学习、非监督学习和强化学习^[4].其中,深度神经网络飞跃式发展促进了近年来机器学习研究的再次活跃,引领了第三次人工智能的浪潮.深度神经网络映射能力好、学习能力强、适应性广、纯数据驱动的优点使其在图像识别、自然语言处理、健康医疗等任务中具有超过人类的表现^[5].深度学习主要实现数据的函数映射功能,可用来解决智能中的辨识问题.不同的是,强化学习针对Markov决策问题,通过与被控对象的不断交互和迭代学习,生成可供全局决策的最优策略,可解决智能中的决策问题^[6].深度神经网络为强化学习的智能存储提供了强大记忆载体.应运而生的深度强化学习技术适合于解决复杂且难以建模的应用场景问题,其有效性在围棋AlphaZero算法中得到验证^[7]. 深度强化学习技术已经在工业自动化、数据科学、神经网络优化、医学等方面逐渐开展应用^[8].总而言之,人工智能基于存储、记忆、预训练的应用模式为传统学科难题的解决提供了新途径.近年来,人工智能技术应用于飞行器动力学与控制,用以提升飞行控制的自主性和智能化水平,尤其备受关注. ...

... 深度强化学习是采用深度神经网络做函数拟合的一类新兴强化学习算法,特别适合解决复杂大维度应用场景问题,并已经在围棋AlphaZero算法中得到技术验证^[7].在连续动作空间最优控制问题上,2014年,Deepmind团队在总结DQN^[35]和Actor-Critic方法基础上,提出了DDPG方法^[15],实验表明,DDPG算法在连续动作空间任务中表现稳定,且计算量远远低于同水平DQN.Schulman等^[16]于2015 年提出了TRPO方法,此方法通过强制限制同一批次数据新旧两种策略预测分布的KL差距,避免参数更新中策略发生太大改变,从而提高了算法的收敛性能. 2016年, Deepmind团队提出了A3C异步强化学习架构,其在采用深度强化学习Actor-Critic框架基础上,利用多个智能体共同探索,并行计算策略梯度,维持一个总的更新量^[8].针对TRPO标准解法计算量过大的问题,OpenAI于2016 年提出了利用一阶梯度的PPO算法,并用随机梯度下降的方法更新参数^[17].Google在此启发下,基于PPO算法提出了分布式的DPPO (distributed proximal policy optimization),并取得了优异的结果^[36].鉴于PPO算法依旧沿着策略梯度方向进行参数更新,2017年8月,多伦多大学和纽约大学联合提出ACKTR算法,其通过引入计算参数的自然策略梯度来加速PPO算法的收敛速度^[37]. ...

Asynchronous methods for deep reinforcement learning

3

2016

... 近年来,人工智能技术的飞速发展为飞行器自主智能飞行的实现提供了新的可能^[3]. 人工智能是计算机科学的一个分支领域,主要研究人类智能活动的规律,构造具有一定智能的人工系统,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术^[4].人工智能属于应用范畴,在算法层面主要依赖机器学习算法.机器学习又可分为监督学习、非监督学习和强化学习^[4].其中,深度神经网络飞跃式发展促进了近年来机器学习研究的再次活跃,引领了第三次人工智能的浪潮.深度神经网络映射能力好、学习能力强、适应性广、纯数据驱动的优点使其在图像识别、自然语言处理、健康医疗等任务中具有超过人类的表现^[5].深度学习主要实现数据的函数映射功能,可用来解决智能中的辨识问题.不同的是,强化学习针对Markov决策问题,通过与被控对象的不断交互和迭代学习,生成可供全局决策的最优策略,可解决智能中的决策问题^[6].深度神经网络为强化学习的智能存储提供了强大记忆载体.应运而生的深度强化学习技术适合于解决复杂且难以建模的应用场景问题,其有效性在围棋AlphaZero算法中得到验证^[7]. 深度强化学习技术已经在工业自动化、数据科学、神经网络优化、医学等方面逐渐开展应用^[8].总而言之,人工智能基于存储、记忆、预训练的应用模式为传统学科难题的解决提供了新途径.近年来,人工智能技术应用于飞行器动力学与控制,用以提升飞行控制的自主性和智能化水平,尤其备受关注. ...

... 作者认为,精确动力学建模是实现飞行器智能飞行不可缺少的关键技术之一.目前,计算机领域崇尚Model-free的学习策略,即在不需要对被控对象精确建模的前提下,通过智能体与被控对象的不断交互和经验积累,最终实现智能体最佳控制策略的学习.近年来,深度强化学习领域出现的代表性算法也多为Model-free算法,例如 DDPG (deterministic policy gradient algorithms)^[15],A3C (actor-critic)^[8],区域信赖策略优化 (trust region policy optimization, TRPO)^[16],PPO (proximal policy optimization)^[17]等.尽管Model-free的学习策略在实践中简单易执行且具有良好的收敛性,但是Model-free强化学习算法也存在明显的缺点,包括随机动作探索引发的学习效率低下、约束无法严格保障、以及训练样本的海量需求.在不解决以上难题的情况下,作者认为Model-free 强化学习算法难以直接应用于飞行控制器的设计任务中. ...

... 深度强化学习是采用深度神经网络做函数拟合的一类新兴强化学习算法,特别适合解决复杂大维度应用场景问题,并已经在围棋AlphaZero算法中得到技术验证^[7].在连续动作空间最优控制问题上,2014年,Deepmind团队在总结DQN^[35]和Actor-Critic方法基础上,提出了DDPG方法^[15],实验表明,DDPG算法在连续动作空间任务中表现稳定,且计算量远远低于同水平DQN.Schulman等^[16]于2015 年提出了TRPO方法,此方法通过强制限制同一批次数据新旧两种策略预测分布的KL差距,避免参数更新中策略发生太大改变,从而提高了算法的收敛性能. 2016年, Deepmind团队提出了A3C异步强化学习架构,其在采用深度强化学习Actor-Critic框架基础上,利用多个智能体共同探索,并行计算策略梯度,维持一个总的更新量^[8].针对TRPO标准解法计算量过大的问题,OpenAI于2016 年提出了利用一阶梯度的PPO算法,并用随机梯度下降的方法更新参数^[17].Google在此启发下,基于PPO算法提出了分布式的DPPO (distributed proximal policy optimization),并取得了优异的结果^[36].鉴于PPO算法依旧沿着策略梯度方向进行参数更新,2017年8月,多伦多大学和纽约大学联合提出ACKTR算法,其通过引入计算参数的自然策略梯度来加速PPO算法的收敛速度^[37]. ...

Modelling irregular small bodies gravity field via extreme learning machines

1

2017

... 在某些控制问题中,动力学部分$F_{\text{dk}} ( x, u)$尽管已知,但是计算量庞大.在这种情况下,机器学习算法可用于拟合动力学$F_{\text{dk}}( x, u)$部分,在保证精度的前提下实现计算效率的提升.例如,Furfaro等^[9]采用极限学习机(extreme learning machines)学习不规则小行星的引力场,在确保一定拟合精度的同时大幅提高了引力场计算效率.Song等^[10]采用深度神经网络拟合不规则引力场,并将其应用于小行星着陆轨迹规划中,取得了良好的效果.Cheng等^[11-12]进一步将神经网络引力场模型应用于小行星着陆轨迹的快速同伦和智能着陆控制器学习中.此外,Wei等^[13]采用Serendipity(偶然)插值技术来拟合小行星引力场的起伏,从而获得高计算效率、高精度的小行星引力场模型. ...

Fast estimation of gravitational field of irregular asteroids based on deep neural network and its application

1

2019

... 在某些控制问题中,动力学部分$F_{\text{dk}} ( x, u)$尽管已知,但是计算量庞大.在这种情况下,机器学习算法可用于拟合动力学$F_{\text{dk}}( x, u)$部分,在保证精度的前提下实现计算效率的提升.例如,Furfaro等^[9]采用极限学习机(extreme learning machines)学习不规则小行星的引力场,在确保一定拟合精度的同时大幅提高了引力场计算效率.Song等^[10]采用深度神经网络拟合不规则引力场,并将其应用于小行星着陆轨迹规划中,取得了良好的效果.Cheng等^[11-12]进一步将神经网络引力场模型应用于小行星着陆轨迹的快速同伦和智能着陆控制器学习中.此外,Wei等^[13]采用Serendipity(偶然)插值技术来拟合小行星引力场的起伏,从而获得高计算效率、高精度的小行星引力场模型. ...

Fast solution continuation of time-optimal asteroid landing trajectories using deep neural networks

1

2020

... 在某些控制问题中,动力学部分$F_{\text{dk}} ( x, u)$尽管已知,但是计算量庞大.在这种情况下,机器学习算法可用于拟合动力学$F_{\text{dk}}( x, u)$部分,在保证精度的前提下实现计算效率的提升.例如,Furfaro等^[9]采用极限学习机(extreme learning machines)学习不规则小行星的引力场,在确保一定拟合精度的同时大幅提高了引力场计算效率.Song等^[10]采用深度神经网络拟合不规则引力场,并将其应用于小行星着陆轨迹规划中,取得了良好的效果.Cheng等^[11-12]进一步将神经网络引力场模型应用于小行星着陆轨迹的快速同伦和智能着陆控制器学习中.此外,Wei等^[13]采用Serendipity(偶然)插值技术来拟合小行星引力场的起伏,从而获得高计算效率、高精度的小行星引力场模型. ...

Real-time optimal control for irregular asteroid landings using deep neural networks

1

2019

... 在某些控制问题中,动力学部分$F_{\text{dk}} ( x, u)$尽管已知,但是计算量庞大.在这种情况下,机器学习算法可用于拟合动力学$F_{\text{dk}}( x, u)$部分,在保证精度的前提下实现计算效率的提升.例如,Furfaro等^[9]采用极限学习机(extreme learning machines)学习不规则小行星的引力场,在确保一定拟合精度的同时大幅提高了引力场计算效率.Song等^[10]采用深度神经网络拟合不规则引力场,并将其应用于小行星着陆轨迹规划中,取得了良好的效果.Cheng等^[11-12]进一步将神经网络引力场模型应用于小行星着陆轨迹的快速同伦和智能着陆控制器学习中.此外,Wei等^[13]采用Serendipity(偶然)插值技术来拟合小行星引力场的起伏,从而获得高计算效率、高精度的小行星引力场模型. ...

Hybrid model of gravitational fields around small bodies for efficient trajectory propagations

2

2020

... 在某些控制问题中,动力学部分$F_{\text{dk}} ( x, u)$尽管已知,但是计算量庞大.在这种情况下,机器学习算法可用于拟合动力学$F_{\text{dk}}( x, u)$部分,在保证精度的前提下实现计算效率的提升.例如,Furfaro等^[9]采用极限学习机(extreme learning machines)学习不规则小行星的引力场,在确保一定拟合精度的同时大幅提高了引力场计算效率.Song等^[10]采用深度神经网络拟合不规则引力场,并将其应用于小行星着陆轨迹规划中,取得了良好的效果.Cheng等^[11-12]进一步将神经网络引力场模型应用于小行星着陆轨迹的快速同伦和智能着陆控制器学习中.此外,Wei等^[13]采用Serendipity(偶然)插值技术来拟合小行星引力场的起伏,从而获得高计算效率、高精度的小行星引力场模型. ...

... 另一方面,基于模型的策略学习在飞行控制任务中具有以下优势.第一,基于牛顿力学或分析力学可获取动力学模型的基本形式和解析表达式,这些先验信息的充分利用可有效降低问题的复杂性和学习样本的需求量.例如,速度和位置的关系是明确的、解析的.第二,精确构建被控对象的动力学模型,可有效降低智能控制器与实物的交互需求,从而降低学习成本.当然,被控对象动力学模型越准确,与实物交互的需求降低效果越明显.这也间接说明了打造具有自学习能力的智能动力学模型的必要性.在最新ANYmal四足复杂机器人智能控制系统构造中,数字动力学模型就被用于训练控制策略,并取得非常好的实际控制效果^[18].近五年,Model-based深度强化学习的研究也备受学者关注,其中构建精确的表征模型也是其关键技术之一^[13,19].文献^[20]基于高斯处理技术打造贝叶斯神经网络模型(Bayesian neural network dynamics model)跟本文式(4)具有相同的研究思路.区别在于,式(4)包含传统动力学模块$F_{\text{dk}} ( x, u)$,是一种复合模型,具有继承动力学理论分析结果的优势. ...

Exterior gravitation of a polyhedron derived and compared with harmonic and mascon gravitation representations of asteroid 4769 Castalia

1

1996

... 其中,深度神经网络模块$Net_{\text{du}} ( x)$用来表征动力学中的$F_{\text{du}} ( x, u)$部分,$\epsilon_{\rm f}$表示拟合误差.为了实现模型的自我学习,文献^[3] 基于扩张观测技术提出了一种模型迭代学习算法,并给出了详细的算法稳定性证明.值得说明的是,文献^[3]为了保证后续间接法的求解需要,只考虑动力学$F_{\text{du}} ( x, u)$与控制变量$ u$无关的情况.式(2)也被尝试应用于小行星绕飞过程中的引力场在线学习.小行星探测器前期绕飞中,通过一定的反演算法,推算出当前位置下的引力场修正值.观测的引力场修正值与地面雷达或者光学估算值(例如多面体算法^[14])进行数据融合,从而实现智能动力学模型的在线调整与学习.基于引力场的学习效果,研究者还可以进一步对探测器绕飞轨道进行优化.当前,针对反演算法、数据融合算法、绕飞轨道的优化还在技术攻关中. ...

Deterministic policy gradient algorithms

2

2014

... 作者认为,精确动力学建模是实现飞行器智能飞行不可缺少的关键技术之一.目前,计算机领域崇尚Model-free的学习策略,即在不需要对被控对象精确建模的前提下,通过智能体与被控对象的不断交互和经验积累,最终实现智能体最佳控制策略的学习.近年来,深度强化学习领域出现的代表性算法也多为Model-free算法,例如 DDPG (deterministic policy gradient algorithms)^[15],A3C (actor-critic)^[8],区域信赖策略优化 (trust region policy optimization, TRPO)^[16],PPO (proximal policy optimization)^[17]等.尽管Model-free的学习策略在实践中简单易执行且具有良好的收敛性,但是Model-free强化学习算法也存在明显的缺点,包括随机动作探索引发的学习效率低下、约束无法严格保障、以及训练样本的海量需求.在不解决以上难题的情况下,作者认为Model-free 强化学习算法难以直接应用于飞行控制器的设计任务中. ...

... 深度强化学习是采用深度神经网络做函数拟合的一类新兴强化学习算法,特别适合解决复杂大维度应用场景问题,并已经在围棋AlphaZero算法中得到技术验证^[7].在连续动作空间最优控制问题上,2014年,Deepmind团队在总结DQN^[35]和Actor-Critic方法基础上,提出了DDPG方法^[15],实验表明,DDPG算法在连续动作空间任务中表现稳定,且计算量远远低于同水平DQN.Schulman等^[16]于2015 年提出了TRPO方法,此方法通过强制限制同一批次数据新旧两种策略预测分布的KL差距,避免参数更新中策略发生太大改变,从而提高了算法的收敛性能. 2016年, Deepmind团队提出了A3C异步强化学习架构,其在采用深度强化学习Actor-Critic框架基础上,利用多个智能体共同探索,并行计算策略梯度,维持一个总的更新量^[8].针对TRPO标准解法计算量过大的问题,OpenAI于2016 年提出了利用一阶梯度的PPO算法,并用随机梯度下降的方法更新参数^[17].Google在此启发下,基于PPO算法提出了分布式的DPPO (distributed proximal policy optimization),并取得了优异的结果^[36].鉴于PPO算法依旧沿着策略梯度方向进行参数更新,2017年8月,多伦多大学和纽约大学联合提出ACKTR算法,其通过引入计算参数的自然策略梯度来加速PPO算法的收敛速度^[37]. ...

Trust region policy optimization

2

2015

... 作者认为,精确动力学建模是实现飞行器智能飞行不可缺少的关键技术之一.目前,计算机领域崇尚Model-free的学习策略,即在不需要对被控对象精确建模的前提下,通过智能体与被控对象的不断交互和经验积累,最终实现智能体最佳控制策略的学习.近年来,深度强化学习领域出现的代表性算法也多为Model-free算法,例如 DDPG (deterministic policy gradient algorithms)^[15],A3C (actor-critic)^[8],区域信赖策略优化 (trust region policy optimization, TRPO)^[16],PPO (proximal policy optimization)^[17]等.尽管Model-free的学习策略在实践中简单易执行且具有良好的收敛性,但是Model-free强化学习算法也存在明显的缺点,包括随机动作探索引发的学习效率低下、约束无法严格保障、以及训练样本的海量需求.在不解决以上难题的情况下,作者认为Model-free 强化学习算法难以直接应用于飞行控制器的设计任务中. ...

... 深度强化学习是采用深度神经网络做函数拟合的一类新兴强化学习算法,特别适合解决复杂大维度应用场景问题,并已经在围棋AlphaZero算法中得到技术验证^[7].在连续动作空间最优控制问题上,2014年,Deepmind团队在总结DQN^[35]和Actor-Critic方法基础上,提出了DDPG方法^[15],实验表明,DDPG算法在连续动作空间任务中表现稳定,且计算量远远低于同水平DQN.Schulman等^[16]于2015 年提出了TRPO方法,此方法通过强制限制同一批次数据新旧两种策略预测分布的KL差距,避免参数更新中策略发生太大改变,从而提高了算法的收敛性能. 2016年, Deepmind团队提出了A3C异步强化学习架构,其在采用深度强化学习Actor-Critic框架基础上,利用多个智能体共同探索,并行计算策略梯度,维持一个总的更新量^[8].针对TRPO标准解法计算量过大的问题,OpenAI于2016 年提出了利用一阶梯度的PPO算法,并用随机梯度下降的方法更新参数^[17].Google在此启发下,基于PPO算法提出了分布式的DPPO (distributed proximal policy optimization),并取得了优异的结果^[36].鉴于PPO算法依旧沿着策略梯度方向进行参数更新,2017年8月,多伦多大学和纽约大学联合提出ACKTR算法,其通过引入计算参数的自然策略梯度来加速PPO算法的收敛速度^[37]. ...

Proximal policy optimization algorithms

2

1707

... 作者认为,精确动力学建模是实现飞行器智能飞行不可缺少的关键技术之一.目前,计算机领域崇尚Model-free的学习策略,即在不需要对被控对象精确建模的前提下,通过智能体与被控对象的不断交互和经验积累,最终实现智能体最佳控制策略的学习.近年来,深度强化学习领域出现的代表性算法也多为Model-free算法,例如 DDPG (deterministic policy gradient algorithms)^[15],A3C (actor-critic)^[8],区域信赖策略优化 (trust region policy optimization, TRPO)^[16],PPO (proximal policy optimization)^[17]等.尽管Model-free的学习策略在实践中简单易执行且具有良好的收敛性,但是Model-free强化学习算法也存在明显的缺点,包括随机动作探索引发的学习效率低下、约束无法严格保障、以及训练样本的海量需求.在不解决以上难题的情况下,作者认为Model-free 强化学习算法难以直接应用于飞行控制器的设计任务中. ...

... 深度强化学习是采用深度神经网络做函数拟合的一类新兴强化学习算法,特别适合解决复杂大维度应用场景问题,并已经在围棋AlphaZero算法中得到技术验证^[7].在连续动作空间最优控制问题上,2014年,Deepmind团队在总结DQN^[35]和Actor-Critic方法基础上,提出了DDPG方法^[15],实验表明,DDPG算法在连续动作空间任务中表现稳定,且计算量远远低于同水平DQN.Schulman等^[16]于2015 年提出了TRPO方法,此方法通过强制限制同一批次数据新旧两种策略预测分布的KL差距,避免参数更新中策略发生太大改变,从而提高了算法的收敛性能. 2016年, Deepmind团队提出了A3C异步强化学习架构,其在采用深度强化学习Actor-Critic框架基础上,利用多个智能体共同探索,并行计算策略梯度,维持一个总的更新量^[8].针对TRPO标准解法计算量过大的问题,OpenAI于2016 年提出了利用一阶梯度的PPO算法,并用随机梯度下降的方法更新参数^[17].Google在此启发下,基于PPO算法提出了分布式的DPPO (distributed proximal policy optimization),并取得了优异的结果^[36].鉴于PPO算法依旧沿着策略梯度方向进行参数更新,2017年8月,多伦多大学和纽约大学联合提出ACKTR算法,其通过引入计算参数的自然策略梯度来加速PPO算法的收敛速度^[37]. ...

Learning agile and dynamic motor skills for legged robots

1

2019

... 另一方面,基于模型的策略学习在飞行控制任务中具有以下优势.第一,基于牛顿力学或分析力学可获取动力学模型的基本形式和解析表达式,这些先验信息的充分利用可有效降低问题的复杂性和学习样本的需求量.例如,速度和位置的关系是明确的、解析的.第二,精确构建被控对象的动力学模型,可有效降低智能控制器与实物的交互需求,从而降低学习成本.当然,被控对象动力学模型越准确,与实物交互的需求降低效果越明显.这也间接说明了打造具有自学习能力的智能动力学模型的必要性.在最新ANYmal四足复杂机器人智能控制系统构造中,数字动力学模型就被用于训练控制策略,并取得非常好的实际控制效果^[18].近五年,Model-based深度强化学习的研究也备受学者关注,其中构建精确的表征模型也是其关键技术之一^[13,19].文献^[20]基于高斯处理技术打造贝叶斯神经网络模型(Bayesian neural network dynamics model)跟本文式(4)具有相同的研究思路.区别在于,式(4)包含传统动力学模块$F_{\text{dk}} ( x, u)$,是一种复合模型,具有继承动力学理论分析结果的优势. ...

Benchmarking model-based reinforcement learning

2

1907

... 另一方面,基于模型的策略学习在飞行控制任务中具有以下优势.第一,基于牛顿力学或分析力学可获取动力学模型的基本形式和解析表达式,这些先验信息的充分利用可有效降低问题的复杂性和学习样本的需求量.例如,速度和位置的关系是明确的、解析的.第二,精确构建被控对象的动力学模型,可有效降低智能控制器与实物的交互需求,从而降低学习成本.当然,被控对象动力学模型越准确,与实物交互的需求降低效果越明显.这也间接说明了打造具有自学习能力的智能动力学模型的必要性.在最新ANYmal四足复杂机器人智能控制系统构造中,数字动力学模型就被用于训练控制策略,并取得非常好的实际控制效果^[18].近五年,Model-based深度强化学习的研究也备受学者关注,其中构建精确的表征模型也是其关键技术之一^[13,19].文献^[20]基于高斯处理技术打造贝叶斯神经网络模型(Bayesian neural network dynamics model)跟本文式(4)具有相同的研究思路.区别在于,式(4)包含传统动力学模块$F_{\text{dk}} ( x, u)$,是一种复合模型,具有继承动力学理论分析结果的优势. ...

... Model-free强化学习算法不依赖被控对象的数学模型,智能体通过不断与被控对象的交互,总结动作的收益情况最终形成最优控制策略.Model-free强化学习算法在通用性和易用性上具有诱人的应用前景.然而,正如前文提到,Model-free强化学习算法在飞行控制中应用,存在收敛效率、约束管理和学习成本三个难题.在不解决以上难题的情况下,作者认为Model-free强化学习算法难以直接应用于飞行控制器的设计任务中.要想降低飞行控制中强化学习算法的学习成本,一种可行的方案是构建被控对象的数学模型(model),通过Model-free强化学习算法与数学模型的交互完成智能控制器的训练.例如,文献^[50] 将Model-free强化学习算法应用于火星着陆任务中.仿真试验表明,学习的智能控制器能够在六自由度控制中自主决策控制指令,并具有一定的控制鲁棒性.然而,终端等式约束和飞行最优性指标是以罚函数的形式添加到强化学习的Reward函数设计中,导致训练好的控制器只能实现约束和最优性的折衷.在已知动力学模型情况下,Model-based强化学习的研究也备受关注^[19]. ...

Improving Pilco with Bayesian neural network dynamics models

1

2016

... 另一方面,基于模型的策略学习在飞行控制任务中具有以下优势.第一,基于牛顿力学或分析力学可获取动力学模型的基本形式和解析表达式,这些先验信息的充分利用可有效降低问题的复杂性和学习样本的需求量.例如,速度和位置的关系是明确的、解析的.第二,精确构建被控对象的动力学模型,可有效降低智能控制器与实物的交互需求,从而降低学习成本.当然,被控对象动力学模型越准确,与实物交互的需求降低效果越明显.这也间接说明了打造具有自学习能力的智能动力学模型的必要性.在最新ANYmal四足复杂机器人智能控制系统构造中,数字动力学模型就被用于训练控制策略,并取得非常好的实际控制效果^[18].近五年,Model-based深度强化学习的研究也备受学者关注,其中构建精确的表征模型也是其关键技术之一^[13,19].文献^[20]基于高斯处理技术打造贝叶斯神经网络模型(Bayesian neural network dynamics model)跟本文式(4)具有相同的研究思路.区别在于,式(4)包含传统动力学模块$F_{\text{dk}} ( x, u)$,是一种复合模型,具有继承动力学理论分析结果的优势. ...

自抗扰控制器及其应用

1

1998

... 飞行器控制的主要目的是根据任务需求调整控制指令实现预定的控制规律.从具体实现途径来看,主要有反馈控制(基于李雅普诺夫稳定性定理)、最优控制(基于极小值原理)和深度强化学习(基于贝尔曼最优性原理)三种实现途径.其中基于当前状态解析生成控制指令的反馈控制具有易于实现、实时性好、稳定可靠的优点.反馈控制又可细分为Error-based方法(误差反馈方法,包括PID和增益调度PID等)和Model-based方法(模型反馈方法,包括动态逆、滑模、自适应控制等)^[21].Error-based方法不依赖被控对象的精确模型,方法简单易于实现,是目前工程中应用最为广泛的控制手段.与此同时,基于现代控制理论发展起来的Model-based控制方法能够根据被控对象动力学特点,精确控制被控对象状态的微分变化过程,从而能够充分发挥被动对象的动力学特性,实现更快、更稳的控制效果.图1给出了Model-based反馈控制方法的示意图.Model-based反馈控制的实现可分为两个操作：第一,算法根据反馈回来的状态和想要的控制目标设计出想要的状态微分变化,其中状态微分变化的不同设计策略也是动态逆、滑模等方法的主要区别;第二,算法根据微分动力学模型和想要的状态微分变化值反向计算需要的控制指令.然而,由于实际飞行控制中被控对象的动力学模型难以精确获得,这极大限制了Model-based方法在工程中的应用.为了解决此类问题,Model-based方法主要朝着两个方向改进,一个是提高算法的自适应性,即通过在线观测理想模型和实际模型的偏差$\Delta F$,并在反馈控制中实时补偿;二是提高算法的鲁棒性. ...

自抗扰控制器及其应用

1

1998

... 飞行器控制的主要目的是根据任务需求调整控制指令实现预定的控制规律.从具体实现途径来看,主要有反馈控制(基于李雅普诺夫稳定性定理)、最优控制(基于极小值原理)和深度强化学习(基于贝尔曼最优性原理)三种实现途径.其中基于当前状态解析生成控制指令的反馈控制具有易于实现、实时性好、稳定可靠的优点.反馈控制又可细分为Error-based方法(误差反馈方法,包括PID和增益调度PID等)和Model-based方法(模型反馈方法,包括动态逆、滑模、自适应控制等)^[21].Error-based方法不依赖被控对象的精确模型,方法简单易于实现,是目前工程中应用最为广泛的控制手段.与此同时,基于现代控制理论发展起来的Model-based控制方法能够根据被控对象动力学特点,精确控制被控对象状态的微分变化过程,从而能够充分发挥被动对象的动力学特性,实现更快、更稳的控制效果.图1给出了Model-based反馈控制方法的示意图.Model-based反馈控制的实现可分为两个操作：第一,算法根据反馈回来的状态和想要的控制目标设计出想要的状态微分变化,其中状态微分变化的不同设计策略也是动态逆、滑模等方法的主要区别;第二,算法根据微分动力学模型和想要的状态微分变化值反向计算需要的控制指令.然而,由于实际飞行控制中被控对象的动力学模型难以精确获得,这极大限制了Model-based方法在工程中的应用.为了解决此类问题,Model-based方法主要朝着两个方向改进,一个是提高算法的自适应性,即通过在线观测理想模型和实际模型的偏差$\Delta F$,并在反馈控制中实时补偿;二是提高算法的鲁棒性. ...

Survey of numerical methods fortrajectory optimization

1

1998

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

1

2011

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

1

2011

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

Fast homotopy method for asteroid landing trajectory optimization using approximate initial costates

1

2019

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

Practical techniques for low-thrust trajectory optimization with homotopic approach

2

2012

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

... [25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

基于在线模型辨识的飞行器多约束复合制导技术

1

2019

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

基于在线模型辨识的飞行器多约束复合制导技术

1

2019

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

高超声速滑翔式再入飞行器轨迹优化与制导方法研究

1

2008

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

高超声速滑翔式再入飞行器轨迹优化与制导方法研究

1

2008

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

Data-driven RLV multi-objective reentry trajectory optimization based on new QABC algorithm

1

2016

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

Reentry trajectory optimization for hypersonic vehicle based on improved gauss pseudospectral method

1

2017

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

Reentry trajectory optimization based on a multistage pseudospectral method

1

2014

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

Solving nonconvex optimal control problems by convex optimization

1

2014

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

Minimum-fuel low-thrust transfers for spacecraft: a convex approach

0

2018

Rapid generation of time-optimal trajectories for asteroid landing via convex optimization

1

2017

... 飞行控制的技术实现途径主要包括反馈控制、最优控制和强化学习.反馈控制基于当前状态解析计算控制指令,具有良好的实时性和算法收敛性,但是算法没有全局规划能力,对过程约束、终端约束和优化指标难以考量.飞行控制问题本质是最优控制问题,常见的最优控制数值求解方法包括间接法和直接法^[22].间接法利用 Pontryagin 极小值原理推导出最优控制的一阶必要条件,进而得到求解最优轨迹的两边边值问题^[23].从优点来看,间接法求解的结果精度比较高,且解满足一阶最优性.但是,在实际中,两边边值问题求解难度比较大,尤其是当控制量和状态量均存在约束时.除此之外,它还具有推导过程繁琐、通用性差、初始值难以估计、收敛域小等缺点.近年来,包括同伦技术^[24]、协态归一^[25]、启发式初始值搜索^[25]等策略用来改进间接法的性能,并取得良好的效果.得益于计算机性能的提升和数值仿真技术发展,自20世纪70年代以来,最优控制数值求解的另一重要分支——直接法得到兴起并被普遍采用^[26].直接法采用剖面参数化的方法将最优控制问题转化为参数优化问题,并采用非线性规划方法进行求解.根据对控制量和状态量是否参数化,直接法又可细分为只离散控制剖面的直接打靶法、同时离散控制剖面和状态剖面的配点法,以及只离散状态剖面的微分包含法^[27].直接打靶法是轨迹设计中常用的一种形式,大量方法(包括依赖梯度的最优化算法和随机启发式算法)都曾结合直接打靶法用来解决最优控制问题^[28]. 然而,由于直接打靶法中状态剖面只能靠弹道积分得到,整个算法的实时性比较差.近年来,以伪谱法^{[29 -30]}和凸优化^[31-33] 为代表的配点法凭借收敛速度和可靠性等优势而备受学者关注.然而,配点法面临维度爆炸、收敛域小、求解时间和精度严重依赖于初始猜测值等难题.总而言之,最优控制数值求解方法是目前最优控制问题的主流求解方法,求解稳定性和速度上也在逐年完善.然而,由于仍然不能满足飞行器在线控制的实时性要求,最优控制数值求解方法目前主要应用于离线的标称轨迹设计以及在线的标称轨迹紧急重构. ...

Deep reinforcement learning: a brief survey

1

2017

... 强化学习作为当今人工智能研究的一个重要研究方向,在解决连续动作空间的最优控制问题上优势不断凸显,并在机器人控制、自动驾驶等方面展现出很好的应用前景^[34]. 强化学习算法是机器学习算法的三大分支之一,它主要研究在交互环境下,智能体根据当前状态不断尝试动作并总结得失,最终实现累计效益最大化的控制策略(如图3所示). ...

Human-level control through deep reinforcement learning

1

2015

... 深度强化学习是采用深度神经网络做函数拟合的一类新兴强化学习算法,特别适合解决复杂大维度应用场景问题,并已经在围棋AlphaZero算法中得到技术验证^[7].在连续动作空间最优控制问题上,2014年,Deepmind团队在总结DQN^[35]和Actor-Critic方法基础上,提出了DDPG方法^[15],实验表明,DDPG算法在连续动作空间任务中表现稳定,且计算量远远低于同水平DQN.Schulman等^[16]于2015 年提出了TRPO方法,此方法通过强制限制同一批次数据新旧两种策略预测分布的KL差距,避免参数更新中策略发生太大改变,从而提高了算法的收敛性能. 2016年, Deepmind团队提出了A3C异步强化学习架构,其在采用深度强化学习Actor-Critic框架基础上,利用多个智能体共同探索,并行计算策略梯度,维持一个总的更新量^[8].针对TRPO标准解法计算量过大的问题,OpenAI于2016 年提出了利用一阶梯度的PPO算法,并用随机梯度下降的方法更新参数^[17].Google在此启发下,基于PPO算法提出了分布式的DPPO (distributed proximal policy optimization),并取得了优异的结果^[36].鉴于PPO算法依旧沿着策略梯度方向进行参数更新,2017年8月,多伦多大学和纽约大学联合提出ACKTR算法,其通过引入计算参数的自然策略梯度来加速PPO算法的收敛速度^[37]. ...

Emergence of locomotion behaviours in rich environments

1

2017

... 深度强化学习是采用深度神经网络做函数拟合的一类新兴强化学习算法,特别适合解决复杂大维度应用场景问题,并已经在围棋AlphaZero算法中得到技术验证^[7].在连续动作空间最优控制问题上,2014年,Deepmind团队在总结DQN^[35]和Actor-Critic方法基础上,提出了DDPG方法^[15],实验表明,DDPG算法在连续动作空间任务中表现稳定,且计算量远远低于同水平DQN.Schulman等^[16]于2015 年提出了TRPO方法,此方法通过强制限制同一批次数据新旧两种策略预测分布的KL差距,避免参数更新中策略发生太大改变,从而提高了算法的收敛性能. 2016年, Deepmind团队提出了A3C异步强化学习架构,其在采用深度强化学习Actor-Critic框架基础上,利用多个智能体共同探索,并行计算策略梯度,维持一个总的更新量^[8].针对TRPO标准解法计算量过大的问题,OpenAI于2016 年提出了利用一阶梯度的PPO算法,并用随机梯度下降的方法更新参数^[17].Google在此启发下,基于PPO算法提出了分布式的DPPO (distributed proximal policy optimization),并取得了优异的结果^[36].鉴于PPO算法依旧沿着策略梯度方向进行参数更新,2017年8月,多伦多大学和纽约大学联合提出ACKTR算法,其通过引入计算参数的自然策略梯度来加速PPO算法的收敛速度^[37]. ...

Scalable trust-region method for deep reinforcement learning using kronecker-factored approximation

1

2017

... 深度强化学习是采用深度神经网络做函数拟合的一类新兴强化学习算法,特别适合解决复杂大维度应用场景问题,并已经在围棋AlphaZero算法中得到技术验证^[7].在连续动作空间最优控制问题上,2014年,Deepmind团队在总结DQN^[35]和Actor-Critic方法基础上,提出了DDPG方法^[15],实验表明,DDPG算法在连续动作空间任务中表现稳定,且计算量远远低于同水平DQN.Schulman等^[16]于2015 年提出了TRPO方法,此方法通过强制限制同一批次数据新旧两种策略预测分布的KL差距,避免参数更新中策略发生太大改变,从而提高了算法的收敛性能. 2016年, Deepmind团队提出了A3C异步强化学习架构,其在采用深度强化学习Actor-Critic框架基础上,利用多个智能体共同探索,并行计算策略梯度,维持一个总的更新量^[8].针对TRPO标准解法计算量过大的问题,OpenAI于2016 年提出了利用一阶梯度的PPO算法,并用随机梯度下降的方法更新参数^[17].Google在此启发下,基于PPO算法提出了分布式的DPPO (distributed proximal policy optimization),并取得了优异的结果^[36].鉴于PPO算法依旧沿着策略梯度方向进行参数更新,2017年8月,多伦多大学和纽约大学联合提出ACKTR算法,其通过引入计算参数的自然策略梯度来加速PPO算法的收敛速度^[37]. ...

Learning the optimal state-feedback using deep networks

1

2016

... 虽然最优控制数值求解方法在在线飞行控制中实时性不足,但是其求解效率高、算法收敛性好.在动力学模型已知的情况下,可以通过收集最优控制数值方法生成的飞行控制样本,离线训练深度神经网络,并应用于在线飞行控制中.这是人工智能应用于飞行控制中最为直接的方案之一.针对着陆控制问题,Sanchez-Sanchez等^[38-39]基于间接法生成的求解数据,采用监督学习的方式训练深度神经网络,仿真表明,训练得到的智能控制器能够实时驱动被控对象完成比较精确的着陆.在月球着陆控制任务中,Furfaro等^[40]采用GPOPS 产生训练数据训练卷积神经网络(convolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练得到的智能控制器能够基于图像数据自主决策控制指令.文献^{[41,42,43,44]}将类似方案应用于小行星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都取得不错的仿真效果.Izzo等^[45]讨论了深度学习对控制指令、价值函数、协态(价值函数梯度)的三种拟合策略,并得出对控制指令和协态进行拟合的策略表现更好的结论.在文献^[46] 中,训练好的神经网络被用来实时决策飞行器姿态脉冲发动机的开关,验证了此方案在离散控制决策问题上的可能性. ...

Real-time optimal control via deep neural networks: study on landing problems

2

2018

... 虽然最优控制数值求解方法在在线飞行控制中实时性不足,但是其求解效率高、算法收敛性好.在动力学模型已知的情况下,可以通过收集最优控制数值方法生成的飞行控制样本,离线训练深度神经网络,并应用于在线飞行控制中.这是人工智能应用于飞行控制中最为直接的方案之一.针对着陆控制问题,Sanchez-Sanchez等^[38-39]基于间接法生成的求解数据,采用监督学习的方式训练深度神经网络,仿真表明,训练得到的智能控制器能够实时驱动被控对象完成比较精确的着陆.在月球着陆控制任务中,Furfaro等^[40]采用GPOPS 产生训练数据训练卷积神经网络(convolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练得到的智能控制器能够基于图像数据自主决策控制指令.文献^{[41,42,43,44]}将类似方案应用于小行星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都取得不错的仿真效果.Izzo等^[45]讨论了深度学习对控制指令、价值函数、协态(价值函数梯度)的三种拟合策略,并得出对控制指令和协态进行拟合的策略表现更好的结论.在文献^[46] 中,训练好的神经网络被用来实时决策飞行器姿态脉冲发动机的开关,验证了此方案在离散控制决策问题上的可能性. ...

... 为实现智能控制器任意状态的拟合,神经网络的训练往往需要大量数据支持.如何快速产生大量数据需要一定的技巧.在间接法生成训练数据中,文献^[39]采用如下策略：首先,在上一个状态周围随机产生下一个样本状态;然后,以上一个状态的协态值作为下一个状态协态求解的初始猜测.周而复始逐步生成样本集.在此基础上,文献^[47]采用了一种遍历状态空间的样本生成策略,在保证样本快速生成的前提下,确保了样本集对搜索空间的覆盖性.同样,同伦技术也可用来提升样本的生成效率^[41].Izzo等^[45]基于极小值原理,提出了基于反向积分快速获取样本的思路.虽然该套方法在样本覆盖性、搜索空间边界上还需要进一步开展研究,但是通过单次轨迹反向积分即可获取最优轨迹的策略在算法效率上表现出无与伦比的优势. ...

Deep learning for autonomous lunar landing

1

2018

... 虽然最优控制数值求解方法在在线飞行控制中实时性不足,但是其求解效率高、算法收敛性好.在动力学模型已知的情况下,可以通过收集最优控制数值方法生成的飞行控制样本,离线训练深度神经网络,并应用于在线飞行控制中.这是人工智能应用于飞行控制中最为直接的方案之一.针对着陆控制问题,Sanchez-Sanchez等^[38-39]基于间接法生成的求解数据,采用监督学习的方式训练深度神经网络,仿真表明,训练得到的智能控制器能够实时驱动被控对象完成比较精确的着陆.在月球着陆控制任务中,Furfaro等^[40]采用GPOPS 产生训练数据训练卷积神经网络(convolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练得到的智能控制器能够基于图像数据自主决策控制指令.文献^{[41,42,43,44]}将类似方案应用于小行星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都取得不错的仿真效果.Izzo等^[45]讨论了深度学习对控制指令、价值函数、协态(价值函数梯度)的三种拟合策略,并得出对控制指令和协态进行拟合的策略表现更好的结论.在文献^[46] 中,训练好的神经网络被用来实时决策飞行器姿态脉冲发动机的开关,验证了此方案在离散控制决策问题上的可能性. ...

Real-time optimal control for irregular asteroid landings using deep neural networks

2

2020

... 虽然最优控制数值求解方法在在线飞行控制中实时性不足,但是其求解效率高、算法收敛性好.在动力学模型已知的情况下,可以通过收集最优控制数值方法生成的飞行控制样本,离线训练深度神经网络,并应用于在线飞行控制中.这是人工智能应用于飞行控制中最为直接的方案之一.针对着陆控制问题,Sanchez-Sanchez等^[38-39]基于间接法生成的求解数据,采用监督学习的方式训练深度神经网络,仿真表明,训练得到的智能控制器能够实时驱动被控对象完成比较精确的着陆.在月球着陆控制任务中,Furfaro等^[40]采用GPOPS 产生训练数据训练卷积神经网络(convolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练得到的智能控制器能够基于图像数据自主决策控制指令.文献^{[41,42,43,44]}将类似方案应用于小行星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都取得不错的仿真效果.Izzo等^[45]讨论了深度学习对控制指令、价值函数、协态(价值函数梯度)的三种拟合策略,并得出对控制指令和协态进行拟合的策略表现更好的结论.在文献^[46] 中,训练好的神经网络被用来实时决策飞行器姿态脉冲发动机的开关,验证了此方案在离散控制决策问题上的可能性. ...

... 为实现智能控制器任意状态的拟合,神经网络的训练往往需要大量数据支持.如何快速产生大量数据需要一定的技巧.在间接法生成训练数据中,文献^[39]采用如下策略：首先,在上一个状态周围随机产生下一个样本状态;然后,以上一个状态的协态值作为下一个状态协态求解的初始猜测.周而复始逐步生成样本集.在此基础上,文献^[47]采用了一种遍历状态空间的样本生成策略,在保证样本快速生成的前提下,确保了样本集对搜索空间的覆盖性.同样,同伦技术也可用来提升样本的生成效率^[41].Izzo等^[45]基于极小值原理,提出了基于反向积分快速获取样本的思路.虽然该套方法在样本覆盖性、搜索空间边界上还需要进一步开展研究,但是通过单次轨迹反向积分即可获取最优轨迹的策略在算法效率上表现出无与伦比的优势. ...

Learning-based optimal control for planetary entry, powered descent and landing guidance

1

2020

... 虽然最优控制数值求解方法在在线飞行控制中实时性不足,但是其求解效率高、算法收敛性好.在动力学模型已知的情况下,可以通过收集最优控制数值方法生成的飞行控制样本,离线训练深度神经网络,并应用于在线飞行控制中.这是人工智能应用于飞行控制中最为直接的方案之一.针对着陆控制问题,Sanchez-Sanchez等^[38-39]基于间接法生成的求解数据,采用监督学习的方式训练深度神经网络,仿真表明,训练得到的智能控制器能够实时驱动被控对象完成比较精确的着陆.在月球着陆控制任务中,Furfaro等^[40]采用GPOPS 产生训练数据训练卷积神经网络(convolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练得到的智能控制器能够基于图像数据自主决策控制指令.文献^{[41,42,43,44]}将类似方案应用于小行星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都取得不错的仿真效果.Izzo等^[45]讨论了深度学习对控制指令、价值函数、协态(价值函数梯度)的三种拟合策略,并得出对控制指令和协态进行拟合的策略表现更好的结论.在文献^[46] 中,训练好的神经网络被用来实时决策飞行器姿态脉冲发动机的开关,验证了此方案在离散控制决策问题上的可能性. ...

Neural networks in time-optimal low-thrust interplanetary transfers

1

2019

... 虽然最优控制数值求解方法在在线飞行控制中实时性不足,但是其求解效率高、算法收敛性好.在动力学模型已知的情况下,可以通过收集最优控制数值方法生成的飞行控制样本,离线训练深度神经网络,并应用于在线飞行控制中.这是人工智能应用于飞行控制中最为直接的方案之一.针对着陆控制问题,Sanchez-Sanchez等^[38-39]基于间接法生成的求解数据,采用监督学习的方式训练深度神经网络,仿真表明,训练得到的智能控制器能够实时驱动被控对象完成比较精确的着陆.在月球着陆控制任务中,Furfaro等^[40]采用GPOPS 产生训练数据训练卷积神经网络(convolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练得到的智能控制器能够基于图像数据自主决策控制指令.文献^{[41,42,43,44]}将类似方案应用于小行星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都取得不错的仿真效果.Izzo等^[45]讨论了深度学习对控制指令、价值函数、协态(价值函数梯度)的三种拟合策略,并得出对控制指令和协态进行拟合的策略表现更好的结论.在文献^[46] 中,训练好的神经网络被用来实时决策飞行器姿态脉冲发动机的开关,验证了此方案在离散控制决策问题上的可能性. ...

Learning trajectories for real-time optimal control of quadrotors

1

2018

... 虽然最优控制数值求解方法在在线飞行控制中实时性不足,但是其求解效率高、算法收敛性好.在动力学模型已知的情况下,可以通过收集最优控制数值方法生成的飞行控制样本,离线训练深度神经网络,并应用于在线飞行控制中.这是人工智能应用于飞行控制中最为直接的方案之一.针对着陆控制问题,Sanchez-Sanchez等^[38-39]基于间接法生成的求解数据,采用监督学习的方式训练深度神经网络,仿真表明,训练得到的智能控制器能够实时驱动被控对象完成比较精确的着陆.在月球着陆控制任务中,Furfaro等^[40]采用GPOPS 产生训练数据训练卷积神经网络(convolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练得到的智能控制器能够基于图像数据自主决策控制指令.文献^{[41,42,43,44]}将类似方案应用于小行星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都取得不错的仿真效果.Izzo等^[45]讨论了深度学习对控制指令、价值函数、协态(价值函数梯度)的三种拟合策略,并得出对控制指令和协态进行拟合的策略表现更好的结论.在文献^[46] 中,训练好的神经网络被用来实时决策飞行器姿态脉冲发动机的开关,验证了此方案在离散控制决策问题上的可能性. ...

Interplanetary transfers via deep representations of the optimal policy and/or of the value function

2

2019

... 虽然最优控制数值求解方法在在线飞行控制中实时性不足,但是其求解效率高、算法收敛性好.在动力学模型已知的情况下,可以通过收集最优控制数值方法生成的飞行控制样本,离线训练深度神经网络,并应用于在线飞行控制中.这是人工智能应用于飞行控制中最为直接的方案之一.针对着陆控制问题,Sanchez-Sanchez等^[38-39]基于间接法生成的求解数据,采用监督学习的方式训练深度神经网络,仿真表明,训练得到的智能控制器能够实时驱动被控对象完成比较精确的着陆.在月球着陆控制任务中,Furfaro等^[40]采用GPOPS 产生训练数据训练卷积神经网络(convolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练得到的智能控制器能够基于图像数据自主决策控制指令.文献^{[41,42,43,44]}将类似方案应用于小行星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都取得不错的仿真效果.Izzo等^[45]讨论了深度学习对控制指令、价值函数、协态(价值函数梯度)的三种拟合策略,并得出对控制指令和协态进行拟合的策略表现更好的结论.在文献^[46] 中,训练好的神经网络被用来实时决策飞行器姿态脉冲发动机的开关,验证了此方案在离散控制决策问题上的可能性. ...

... 为实现智能控制器任意状态的拟合,神经网络的训练往往需要大量数据支持.如何快速产生大量数据需要一定的技巧.在间接法生成训练数据中,文献^[39]采用如下策略：首先,在上一个状态周围随机产生下一个样本状态;然后,以上一个状态的协态值作为下一个状态协态求解的初始猜测.周而复始逐步生成样本集.在此基础上,文献^[47]采用了一种遍历状态空间的样本生成策略,在保证样本快速生成的前提下,确保了样本集对搜索空间的覆盖性.同样,同伦技术也可用来提升样本的生成效率^[41].Izzo等^[45]基于极小值原理,提出了基于反向积分快速获取样本的思路.虽然该套方法在样本覆盖性、搜索空间边界上还需要进一步开展研究,但是通过单次轨迹反向积分即可获取最优轨迹的策略在算法效率上表现出无与伦比的优势. ...

Neural-network-based optimal attitude control using four impulsive thrusters

1

2020

... 虽然最优控制数值求解方法在在线飞行控制中实时性不足,但是其求解效率高、算法收敛性好.在动力学模型已知的情况下,可以通过收集最优控制数值方法生成的飞行控制样本,离线训练深度神经网络,并应用于在线飞行控制中.这是人工智能应用于飞行控制中最为直接的方案之一.针对着陆控制问题,Sanchez-Sanchez等^[38-39]基于间接法生成的求解数据,采用监督学习的方式训练深度神经网络,仿真表明,训练得到的智能控制器能够实时驱动被控对象完成比较精确的着陆.在月球着陆控制任务中,Furfaro等^[40]采用GPOPS 产生训练数据训练卷积神经网络(convolutional neural networks, CNN) 和循环神经网络(recurrent neural networks, RNN),训练得到的智能控制器能够基于图像数据自主决策控制指令.文献^{[41,42,43,44]}将类似方案应用于小行星着陆、火星着陆以及小推力多圈轨迹转移、四旋翼无人机机动中,都取得不错的仿真效果.Izzo等^[45]讨论了深度学习对控制指令、价值函数、协态(价值函数梯度)的三种拟合策略,并得出对控制指令和协态进行拟合的策略表现更好的结论.在文献^[46] 中,训练好的神经网络被用来实时决策飞行器姿态脉冲发动机的开关,验证了此方案在离散控制决策问题上的可能性. ...

Fast generation of optimal asteroid landing trajectories using deep neural networks

3

2019

... 为实现智能控制器任意状态的拟合,神经网络的训练往往需要大量数据支持.如何快速产生大量数据需要一定的技巧.在间接法生成训练数据中,文献^[39]采用如下策略：首先,在上一个状态周围随机产生下一个样本状态;然后,以上一个状态的协态值作为下一个状态协态求解的初始猜测.周而复始逐步生成样本集.在此基础上,文献^[47]采用了一种遍历状态空间的样本生成策略,在保证样本快速生成的前提下,确保了样本集对搜索空间的覆盖性.同样,同伦技术也可用来提升样本的生成效率^[41].Izzo等^[45]基于极小值原理,提出了基于反向积分快速获取样本的思路.虽然该套方法在样本覆盖性、搜索空间边界上还需要进一步开展研究,但是通过单次轨迹反向积分即可获取最优轨迹的策略在算法效率上表现出无与伦比的优势. ...

... 产生样本并训练网络.在线状态下,且未知动力学项已经探明后,原问题(1)的解可由问题(5)的解延拓得到.文献^[47]针对小行星着陆问题给出了一套解决方案.在此论文中,通过模型简化和线性转换,小行星着陆问题可被简化为一个二维空间转移问题.间接法离线求解二维空间转移问题,产生的控制样本用来训练神经网络.仿真表明,神经网络可为二维转移问题提供100%收敛的初始解.在此基础上,原小行星着陆问题可基于反向模型延拓技术而快速求解. 此外,论文还设计了初值生成备用策略,进一步提升求解的可靠性. ...

... 由于未知动力学部分可以在神经网络离线训练中临时舍弃,等动力学探明之后再补充进来,所以算法的适应性比较好.例如文献^[47],由于忽略了小行星的自转和引力场,因此训练好的神经网络适用于在任何小行星任意地点的着陆任务.与此同时,由于神经网络只是为最优控制方法提供初值,单纯起辅助作用,因此整套方案的可靠性也有所保障,这一点在工程中尤为重视. ...

Real-time optimal control for spacecraft orbit transfer via multi-scale deep neural networks

2

2019

... 神经网络应用于飞行控制中最受诟病的一点是,神经网络是一个黑盒子,其控制效果难以解析分析.为了提升智能控制器的可靠性,文献^[48]在太阳帆轨迹转移中,采用多个尺度的神经网络相互配合,从而保证神经网络能够识别$10^{- 7}$量级的状态误差,最终实现飞行器高精度入轨.在月球着陆任务中,文献^[49]提出智能控制和反馈控制复合的控制策略,从而保证飞行器在大范围机动中呈现最优性而在最后着陆阶段又兼具高可靠性. ...

... 鉴于最优控制数值方法相比Model-free强化学习算法在求解效率和约束满足情况都有显著的优势,文献^[48]提出一种Actor-Indirect method交互式策略学习架构.在此架构中,间接法(indirect method)求解飞行控制问题,提供样本训练神经网络Actor(神经网络既学习控制指令又学习协态),而神经网络Actor反过来为间接法提供良好的协态初值从而促进间接法的打靶效率.在交互式策略学习架构中,随着学习的深入,神经网络Actor辅助间接法求解的作用不断强化.仿真表明,在太阳帆轨迹转移、小行星着陆任务中,神经网络Actor后期可为间接法提供收敛率接近100%的良好初值.虽然此交互式学习策略能不能算作Model-based强化学习算法尚待学术界商榷,但是最优控制数值方法和神经网络之间的相互强化作用却是明确的. ...

Real-time control for fuel-optimal moon landing based on an interactive deep reinforcement learning algorithm

1

2019

... 神经网络应用于飞行控制中最受诟病的一点是,神经网络是一个黑盒子,其控制效果难以解析分析.为了提升智能控制器的可靠性,文献^[48]在太阳帆轨迹转移中,采用多个尺度的神经网络相互配合,从而保证神经网络能够识别$10^{- 7}$量级的状态误差,最终实现飞行器高精度入轨.在月球着陆任务中,文献^[49]提出智能控制和反馈控制复合的控制策略,从而保证飞行器在大范围机动中呈现最优性而在最后着陆阶段又兼具高可靠性. ...

Deep reinforcement learning for six degree-of-freedom planetary landing

1

2020

... Model-free强化学习算法不依赖被控对象的数学模型,智能体通过不断与被控对象的交互,总结动作的收益情况最终形成最优控制策略.Model-free强化学习算法在通用性和易用性上具有诱人的应用前景.然而,正如前文提到,Model-free强化学习算法在飞行控制中应用,存在收敛效率、约束管理和学习成本三个难题.在不解决以上难题的情况下,作者认为Model-free强化学习算法难以直接应用于飞行控制器的设计任务中.要想降低飞行控制中强化学习算法的学习成本,一种可行的方案是构建被控对象的数学模型(model),通过Model-free强化学习算法与数学模型的交互完成智能控制器的训练.例如,文献^[50] 将Model-free强化学习算法应用于火星着陆任务中.仿真试验表明,学习的智能控制器能够在六自由度控制中自主决策控制指令,并具有一定的控制鲁棒性.然而,终端等式约束和飞行最优性指标是以罚函数的形式添加到强化学习的Reward函数设计中,导致训练好的控制器只能实现约束和最优性的折衷.在已知动力学模型情况下,Model-based强化学习的研究也备受关注^[19]. ...

Machine learning of optimal low-thrust transfers between near-earth objects

1

2017

... 人工智能算法在飞行任务设计方面同样具有出色的应用前景.传统上,需要对整个飞行问题进行确定性的求解,才能评估任务执行的总体性能.虽然预估精度可以保证,但是整个过程往往耗时耗力.机器学习基于历史经验数据,能够近似拟合状态和总体性能之间的非线性函数关系.基于机器学习算法的总体性能快速预估对于整个任务优化效率的提升具有显著效果.机器学习算法尤其适用于对飞行性能预估精度有一定容忍、但是对预估快速性具有较高要求的任务设计场景.由于飞行任务优化问题的各式各样,深度学习在任务设计中的具体应用形式也呈现多样性.文献^[51,52,53]运用深度神经网络拟合小推力轨迹转移中的质量消耗,实现了良好精度的燃料消耗快速预估.Song等^[54]利用深度神经网络拟合太阳帆转移中的最小时间,为太阳帆的小行星探测序列快速规划提供依据.在文献^[55]中,深度学习被用来支持飞机防碰撞预警系统的决策.基于历史观测数据,深度学习可用来提升卫星轨道的预测精度^[56].此外,深度学习还被用于小推力探测器轨道转移可达性的预测任务中^[53]. 深度学习在飞行器射程的预测、小行星轨道的稳定性分析、卫星可达域的预测、卫星的碎片预警等任务中也呈现出色的应用潜力. ...

Deep networks as approximators of optimal low-thrust and multi impulse cost in multitarget missions

1

2020

... 人工智能算法在飞行任务设计方面同样具有出色的应用前景.传统上,需要对整个飞行问题进行确定性的求解,才能评估任务执行的总体性能.虽然预估精度可以保证,但是整个过程往往耗时耗力.机器学习基于历史经验数据,能够近似拟合状态和总体性能之间的非线性函数关系.基于机器学习算法的总体性能快速预估对于整个任务优化效率的提升具有显著效果.机器学习算法尤其适用于对飞行性能预估精度有一定容忍、但是对预估快速性具有较高要求的任务设计场景.由于飞行任务优化问题的各式各样,深度学习在任务设计中的具体应用形式也呈现多样性.文献^[51,52,53]运用深度神经网络拟合小推力轨迹转移中的质量消耗,实现了良好精度的燃料消耗快速预估.Song等^[54]利用深度神经网络拟合太阳帆转移中的最小时间,为太阳帆的小行星探测序列快速规划提供依据.在文献^[55]中,深度学习被用来支持飞机防碰撞预警系统的决策.基于历史观测数据,深度学习可用来提升卫星轨道的预测精度^[56].此外,深度学习还被用于小推力探测器轨道转移可达性的预测任务中^[53]. 深度学习在飞行器射程的预测、小行星轨道的稳定性分析、卫星可达域的预测、卫星的碎片预警等任务中也呈现出色的应用潜力. ...

Fast evaluation of low-thrust transfers via multilayer perceptions

2

2019

... 人工智能算法在飞行任务设计方面同样具有出色的应用前景.传统上,需要对整个飞行问题进行确定性的求解,才能评估任务执行的总体性能.虽然预估精度可以保证,但是整个过程往往耗时耗力.机器学习基于历史经验数据,能够近似拟合状态和总体性能之间的非线性函数关系.基于机器学习算法的总体性能快速预估对于整个任务优化效率的提升具有显著效果.机器学习算法尤其适用于对飞行性能预估精度有一定容忍、但是对预估快速性具有较高要求的任务设计场景.由于飞行任务优化问题的各式各样,深度学习在任务设计中的具体应用形式也呈现多样性.文献^[51,52,53]运用深度神经网络拟合小推力轨迹转移中的质量消耗,实现了良好精度的燃料消耗快速预估.Song等^[54]利用深度神经网络拟合太阳帆转移中的最小时间,为太阳帆的小行星探测序列快速规划提供依据.在文献^[55]中,深度学习被用来支持飞机防碰撞预警系统的决策.基于历史观测数据,深度学习可用来提升卫星轨道的预测精度^[56].此外,深度学习还被用于小推力探测器轨道转移可达性的预测任务中^[53]. 深度学习在飞行器射程的预测、小行星轨道的稳定性分析、卫星可达域的预测、卫星的碎片预警等任务中也呈现出色的应用潜力. ...

... [53]. 深度学习在飞行器射程的预测、小行星轨道的稳定性分析、卫星可达域的预测、卫星的碎片预警等任务中也呈现出色的应用潜力. ...

Solar-sail trajectory design for multiple near-earth asteroid exploration based on deep neural networks

1

2019

... 人工智能算法在飞行任务设计方面同样具有出色的应用前景.传统上,需要对整个飞行问题进行确定性的求解,才能评估任务执行的总体性能.虽然预估精度可以保证,但是整个过程往往耗时耗力.机器学习基于历史经验数据,能够近似拟合状态和总体性能之间的非线性函数关系.基于机器学习算法的总体性能快速预估对于整个任务优化效率的提升具有显著效果.机器学习算法尤其适用于对飞行性能预估精度有一定容忍、但是对预估快速性具有较高要求的任务设计场景.由于飞行任务优化问题的各式各样,深度学习在任务设计中的具体应用形式也呈现多样性.文献^[51,52,53]运用深度神经网络拟合小推力轨迹转移中的质量消耗,实现了良好精度的燃料消耗快速预估.Song等^[54]利用深度神经网络拟合太阳帆转移中的最小时间,为太阳帆的小行星探测序列快速规划提供依据.在文献^[55]中,深度学习被用来支持飞机防碰撞预警系统的决策.基于历史观测数据,深度学习可用来提升卫星轨道的预测精度^[56].此外,深度学习还被用于小推力探测器轨道转移可达性的预测任务中^[53]. 深度学习在飞行器射程的预测、小行星轨道的稳定性分析、卫星可达域的预测、卫星的碎片预警等任务中也呈现出色的应用潜力. ...

Deep neural network compression for aircraft collision avoidance systems

1

2019

... 人工智能算法在飞行任务设计方面同样具有出色的应用前景.传统上,需要对整个飞行问题进行确定性的求解,才能评估任务执行的总体性能.虽然预估精度可以保证,但是整个过程往往耗时耗力.机器学习基于历史经验数据,能够近似拟合状态和总体性能之间的非线性函数关系.基于机器学习算法的总体性能快速预估对于整个任务优化效率的提升具有显著效果.机器学习算法尤其适用于对飞行性能预估精度有一定容忍、但是对预估快速性具有较高要求的任务设计场景.由于飞行任务优化问题的各式各样,深度学习在任务设计中的具体应用形式也呈现多样性.文献^[51,52,53]运用深度神经网络拟合小推力轨迹转移中的质量消耗,实现了良好精度的燃料消耗快速预估.Song等^[54]利用深度神经网络拟合太阳帆转移中的最小时间,为太阳帆的小行星探测序列快速规划提供依据.在文献^[55]中,深度学习被用来支持飞机防碰撞预警系统的决策.基于历史观测数据,深度学习可用来提升卫星轨道的预测精度^[56].此外,深度学习还被用于小推力探测器轨道转移可达性的预测任务中^[53]. 深度学习在飞行器射程的预测、小行星轨道的稳定性分析、卫星可达域的预测、卫星的碎片预警等任务中也呈现出色的应用潜力. ...

Comparative evaluation of three machine learning algorithms on improving orbit prediction accuracy

1

2019

... 人工智能算法在飞行任务设计方面同样具有出色的应用前景.传统上,需要对整个飞行问题进行确定性的求解,才能评估任务执行的总体性能.虽然预估精度可以保证,但是整个过程往往耗时耗力.机器学习基于历史经验数据,能够近似拟合状态和总体性能之间的非线性函数关系.基于机器学习算法的总体性能快速预估对于整个任务优化效率的提升具有显著效果.机器学习算法尤其适用于对飞行性能预估精度有一定容忍、但是对预估快速性具有较高要求的任务设计场景.由于飞行任务优化问题的各式各样,深度学习在任务设计中的具体应用形式也呈现多样性.文献^[51,52,53]运用深度神经网络拟合小推力轨迹转移中的质量消耗,实现了良好精度的燃料消耗快速预估.Song等^[54]利用深度神经网络拟合太阳帆转移中的最小时间,为太阳帆的小行星探测序列快速规划提供依据.在文献^[55]中,深度学习被用来支持飞机防碰撞预警系统的决策.基于历史观测数据,深度学习可用来提升卫星轨道的预测精度^[56].此外,深度学习还被用于小推力探测器轨道转移可达性的预测任务中^[53]. 深度学习在飞行器射程的预测、小行星轨道的稳定性分析、卫星可达域的预测、卫星的碎片预警等任务中也呈现出色的应用潜力. ...

深度学习在飞行器动力学与控制中的应用研究综述

A REVIEW ON THE APPLICATIONS OF DEEP LEARNING IN AIRCRAFT DYNAMICS AND CONTROL

1 深度学习在动力学中的应用

1.1 提升计算效率

1.2 构造智能动力学模型

1.3 动力学反问题的学习

图1

图2

2 深度学习在最优控制中的应用

图3

2.1 深度学习拟合控制指令

2.2 智能初值生成策略

2.3 交互强化学习

图4

3 深度学习在任务设计中的应用

4 总结与展望

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

深度学习在飞行器动力学与控制中的应用研究综述

A REVIEW ON THE APPLICATIONS OF DEEP LEARNING IN AIRCRAFT DYNAMICS AND CONTROL

1 深度学习在动力学中的应用

1.1 提升计算效率

1.2 构造智能动力学模型

1.3 动力学反问题的学习

图1

图2

2 深度学习在最优控制中的应用

图3

2.1 深度学习拟合控制指令

2.2 智能初值生成策略

2.3 交互强化学习

图4

3 深度学习在任务设计中的应用

4 总结与展望

参考文献 View Option 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子