中国科学院自动化研究所复杂管理系统与控制国家重点实验室针对一类非线性吊车系统,建立一种基于评判学习机制的智能优化控制方法,通过近似求解Hamilton–Jacobi–Bellman方程,实现含有折扣因子代价函数时的最优反馈镇定。利用神经网络的在线学习能力,提出不同于传统自适应评判算法的新颖权值更新策略,降低对于系统初始稳定控制律的要求,由此给自适应评判控制设计带来极大便利。
研究团队从理论上证明了闭环系统的稳定性,针对所述非线性吊车系统开展仿真实验,考虑不同折扣因子情况下的控制效果,经过充分的对比分析验证了论文中方法的有效性。
首先,针对一类实际吊车系统(图1)构建连续时间状态空间模型,定义含有折扣因子的代价函数,考虑这一复杂非线性系统在特定性能指标下的状态反馈优化镇定问题。对于一般非线性系统的最优控制设计,为了有效地求解其中的Hamilton–Jacobi–Bellman方程,研究人员引入智能评判控制方法,旨在通过有关参数的自适应更新与自主学习,得到近似的优化控制律。
其次,提出改进的评判网络更新准则,构建论文中的自适应评判控制方案框架,如图2所示。改进的神经网络学习策略是在传统策略迭代算法的基础上,融入反映系统稳定性能的增强项,形成新颖的评判学习机制,直接作用于评判神经网络,引导更加高效的训练和学习,这可以消除对于被控系统初始稳定控制律的依赖,更方便于实现自适应评判控制算法。
最后,将上述智能优化策略应用于吊车系统,考虑不同折扣因子得到不同的响应曲线,达到近似最优反馈镇定的目的,实现过程简单,由此验证该方法的良好控制性能。实验结果表明:当增大折扣因子时,实现被控系统优化镇定的代价函数将逐渐变小,这反映了在代价函数中引入折扣因子的作用。图3和4刻画一种特定情形时的系统状态和控制输入曲线。
相关研究成果发表在IEEE Transactions on Industrial Informatics上。(来源:中国科学院自动化研究所)
图1
图2
图3
图4
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。