近日,智能车辆团队论文《Costate-Supplement ADP for Model-Free Optimal Control of Discrete-Time Nonlinear Systems》在IEEE Transactions on Neural Network and Learning System上发表。
针对模型未知的离散系统最优控制问题,本文提出了引入协状态函数的自适应动态规划(ADP)方案。为了在数据不足的情况下更精准地逼近代价函数,实现更好的策略提升方向,本文在AC框架下引入了一个独立的协状态网络来逼近协状态函数,而后利用该协状态函数作为评估代价函数的增补信息,同时提出代价和协状态函数交替迭代方式,实现了更精确的代价函数估计,并有利于策略在无模型寻优过程中跳出局部最优域。此外,本文严格证明了所提算法的收敛特性及网络权值误差的一致最终有界性。最后,仿真验证了所提定理正确性和算法有效性。
本文提出一种无模型的协态补充离散非线性系统的ADP (CoSADP)算法。本研究的主要贡献可归纳如下:
1)在训练数据量不足的情况下,基于协状态函数和代价函数交替迭代的方式,在AC框架中引入了协态函数,进而改进了代价函数的估计性能。与传统的ADHDP算法相比,该算法无需在每个迭代步遍历整个状态动作空间,可以消耗相对较少的计算资源来获得更好的控制性能。
2)CoSADP算法的实现过程完全基于数据,无需任何系统模型信息。其中,本文利用已收集的数据集建立了模型网络,其可在协状态函数更新时提供模型特征,同时基于此定期更新的数据集可进行学习策略的探索。
本文对算法的收敛性进行了理论推导,分析了在弱假设条件下基于交替迭代的方式,协态函数的收敛特性有利于的代价函数的收敛。同时,本文严格证明了所提方案中各网络权值误差的一致最终有界性,并推导出了该特性关于学习率上界的充分条件。
针对精准模型难以建立和有效数据难以完全采集的实际应用场景,本文提出的在线CoSADP算法可使用多轨迹收集到的稀疏数据和原始分散数据来获得更好的性能优化。此外,协状态与代价函数的交替迭代模式也降低了网络和算法的复杂性,有助于减少实际实现时的训练时间。因此,与现有方法相比,CoSADP算法在自动驾驶和水下航行实际场景中具有更高的可行性。
论文作者列表:叶俊、边有钢、罗彪、胡满江、徐彪、丁荣军
论文链接:https://ieeexplore.ieee.org/document/9772751