智能车辆团队论文在IEEE/CAA Journal of Automatica Sinica发表|Safe Efficient Policy Optimization Algorithm for Unsignalized Intersection Navigation-湖南大学智能车辆课题组HIVE

当前位置：首页 > 新闻动态 > 学术动态 > 正文

智能车辆团队论文在IEEE/CAA Journal of Automatica Sinica发表|Safe Efficient Policy Optimization Algorithm for Unsignalized Intersection Navigation

近日,智能车辆团队论文《Safe Efficient Policy Optimization Algorithm for Unsignalized Intersection Navigation》在IEEE/CAA Journal of Automatica Sinica发表。

研究了基于先验知识的交叉路口多车协同通行策略，本文利用人工智能驱动方法训练单车智能体，以解决单车与交通流协同通行的问题。根据先验知识，单车在交叉路口通行的先决条件要观察当前交通流情况，因此如何更好地表征交通道路情况对当前决策至关重要。同时，决策的安全性是交通通行的重要因素，强化学习需要结合安全约束以得到安全高效的通行策略。本文重点考虑混合交通场景下单车通行交叉路口的强化学习决策方法，提出经验复用型安全近端策略优化算法。首先，构建部分可观测马尔可夫决策过程和受限马尔可夫决策过程，并设计语义场景图；其次，给出近端策略优化算法的性能提升目标函数，并提出经验复用近端策略优化算法；然后，基于设计的碰撞风险函数得到安全近端策略优化算法；再者，结合经验复用和安全策略，提出经验复用型安全近端策略优化算法；最后，进行混合交通场景下单车通行交叉路口的任务评测与性能分析。本文主要贡献如下：

1）针对路口决策强化学习问题，构建了部分可观测马尔可夫决策过程，并加入了语义场景图。同时，提出了一种奖励函数，其中包括主要奖励来实现定性目标，以及辅助奖励来促进有效探索。为解决自动驾驶的安全行驶问题，设计了受限马尔可夫决策过程，并利用车辆冲突时间计算方法开发了碰撞风险函数。

2）从状态空间层面推导引出了近端策略优化算法。考虑到在策略迭代中可能会重复使用先前的样本，提出了Off-policy类的经验复用近端策略优化算法，为考虑安全探索在置信域中搜索可行策略，提出安全近端策略优化算法，结合经验复用和安全策略，进一步提出了经验复用型安全近端策略优化算法。

3）开发了基于SUMO的模拟环境，以测试强化学习算法在无信号交叉路口的性能，并确立了关键评估指标。针对三种路口导航任务，评估了算法在不同任务间的训练与知识迁移效果。结果显示，四种强化学习算法均能成功完成任务，其中经验复用型安全近端策略优化算法表现最为卓越。此外，还验证了该算法在不同交叉路口和不同交通流量条件下的泛化能力。

论文作者：陈晓龙、徐彪、胡满江、边有钢、李洋、徐昕

论文链接：https://www.ieee-jas.net/en/article/doi/10.1109/JAS.2024.124287

关闭打印