为构建开放环境下高安全可信度的自动驾驶系统,本文针对自动驾驶场景的长尾分布问题,提出一种自动驾驶决策算法闭环学习方法,该方法通过安全关键场景生成与持续学习实现算法闭环。首先,对于常见驾驶场景下表现良好的基础算法,生成具有威胁性的安全关键场景,以此挖掘算法缺陷;其次,采用融合弹性权重巩固与线性多策略头的持续学习方法,在安全关键场景中进一步训练自车算法,避免灾难性遗忘问题;最后,通过多次闭环迭代提高算法场景的适应能力。本文以软演员-评论家算法为基础算法,验证所提闭环学习方法的有效性。经两轮环境差异较大、难度持续提升的闭环迭代测试,未采用持续学习策略和仅采用经验回放策略的两种基线方法与本文方法的碰撞率分别为25.40%、25.33%和14.43%。对比结果表明,本文方法抵御灾难性遗忘与探索学习新任务的综合能力更强,因此所提出的闭环学习方法可有效提高学习型自动驾驶决策算法的场景适应性,实现算法迭代优化。