基于TD3-PER的混合动力履带车辆能量管理

doi:10.19562/j.chinasae.qcgc.2022.09.011

摘要/Abstract

摘要：

为优化串联式混合动力履带车辆（SHETV）的燃油经济性和动力电池性能，提出一种基于优先经验采样的双延迟深度确定性策略梯度（TD3-PER）能量管理策略。TD3算法能实现更精准的连续控制和防止训练陷入过优估计。优先经验采样（PER）算法可加速策略的训练和获得更高的优化性能。在建立包括纵横向动力学的车辆模型的基础上，完成基于TD3-PER的能量管理策略的框架构建和仿真验证。结果表明，与深度确定性策略梯度（DDPG）相比，所提出的策略使SHETV的燃油消耗降低了3.89%，燃油经济性达到了作为基准的动态规划算法的95.05%。同时该策略具有较好的电池SOC保持能力和工况适应性。

关键词: 串联式混合动力履带车辆, 双延迟深度确定性策略梯度, 连续控制, 优先经验采样

Abstract:

To optimize the fuel economy and traction battery performance of series hybrid electric tracked vehicle （SHETV）， an energy management strategy （EMS） based on twin delayed deep deterministic policy gradient with prioritized experience replay （TD3-PER） is proposed. The TD3 algorithm can achieve more precise continuous control and prevent training from falling into over-assessment. The PER algorithm can accelerate strategy training and obtain higher optimization performance. Based on the model of the SHETV including longitudinal and lateral dynamics， the framework construction and simulation verification of EMS based on TD3-PER is completed. The results show that compared with deep deterministic policy gradient algorithm， the strategy proposed reduces the fuel consumption of SHETV by 3.89%， making its fuel economy reaching 95.05% of DP algorithm as a benchmark， with a better battery SOC retention ability and working condition adaptability.

Key words: series hybrid electric tracked vehicles, twin delayed deep deterministic policy gradient, continuous control, prioritized experience replay

张彬,邹渊,张旭东,杜国栋,孙文景,孙巍. 基于TD3-PER的混合动力履带车辆能量管理[J]. 汽车工程, 2022, 44(9): 1400-1409.

Bin Zhang,Yuan Zou,Xudong Zhang,Guodong Du,Wenjing Sun,Wei Sun. Energy Management Strategy Based on TD3-PER for Hybrid Electric Tracked Vehicle[J]. Automotive Engineering, 2022, 44(9): 1400-1409.

图/表 19

图1

图2

表1

图3

图4

图5

图6

图7

表2

TD3-PER算法计算流程"

基于TD3-PER的能量管理算法

1. 初始化Replay Buffer（经验池）内存R空间为V

2. 随机初始化在线策略网络、在线Q网络1、在线Q网络2的权重参数为θ、W₁、W₂，并初始化目标网络的参数为θ'=θ， W'₁=W₁， W'₂=W₂

3. 初始化超参数：优先级D₁=1， α=0.7， β=0.5，经验片段数k=64

4. for episode = 1 to H， do：

5. 初始化SHETV的状态： s =［2000， 0.75， 0， 0］

6. for t = 1 to T， do：

7. 根据当前策略执行控制动作到SHETV： $a t = π (s t | θ + κ)$ ， $κ$ 为OU噪声，获得即时奖励 $r t$ 和下一时刻的状态 s_t₊₁

8. 存储经验矢量 $(s t, a t, r t, s t + 1)$ 到replay buffer的数据树中并设置D_t = max _i<t D_i

9. if t > V do：

10. for j=1 to K， do：

11. 根据概率大小获取经验片段j： $P (j) = D j α ∑ i = 1 V D i α$

12. 计算重要性采样更新权重： $W j = 1 N ? 1 P (j) β$

13. 计算TD-error： $σ j = r j + 1 + γ m i n i = 1,2 Q W' i (s j + 1, a j + 1) - Q W (s j, a j)$

14. 根据|σ_j |更新经验片段j的优先级

15. end for

16. 最小化Loss函数更新目标在线Q网络： $L = 1 K ∑ i = 1 K W i σ i 2$

17. if t mod d， do $(利用周期 d 延迟更新网络)$ ：

18. 更新在线策略网络： $? θ π S i = 1 K ∑ i = 1 K ? a Q (s i, a i) ? θ μ θ (s i)$

19. 更新目标Q网络1和目标Q网络2：

$W 1' = (1 - τ) ? W 1' + τ ? W 1$

$W 2' = (1 - τ) ? W 2' + τ ? W 2$

20. 更新目标策略网络： $θ' = (1 - τ) ? θ' + τ ? θ$

21. end if

22. end if

23. end for

24. end for

表2

图8

表3

图9

图10

图11

表4

图12

图13

图14

表5

参考文献 17

1	孙逢春，张承宁. 装甲车辆混合动力电传动技术［M］. 北京：国防工业出版社， 2008：288-301.
	SUN Fengchun， ZHANG Chengning. Technologies for the hybrid electric drive system of armored vehicle［M］. Beijing： National Defense Industry Press， 2008：288-301.
2	金辉，张子豪. 基于自适应动态规划的HEV能量管理研究综述［J］.汽车工程，2020，42（11）：1490-1496.
	JIN Hui， ZHANG Zihao. Review of research on HEV energy management based on adaptive dynamic programming［J］. Automotive Engineering， 2020，42（11）：1490-1496.
3	邹渊，焦飞翔，崔星，等.地面无人平台动力源集成技术发展综述［J］.兵工学报，2020，41（10）：2132-2140.
	ZOU Yuan，JIAO Feixiang，CUI Xing，et al. A review on power source technology of unmanned ground vehicle［J］. Acta Armamentaril， 2020，41 （10）： 2132-2140.
4	周维，张承宁，李军求.增程式电动车BL和CD-CS型最优能量管理策略比较研究［J］.汽车工程，2016，38（12）：1407-1414.
	ZHOU Wei， ZHANG Chengning， LI Junqiu. A study on comparison between BL and CD-CS optimal energy management strategies for extended range electric vehicles［J］. Automotive Engineering， 2016，38（12）：1407-1414.
5	李军求，孙逢春，张承宁. 履带式混合动力车辆能量管理策略与实时仿真［J］. 兵工学报， 2013， 34（11）： 1345-1351.
	LI Junqiu， SUN Fengchun， ZHANG Chengning. Energy management stratery and real-time simulation of hybrid electric tracked vehicle［J］. Acta Armamentaril， 2013， 34（11）： 1345-1351.
6	SALMASI F R. Control strategies for hybrid electric vehicles： evolution， classification， comparison， and future trends［J］. IEEE Transactions on Vehicular Technology， 2007， 56（5）： 2393-2404.
7	LIU Teng， HU Xiaosong. A bi-level control for energy efficiency improvement of a hybrid tracked vehicle［J］. IEEE Transactions on Industrial Informatics， 2018， 14（4）：1616-1625.
8	BANVAIT H， ANWAR S， CHEN Y. A rule-based energy management strategy for plug-in hybrid electric vehicle （PHEV）［C］. American Control Conference， IEEE， 2009： 3938-3943.
9	张松，吴光强，郑松林.插电式混合动力汽车能量管理策略多目标优化［J］.同济大学学报（自然科学版），2011， 39（7）：99-103.
	ZHANG Song，WU Guangqiang，ZHENG Songlin. Multi-objective optimization of energy management strategy of plug-in hybrid electric vehicle［J］. Journal of TongJi University （Natural science）， 2011， 39（7）：99-103.
10	ZHENG Chunhua， LI Weimin， LIANG Quan. An energy management strategy of hybrid energy storage systems for electric vehicle applications［J］. IEEE Transactions on Sustainable Energy，2018，9（4）：1880-1888.
11	赵秀春，郭戈. 混合动力电动汽车能量管理策略研究综述［J］. 自动化学报， 2016， 42（3）：321-334.
	ZHAO Xiuchun， GUO Ge. Survey on energy management strategies for hvbrid electric vehicles［J］. Acta Automatica Sinica， 2016， 42（3）：321-334.
12	THOUNTHONG P， RAEL S， DAVAT B. Energy management of fuel cell/battery/supercapacitor hybrid power source for vehicle applications ［J］. Journal of Power Sources， 2009， 193（1）： 376-385.
13	LIU Teng， ZOU Yuan， LIU Dexing， et al. Reinforcement learning-based energy management strategy for a hybrid electric tracked vehicle［J］. Energies， 2015， 8（7）：7243-7260.
14	ZHAO Pu， WANG Yanzhi， CHANG Naehyuck， et al. A deep reinforcement learning framework for optimizing fuel economy of hybrid electric vehicles［C］. IEEE， 23rd Asia and South Pacific Design Automation Conference （ASP-DAC）， 2018：196-202.
15	HAN Xuefeng， HE Hongwen， WU Jingda， et al. Energy management based on reinforcement learning with double deep Q-learning for a hybrid electric tracked vehicle［J］. Applied Energy， 2019， 254：113708.
16	ZHANG Bin， WU Jinlong， ZOU Yuan， et al. Reinforcement learning energy management for hybrid electric tracked vehicle with deep deterministic policy gradient［C］. 2020中国汽车工程学会年会论文集，2020：399.
17	邹渊，张彬，张旭东，等. 基于归一化优势函数的强化学习混合动力履带车辆能量管理［J］. 兵工学报， 2021， 42（10）：2159-2169.
	ZOU Yuan， ZHANG Bin， ZHANG Xudong， et al. Reinforcement learning based on normalized advantage function for energy management of hybrid tracked vehicle［J］. Acta Armamentaril， 2021，42 （10）： 2159-2169.

名称	参数	数值
履带车辆	整车整备质量m/kg	1 500
	重力加速度g/（m·s^-2）	9.8
	滚动阻力系数f	0.049 4
	履带接地长度L/m	1.6
	迎风面积A/m²	0.91
	传动效率η	0.92
	空气阻力系数C_d	0.9
发电机组	发电机转动惯量J_e/（kg·m²）	0.207
	额定功率/kW	30
	等效电动势系数 K_e/（V·s·rad^-2）	1.608 0
	等效阻抗系数 K_x/（N·m·A^-2）	0.009 8
动力电池组	内阻R_in/Ω	0.1
	容量/（A·h）	45.5

参数	数值
Replay Buffer大小	2¹³
每个回合的训练步数	1 000
Minibatch大小	64
折扣因子γ	0.99
动作网络学习率a	0.001
评判网络学习率c	0.000 1
延迟更新参数d	2
软更新参数τ	0.001
优先采样权重调节因子β	0.5
控制均匀采样和贪婪抽样的超参数α	0.7
训练回合数	100

算法	燃油消耗量/g	燃油经济性/%	训练时间/s
DP	499.02	100	5 972
DDPG	546.24	91.18	483
TD3	532.21	93.76	525
TD3-PER	525.01	95.05	432

算法	燃油消耗量/g	燃油经济性/%
TD3-PER	417.53	100
TD3	433.23	96.38
DDPG	451.64	92.45