1. 初始化Replay Buffer(经验池)内存R空间为V 2. 随机初始化在线策略网络、在线Q网络1、在线Q网络2的权重参数为θ、W1、W2,并初始化目标网络的参数为θ'=θ, W'1=W1, W'2=W2 3. 初始化超参数:优先级D1=1, α=0.7, β=0.5,经验片段数k=64 4. for episode = 1 to H, do: 5. 初始化SHETV的状态: s =[2000, 0.75, 0, 0] 6. for t = 1 to T, do: 7. 根据当前策略执行控制动作到SHETV:,为OU噪声,获得即时奖励和下一时刻的状态 st+1 8. 存储经验矢量到replay buffer的数据树中并设置Dt = max i<t Di 9. if t > V do: 10. for j=1 to K, do: 11. 根据概率大小获取经验片段j: 12. 计算重要性采样更新权重: 13. 计算TD-error: 14. 根据|σj |更新经验片段j的优先级 15. end for 16. 最小化Loss函数更新目标在线Q网络: 17. if t mod d, do: 18. 更新在线策略网络: 19. 更新目标Q网络1和目标Q网络2:
20. 更新目标策略网络: 21. end if 22. end if 23. end for 24. end for |