基于深度强化学习的智能网联车辆盲区通行策略

doi:10.3969/j.issn.1674-8484.2025.03.013

汽车安全与节能学报 ›› 2025, Vol. 16 ›› Issue (3): 470-477.DOI: 10.3969/j.issn.1674-8484.2025.03.013

基于深度强化学习的智能网联车辆盲区通行策略

黎子源¹(), 刘强¹^,^*(), 李鼎立², 李子龙¹

1.中山大学·深圳智能工程学院，深圳市 518107，中国
2.中信科智联科技有限公司，重庆市 400041，中国

收稿日期:2024-09-09 修回日期:2025-01-16 出版日期:2025-06-30 发布日期:2025-07-01
通讯作者: *刘强，教授。E-mail：liuq32@mail.sysu.edu.cn。
作者简介:黎子源（1998—），男（汉），广东，硕士研究生。E-mail：lizy66@mail2.sysu.edu.cn。
基金资助:
重庆市科技创新重大研发项目(CSTB2023TIAD-STX0030);广东省重点领域研发计划项目(2022B0701180001);深圳市科技计划项目(KJZD20240903103806009);深圳市科技计划项目(KCXFZ20240903093911016);2025年广东省先进制造业发展专项资金(产业基础再造)

Blind spot traffic strategy for intelligent connected vehicles based on deep reinforcement learning

LI Ziyuan¹(), LIU Qiang¹^,^*(), LI Dingli², LI Zilong¹

1. School of Intelligent Systems Engineering, Shenzhen Campus of Sun Yat-sen University, Shenzhen 518107, China
2. CICT Connected and Intelligent Technologies Co., Ltd, Chongqing 400041, China

Received:2024-09-09 Revised:2025-01-16 Online:2025-06-30 Published:2025-07-01

摘要/Abstract

摘要：

为防止车辆通过视觉盲区时与盲区窜出的行人发生交通事故，提出了一种基于深度强化学习的智能网联车辆（ICV）盲区通行策略方法。针对典型的盲区场景建立了数学描述模型；兼顾车辆通行安全，效率和舒适3个指标，基于“深度双Q网络”（DDQN）计了深度强化学习模型，该模型采用即碰时间（TTC）的指标，建立了一套具有物理可解释性的奖励函数，模型输出为车辆的油门和刹车踏板深度。在3个典型场景中开展了车辆通行仿真实验，验证算法的有效性。结果表明：与传统的DQN方法相比，本方法提高了决策精度，舒适性平均提升50%以上。因此，本方法能够实现安全、高效且舒适的纵向决策。

关键词: 智能网联车辆（ICV）, 深度强化学习, 行人避撞, 即碰时间（TTC）

Abstract:

A blind spot passing strategy method was proposed by using the deep reinforcement learning for intelligent connected vehicles (ICV) to prevent traffic accidents between vehicles and pedestrians when passing through visual blind spots. A mathematical description model was established for typical blind spot scenarios considering three indicators of safety, efficiency and comfort; while a deep reinforcement learning model was designed based on the Double DQN (double deep Q-network) with the TTC (time to collision) indicator to establish a set of physically interpretable reward functions, with the output being the vehicle's accelerator and the brake pedal depth. Simulation experiments were conducted under three scenarios to assess the algorithm efficacy. The results show that the simulation experiments verify the effectiveness of the algorithm. The comfort is increased by more than 50% on average of this method, compared with the traditional DQN method. The method improves decision-making accuracy. Therefore, the longitudinal decision-making method achieves the safety, the efficient and the comfortable.

Key words: intelligent connected vehicle (ICV), deep reinforcement learning, pedestrian collision avoidance, time to collision (TTC)

中图分类号:

TP273

黎子源, 刘强, 李鼎立, 李子龙. 基于深度强化学习的智能网联车辆盲区通行策略[J]. 汽车安全与节能学报, 2025, 16(3): 470-477.

LI Ziyuan, LIU Qiang, LI Dingli, LI Zilong. Blind spot traffic strategy for intelligent connected vehicles based on deep reinforcement learning[J]. Journal of Automotive Safety and Energy, 2025, 16(3): 470-477.

图/表 12

参考文献 17

[1]	李克强, 戴一凡, 李升波, 等. 智能网联汽车 (ICV) 技术的发展现状及趋势[J]. 汽车安全与节能学报, 2017, 8(1): 1-14.
	LI Keqiang, DAI Yifan, LI Shengbo, et al. State-of-theart and technical trends of intelligent and connected vehicles[J]. J Autom Safe Energ, 2017, 8(1): 1-14. (in Chinese)
[2]	李立, 徐志刚, 赵祥模, 等. 智能网联汽车运动规划方法研究综述[J]. 中国公路学报, 2019, 32(6): 20-33. doi: 10.19721/j.cnki.1001-7372.2019.06.002
	LI Li, XU Zhigang, ZHAO Xiangmo, et al. Review of motion planning methods of intelligent connected vehicles[J]. Chin J High Transport, 2019, 32(6): 20-33. (in Chinese)
[3]	郭烈, 孙大川, 葛平淑, 等. 复杂工况下二阶碰撞时间自动紧急制动模型[J]. 机械设计与制造, 2022, 5(1): 127-131.
	GUO Lie, SUN Dachuan, GE Pingshu, et al. Automatic emergency braking model using second-order time to collision for complex condition[J]. Mach Des Manuf, 2022, 5(1): 127-131. (in Chinese)
[4]	李霖, 朱西产. 智能汽车自动紧急控制策略[J]. 同济大学学报(自然科学版), 2015, 43(11): 1735-1742.
	LI Lin, ZHU Xichan. Autonomous emergency control algorithm for intelligent vehicles[J]. J Tongji Univ (Nat Sci), 2015, 43(11): 1735-1742. (in Chinese)
[5]	肖宏伟, 周睿卓, 姜晴雯, 等. 商用车视野盲区测试方法[J]. 吉林大学学报(工学版), 2022, 52(5): 1009-1015.
	XIAO Hongwei, ZHOU Ruizhuo, JIANG Qingwen, et al. Test method of commercial vehicle vision blind zone[J]. J Jilin Univ (Eng Tech Ed), 2022, 52(5): 1009-1015. (in Chinese)
[6]	刘洋, 占佳豪, 李深, 等. 自动驾驶技术的未来:单车智能和智能车路协同[J]. 汽车安全与节能学报, 2024, 15(5): 611-633.
	LIU Yang, ZHAN Jiahao, LI Shen, et al. Future of autonomous driving: Single autonomous driving and intelligent vehicle-infrastructure collaboration systems[J]. J Autom Safe Energ, 2024, 15(5): 611-633. (in Chinese)
[7]	金立生, 韩广德, 谢宪毅, 等. 基于强化学习的自动驾驶决策研究综述[J]. 汽车工程, 2023, 45(4): 527-540.
	JIN Lisheng, HAN Guangde, XIE Xianyi, et al. Review of autonomous driving decision-Making research based on reinforcement learning[J]. Autom Engineering, 2023, 45(4): 527-540. (in Chinese)
[8]	Sallab A, Abdou M, Perot E, et al. Deep reinforcement learning framework for autonomous driving[J]. Electr Imag, 2017, 19: 70-76.
[9]	FU Yuchuan, LI Changle, YU Richard, et al. A decision making strategy for vehicle autonomous braking in emergency via deep reinforcement learning[J]. IEEE Trans Vehi Tech, 2020, 69(6): 5876-5888.
[10]	LI Junxiang, YAO Liang, XU Xin, et al. Deep reinforcement learning for pedestrian collision avoidance and human-machine cooperative driving[J]. Info Sci, 2020, 532: 110-124.
[11]	Rafiei A, Fasakhodi A O, Hajati F. Pedestrian collision avoidance using deep reinforcement learning[J]. Int’l J Autom Tech, 2022, 23(3): 613-622.
[12]	PENG Baiyu, SUN Qi, LI Shengbo E, et al. End-toend autonomous driving through dueling double deep Q-network[J]. Autom Inno, 2021, 4(3): 328-337.
[13]	LI Guofa, YANG Yifan, LI Shen, et al. Decision making of autonomous vehicles in lane change scenarios: Deep reinforcement learning approaches with risk awareness[J]. Transport Res Part C: Emerg Tech, 2021, 134: 1-18.
[14]	柳鹏, 赵克刚, 梁志豪, 等. 基于深度强化学习CLPER-DDPG的车辆纵向速度规划[J]. 汽车安全与节能学报, 2024, 15(5): 702-710.
	LIU Peng, ZHAO Kegang, LIANG Zhihao, et al. Vehicle longitudinal speed planning based on deep reinforcement learning CLPER-DDPG[J]. J Autom Safe Energ. 2024, 15(5): 702-710. (in Chinese)
[15]	周恒恒, 高松, 王鹏伟, 等. 基于深度强化学习的智能车辆行为决策研究[J]. 科学技术与工程, 2024, 24(12): 5194-5203.
	ZHOU Hengheng, GAO Song, WANG Pengwei, et al. Intelligent vehicles behavior decision-making based on deep reinforcement learning[J]. Sci Tech Engi, 2024, 24(12): 5194-5203. (in Chinese)
[16]	CAO Zhong, XU Shaobing, PENG Huei, et al. Confidence-aware reinforcement learning for self-driving cars[J]. IEEE Trans Intel Transport Syst, 2022, 23(7): 7419-7430.
[17]	FU Yuchuan, LI Chanle, LUAN Tomhao, et al. Graded warning for rear-end collision: An artificial intelligence-aided algorithm[J]. IEEE Trans Intel Transport Syst, 2019, 21(2): 565-579.

层	维度	层	维度
L1	(s, 16)	L5	(128, 64)
L2	(16, 32)	L6	(64, 32)
L3	(32, 64)	L7	(32, 16)
L4	(64, 128)	L8	(16, a)

层	维度	层	维度
L1	(s, 16)	L5	(128, 64)
L2	(16, 32)	L6	(64, 32)
L3	(32, 64)	L7	(32, 16)
L4	(64, 128)	L8	(16, a)

训练回合数	5 000
每回合最大步数	1 000
批量大小	128
经验池容量	10 000
折扣系数	0.99
网络学习率	0.0 001
延迟更新频率	50
初始探索概率	1
探索概率衰减速率	0.99
优化器类型	Adam

训练回合数	5 000
每回合最大步数	1 000
批量大小	128
经验池容量	10 000
折扣系数	0.99
网络学习率	0.0 001
延迟更新频率	50
初始探索概率	1
探索概率衰减速率	0.99
优化器类型	Adam

	行人速度 / (m·s^-1)	行人出现时间 / s	车辆初始位置 / m	车辆初速度/ (km·h^-1)
场景1	1	3	90	40
场景2	1	0	90	40
场景3	1	0	80	60

基于深度强化学习的智能网联车辆盲区通行策略

Blind spot traffic strategy for intelligent connected vehicles based on deep reinforcement learning

RichHTML

PDF

可视化

摘要/Abstract

引用本文

使用本文

图/表 12

参考文献 17

相关文章 10

编辑推荐

Metrics

本文评价

期刊信息

在线期刊

作者中心

审稿中心

联系我们

场景	模型	t / s	加速度超阈值比例 / %	加加速度超阈值比例 / %
场景1	传统DQN	4.98	15.85	14.23
场景1	本文	5.02	8.33	10.30
场景2	传统DQN	7.02	43.65	16.28
场景2	本文	8.64	20.56	11.02
场景3	传统DQN	6.88*	30.29	25.23
场景3	本文	8.38	37.33	38.60

[1]	张富椿, 尹燕莉, 马永娟, 肖杭洋, 陈海鑫, 余凯. 网联混合动力汽车队列的生态驾驶与能量管理分层控制[J]. 汽车安全与节能学报, 2025, 16(1): 159-169.
[2]	张新锋, 吴琳. 基于集成深度强化学习的自动驾驶车辆行为决策模型[J]. 汽车安全与节能学报, 2023, 14(4): 472-479.
[3]	韩玲, 张晖, 方若愚, 刘国鹏, 朱长盛, 迟瑞丰. 基于改进深度强化学习的全局路径规划策略[J]. 汽车安全与节能学报, 2023, 14(2): 202-211.
[4]	冯耀, 景首才, 惠飞, 赵祥模, 刘建蓓. 基于深度强化学习的智能网联车辆换道轨迹规划方法[J]. 汽车安全与节能学报, 2022, 13(4): 705-717.
[5]	李文礼, 邱凡珂, 廖达明, 任勇鹏, 易帆. 基于深度强化学习的高速公路换道跟踪控制模型[J]. 汽车安全与节能学报, 2022, 13(4): 750-759.
[6]	郑阳俊, 贺帅, 帅志斌, 李建秋, 盖江涛, 李勇, 张颖, 李国辉. 基于DRL的四轮独立驱动电动车辆的侧向车速估计[J]. 汽车安全与节能学报, 2022, 13(2): 309-316.
[7]	尹小庆，汪浩，莫宇迪，胡攀峰. 考虑路面附着因数的车辆向前碰撞预警时间的优化算法[J]. JASE, 2019, 10(2): 178-183.
[8]	曹立波，刘忠臣，吴俊，姚远，冯谢星. 四合一汽车辅助驾驶系统控制决策的开发与实车测试[J]. JASE, 2017, 08(02): 122-127.
[9]	胡远志，吕章洁. 基于 PreScan 的 AEB 系统纵向避撞算法及仿真验证[J]. JASE, 2017, 08(02): 136-142.
[10]	朱西产，高学敏，许宇能，李霖. 基于角点检测估算车辆间即碰时间[J]. 汽车安全与节能学报, 2014, 5(04): 331-335.