但这些提升,很多时候在真实路测中感受并不明显,甚至可能因为过拟合导致在未知场景下表现更差。
我觉得,我们的评价标准,应该更贴近实际用户体验和系统整体表现,而不是单纯的榜单分数。”
“说得好!”陈奇惊立刻表示赞同。
“这就是典型的‘过程’和‘结果’错位。
我们优化的是榜单分数这个‘过程指标’,但真正的‘结果’应该是路上开得更好、更安全。
我建议,以后模型迭代的评价,权重应该向大规模影子模式测试、闭环仿真测试和关键场景通过率倾斜,降低公开数据集刷榜的权重。”
李鹏飞也深有感触:
“南舟和奇惊提到了一个关键点。
我们做研究出身的人,容易陷入对单项技术指标的极致追求。
但在工程化、产品化的过程中,必须要有系统思维和用户视角。
一个单项99.9%优秀的模块,如果与其他模块协同不好,可能最终系统表现还不如一个各项都95分但协同顺畅的方案。
我们的‘结果’,最终要体现在整车智能驾驶系统的综合体验和安全性能上。”
讨论再次深入。
大家结合具体项目,反思了是否存在为了追求技术先进性而偏离用户真实需求的情况,是否存在为了满足内部考核指标而做了“伪工作”的现象。