李彦宏“站台”极越，纯视觉会是自动驾驶的主流吗？

2024-04-17 18:00 由精选发表于 #商业

撰文 | 李信马

题图 | 百度

时隔多年后，百度创始人李彦宏又一次为自动驾驶上车“站台”。

4月15日，他和极越 CEO 夏一平来了一次线上直播。一辆极越01上，自动驾驶系统接管了司机的职责，两人则发挥了人类的强项，全程互动讲解。

在深圳的城市道路上，差不多一小时的旅程中，几乎没有接管，自动驾驶的表现不说超越人类司机，也是相差不大，绝对没有“翻车”。

夏一平的对此评价是“纯视觉地表最强智驾”，李彦宏则认为足以“对标”特斯拉，甚至在中国还优而胜之——“中国它（特斯拉）不太敢开吧。”

特意提到特斯拉，是因为两家车企，有着同样的纯视觉技术路线。这一技术路线是让摄像头成为自动驾驶车辆主要或者唯一的“眼睛”，通过人工智能识别，然后进行自动驾驶。

在自动驾驶的赛道，有多个技术路线。纯视觉的优点是，相比激光雷达、毫米波雷达、超声波传感器等，摄像头的成本相对较低，但缺点就是，摄像头容易受到光照条件的影响。在逆光、起雾、大雪等情况下，摄像头的辨识能力可能就会下降，特斯拉曾经的多起事故，就是在类似的情况下发生的。此外，在生成三维空间上，纯视觉方案是通过二维图像来生成的，在精准度和鲁棒性上“先天不足”。

自动驾驶需要绝对的安全，因此，很长一段时间以来，多传感器融合的技术方案要更具竞争力一些，最大的问题则是传感器价格过于昂贵，业界寄希望于通过技术进步和量产，来将这些传感器的价格降低到足以大规模应用。

有趣的是，人工智能，尤其是神经网络和大模型的发展速度，要比硬件成本价格下降的更快，这也让我们看到了纯视觉方案成为自动驾驶主流技术路线的趋势。

一、引领纯视觉技术路线

在这条路线上，特斯拉可以说是开创者和领头羊。2024年3月是一个重要的时间节点，在13日，特斯拉开始推送 FSD v12.3 的软件更新，特斯拉 CEO 埃隆・马斯克称其是一次相当于大版本更新的“重大发布”。这一版本在算法层面做了较大的改动，从以往依赖手动编码规则和机器学习模型的方法，转向采用端到端的神经网络系统。

从目前的测评视频来看，这一版本在自动驾驶能力上有着明显的进步，已经接近L4级别的自动驾驶。马斯克特意开放了为期一个月的免费试用，足以证明他对这一版本的信心。不过目前在国内，我们暂时还体验不到该服务，而且中国道路环境也与美国有明显差异。

也因此，同样走纯视觉技术路线的极越，可以说是最接近特斯拉的国内车企了。在25日，极越也发布了 OTA V1.4.0 新版软件，并宣布2024年，在百度地图LD（车道级导航）的支持下，极越PPA智驾即将实现全国都能开。

极越的纯视觉采取的是“BEV+OCC+Transformer”（即B.O.T）的技术方案，新版本中，重点升级的是OCC占用网络，让感知能力大幅提升，在达到激光雷达厘米级3D模型刻画的基础上，对障碍物的识别种类再度增加，包括施工牌、围栏、路障、防撞桶等单个静态障碍物，还有道路临时施工的围栏、靠边停靠的故障车辆、临时堆放的大垃圾桶等障碍物。

OCC感知能力的提升，又带动了点到点领航辅助PPA能力的大幅升级，可以应对更复杂的行车场景。比如在路况复杂、临时施工的路口主动绕行和及时刹停，合理规划路线等。在李彦宏的直播中，这些能力也基本得到了体现。

二、大模型带来智驾提升

自动驾驶发展了数十年，为什么纯视觉技术方案的落地速度突然加快？答案是大模型。

研究显示，真正的自动驾驶系统想要达到量产应用条件，至少需要经过约170亿公里的道路验证。原因在于，即使现有技术已经能够应对95%以上的常见驾驶场景，但最后5%的Corner Case依旧有可能会出现问题（自动驾驶的Corner case是指模型之前没有见过，会导致模型识别异常的场景）。

一般学习一个新的Corner Case需要收集超过一万的样本，整个周期在2周以上。即使一个团队拥有100辆自动驾驶车辆，24小时不间断的进行道路测试，积累数据所需要的时间也是以“百年”为单位——这显然是不切实际的。

ChatGPT的横空出世，让我们看到了大模型各行各业的巨大潜力，而自动驾驶也在其中。在这里，有关具体的技术就不进一步展开了，引用不久前发布的华为盘古汽车大模型对其效果的描述：“盘古汽车大模型重塑自动驾驶的训练，可将行车数据进行重建，生成能够灵活编辑的虚拟空间，如视频中生成的华为东莞园区的道路空间，可在指定的行车路径中，增加对向行驶的车辆。模型基于超车线路构建不同的光照、天气、建筑，快速生成近百个样本，让模型更好学习如何应对复杂超车场景的Corner case。”

通过大模型快速进行真实场景还原，并各种复杂场景生成Corner case用于模型训练，盘古汽车大模型让自动驾驶的Corner Case闭环周期从两周以上缩短到两天内。

作为吉利与百度合作推出的高端汽车品牌，极越的自动驾驶能力来自百度，25日当天，百度也发布了百度Apollo自动驾驶视觉大模型VTA（Vision Takes All），大模型大幅升级了自动驾驶的动静态检测、时序跟踪、实时建图、场景理解等能力，据百度智能驾驶事业群组首席研发架构师、IDG技术委员会主席王亮所说：“基于大模型，百度打造了行业第一的智驾数据生产线、LLM赋能的自动驾驶数据索引，与此同时，通过生成式AI技术，百度也具备高效处理长尾数据的能力，这些都是推动端到端自动驾驶技术发展的重要数据引擎。”

而大模型对自动驾驶落地很重要的一点在于，在硬件不升级的情况下，依旧可以靠软件升级来提高智能水平，这对本身成本就较低的纯视觉路线来说，无疑是很有利的。相比其他传感器，摄像头的成本最低，也就是说最容易得到普及和形成规模效益，而搭载纯视觉解决方案的车辆越多，成本和性能优势就也越明显。

在此，我们摘录部分李彦宏直播对话中的描述：

“这个因为是online upgrade，所以它会越来越智能，越来越聪明。”

“一旦跑起来的话，很多数据再反馈回来正循环。这个车，应该你每天开都是一个新版本的车，是这种感觉，就像每天买了一辆新车一样。”

“以后它还学你的各种各样信息，你的喜好，会完全变成一个特别懂你，特别了解你的机器人。”

当然，硬件上省的钱，未来可能会以软件收费的形式花出去。比如特斯拉的 FSD ，目前在美国的售价为1.5万美元，或者每月199美元。但在自动驾驶发展的长期预想中，对个人收费主要存在于过渡阶段，无人共享出租车才是最可能的行业最终形态。

在这个领域，百度和特斯拉同样位于领头羊的位置，前者的萝卜快跑项目在稳步推进，后者也刚刚透露了新的计划进展。而纯视觉，综合来看，是目前最接近距离实现这一目标的技术路线了。

图片来源：X

热门相关：重生世家子异界之极品奶爸至尊医道九阳剑圣重生豪门宠婚：枭宠不乖娇妻