【芯智驾】特斯拉的纯视觉自动驾驶之路走偏了吗？

作者： Jimmy 2021-09-18

来源：爱集微 #芯智驾# #特斯拉#

3.9w

芯智驾──集萃产学研企名家观点，全面剖析AI芯片、第三代半导体等在汽车“大变形”时代的机会与挑战！

集微网报道，在自动驾驶技术路线上，特斯拉彻底走上了纯视觉的道路。在最近的特斯拉AI日上，通过AI神经网络，特斯拉摆脱了毫米波雷达硬件方案的Autopilot技术，依靠摄像头，完成了马斯克对纯视觉自动驾驶方案的执念。

当前主流的自动驾驶技术厂商都围绕在摄像头、毫米波雷达、激光雷达的多传感器融合的路线上，搭配高算力芯片及软件技术作为较稳妥的解决方案。

特斯拉的软件实力是毋庸置疑的，更何况在AI日上还展示了DOJO D1芯片，以它为基础组成的DOJO超算理论上其计算性能接近无限。那么依靠人工智能视觉，特斯拉是否能够完成媲美甚至超越原先的Autopilot技术？人工智能视觉技术未来在自动驾驶领域是否能够得到进一步的发展？

纯视觉方案是否靠谱？

特斯拉的纯视觉FSD基于“HydraNets”的多任务学习能力，可以实时绘制有效地图。整体解决方案分为硬件感知和神经网络学习两大方面。其中，硬件感知通过车辆周身配备的8颗摄像头来收集车辆环境、道路信息等，收集到的信息通过校正后融合成单一的预测模型，这个模型为系统提供了周边环境的3D立体空间鸟瞰图。

其实，摄像头在整个自动驾驶路线技术上并不陌生，但靠摄像头收集的信息毕竟是2D图像，因此，业界普遍采用毫米波雷达去感知物体速度与轨迹，用激光雷达去识别物体的形状，将三者的信息一同匹配交给自动驾驶系统来进行判断。

那么特斯拉如今将毫米波雷达也舍弃后，仅靠摄像头，显然无法满足神经网络训练所需的空间数据。

对此，特斯拉Autopilot主管Ashok Elluswamy介绍了特斯拉为此开发的关键技术——自动标记。自动标记技术可以短暂存储周边的道路标记、车辆位置等信息，即使车辆在行驶中视野被遮挡，根据标记的信息，车辆仍旧可以安全行驶。

IEEE高级会员，香港科技大学智能驾驶中心主任、机器人与自主系统领域主任刘明博士对集微网指出，自动驾驶视觉功能的核心在于提供自身定位与如何理解周围环境，从而实现导航与避障还有人机交互等功能，理论上来说，随着深度学习和强化学习的发展，机器视觉从简单的二维物体识别到现阶段的三维重构、语义识别、强化迭代避障功能等，加之云计算与V2X网络等大数据并行处理系统与车载自动驾驶系统的融合，机器视觉在理论上是可以实现完全的自动驾驶功能。

摄像头视觉方案仍存诸多问题待解决

刘明博士指出，现阶段的自动驾驶摄像头视觉方案很大程度上依赖大量高清的照片拟合深度学习模型，从而提高识别和定位的精度，不同程度的光照和未知物体的出现增加了单纯摄像头的机器视觉识别和定位难度，工程上需要进一步探讨如何降噪，如何与V2X网络连接，如何利用云计算辅助大规模智慧交通等种种问题，所以距离实现完全自动驾驶还有一定距离，需要大量工程实践进行补充。

具体来看，目前的主流方案中，车载摄像头主要包括内视摄像头、后视摄像头、前置摄像头、侧视摄像头、环视摄像头等。前瞻产业研究院在报告中指出，目前摄像头车内主要应用于倒车影像(后视)和360度全景(环视)，高端汽车的各种辅助设备配备的摄像头可多达8个，用于辅助驾驶员泊车或触发紧急刹车。

根据Yole数据显示，全球平均每辆汽车搭载摄像头数量将从2018年的1.7颗增加至2023年的3颗。前瞻产业研究院预计，随着ADAS和自动驾驶的逐步深入，单车所需搭载摄像头的数量不断增加，未来几年车载摄像头市场规模将获得较快增长，预计到2025年全球车载摄像头市场规模将达到270亿美元，中国车载摄像头市场规模有望突破230亿元。

IEEE会员，香港中文大学信息工程系助理教授，人工智能领域专家周博磊对集微网补充道，AI可以仅靠摄像头提供的视觉画面完成自动驾驶，但需要多个校准好的摄像头，而且对摄像头的分辨率有要求，并不是普通的网络视频摄像头。通过多个校准好的摄像头输入，可以比较精准地获取场景深度信息和对周围物体的三维感知，这样可以取得跟LiDAR输入类似的场景三维结构信息。标定好的多个高精度摄像头，结合大量真车数据，是特斯拉的自动驾驶策略，目前来看取得的效果还是不错的。

自动驾驶与机器视觉的互相成就

尽管目前还有许多需要进一步解决的技术难点，但如果特斯拉最终完成了纯视觉的自动驾驶技术，对于人工智能的发展，特别是机器视觉而言无疑是一种侧面的积极印证，同时人工智能也将助力自动驾驶技术的迭代。

前瞻产业研究院指出，机器视觉技术是人工智能正在快速发展的一个分支，自起步发展至今，机器视觉从概念提出到形成产业，其功能以及应用范围随着工业自动化的发展逐渐完善和推广。

根据研究机构Markets and Markets的数据，2010-2020年，全球机器视觉市场规模呈现不断上升的趋势。2020年，全球机器视觉市场规模达107亿美元，近5年复合增速达14.48%。

IEEE高级会员，IEEE消费技术协会标准理事会主席袁昱博士对集微网表示，不管是纯视觉、激光雷达、还是别的技术路线，人工智能技术的发展必将促进自动驾驶的普及。最终在市场上胜出的自动驾驶解决方案，一定是在成本与安全性之间取得很好平衡的。

对于未来机器视觉在自动驾驶等领域的发展，刘明博士指出，视觉技术作为自动驾驶领域的主要感知技术，起着至关重要的导航作用，未来的机器视觉会朝着大规模高精度高智能维度发展，大规模指的是随着视觉技术的工业迭代成熟，机器视觉会在自动驾驶领域大规模应用，高精度指的是随着视觉技术理论的成熟和工业实践的深入，视觉的定位精度和识别精度会有大规模的提升，高智能指的是是视觉本身是带语义理解的，它将会更加贴近人类理解世界的方式，综合识别出周围环境，能认知道路结构，行人行为等等。

周博磊补充道，自动驾驶将是人工智能视觉技术的一个重要应用，也是一个人工智能视觉技术进入物理现实生活的切入点。基于这个切入点，未来会有更多的与之相关的应用，如智能交通，服务机器人等。

他强调，视觉技术也不是一个孤立体，它需要跟下游任务，如控制和规划技术，机械实现等更一体化的整合。（校对/Sharon）