极致高效,为旌天权NPU助力御行系列芯片发挥强大AI算力

来源:为旌科技 #为旌科技# #为旌天权NPU#
2w

特斯拉在2021年AI Day向外展示了一项全新的BEV+Transformer感知方案,开始尝试用AI模型将图像空间映射到BEV空间。BEV的全称是Bird’s Eye View,也就是鸟瞰图的意思,是一种用于描述感知到的现实世界的视角或坐标系,相当于在车辆正上方10~20米的位置有一个直升机俯视车辆及周围环境的视角,也即所谓的“上帝视角”。

基于自注意力机制的Transformer将多个摄像头采集的2D图像特征进行关联从而准确投影到一个向量空间,最终得到一张反映周围环境的鸟瞰图。转换后的BEV空间融合了多种传感器的感知数据,通过对过去时间片数据进行时序融合,进一步可形成4D空间,让感知效果更为准确和稳定。

虽然鸟瞰图可以很好还原周围环境,但毕竟还是一个2D图像,类似一张平面的地图。缺失了空间高度信息,意味着无法真实反应物体在3D空间实际占用的体积是多少。针对这些限制,特斯拉在2022年AI Day上将BEV升级为占用网络(Occupancy Network),进一步提升了泛化能力,让系统的感知从2D变为了3D。系统可以快速计算车辆周围3D空间中每个位置/体素(Voxel)的占用概率,无需再纠结物体具体是什么,只需考虑体素是否被占用,并能预测被瞬时遮挡的障碍物,从而更好应对辅助驾驶中的极端事件。

另一方面,随着国内自动驾驶企业们从高速NOA(自动辅助导航驾驶)走向城市NOA,企业纷纷转向“重感知,轻地图”的模式,BEV+Transformer感知范式,迅速进入到更多自动驾驶企业的蓝图规划中。

为旌天权NPU 先进架构与设计

而对于智驾芯片设计公司来说,与传统CNN架构完全不同的Transformer给芯片的设计带来了质变。芯片需要对算力需求的提升进行针对性设计,同时,也对架构和带宽的设计提出了更高的要求。基于上述背景,为旌科技推出了全自研的AI处理器为旌天权NPU,支持包括CNN和Transformer在内的主流模型。

CNN与Transformer最基本的区别是运算方式,传统的CNN使用了大量的CONV(卷积)算子,而Transformer则使用的是Matmul(矩阵运算),天权NPU通过针对性的架构与带宽设计,同时,对MAC阵列进行优化,可同时高效支持卷积和矩阵运算;

另一方面,在Transformer模型中,LayerNorm和Softmax算子被大量使用,但在CNN里使用的频率很低,天权NPU根据Transformer模型特点针对性优化对应算子以提高计算效率,更好的支持Transformer应用;

为旌科技始终认为芯片最大的挑战是如何把计算的效率发挥出来,而不是简单的堆砌算力。面对Transformer中大量的Reshape和Transpose数据变形处理,为旌天权NPU通过灵活的指令集来避免频繁数据变形和搬运处理。进而保证了模型运算过程中的效率。

另外,为旌天权NPU还针对Transpose-Convolution和DW-Convolution卷积操作进行了优化处理、支持INT8/INT16/FP16等不同精度的计算场景、同时支持对YUV/RGB/RAW等多种图像格式的计算处理。

算力方面,为旌天权NPU支持算子级可编程技术,一方面单核NPU Core最大支持256Tops,且算力可灵活配置,另一方面可通过多核NPU Core的互联技术来满足更大算力需求。

为进一步提升计算效率,为旌天权NPU采用先进的近存计算技术,通过自定义专用memory接口,实现对on-chip memory的大带宽、多并行访问,并通过自定义指令集,充分发挥硬件优势,支持指令乱序发射,通过纯硬件方案解决指令相关性问题,效率最高,最大化提高处理器性能,并降低工具链开发复杂度

通过实测性能对比,在同等条件下,为旌天权NPU的计算效率和功耗都远优于竞品。用极致高能效,有效应对实际应用场景中对芯片算力和功耗的苛刻要求。

为提升用户基于为旌芯片平台的开发效率,为旌科技提供一整套完整的工具链-为旌星图,可以为开发者提供全方位的技术支持。

为旌星图工具链支持PTQ(训练后量化),支持丰富的量化算法以及自动混合精度量化;同时,也支持QAT(量化感知训练)来满足不同场景的精度需求。此外,通过ONNX导入PyTorch,TensorFlow、Paddle-Paddle等训练框架模型,并可接入TVM、OpenVX、NNAPI、Paddle-Lite等成熟AI推理生态。

为旌星图采用先进的编译算法将模型进行Tiling和高效调度,以充分利用片上资源,提高MAC利用率,充分发挥NPU的算力,显著降低内存访问带宽。同时,可以支持NPU和DSP之间直接交互,有效提高异构计算的效率以及降低模型推理迟延抖动。此外,为旌星图工具链还提供x86下的NPU性能仿真器和精度仿真器,算法模型的部署效率大步提升。

为旌御行旗舰产品VS919

为旌科技已于2023年12月21日正式发布搭载为旌天权NPU的智能驾驶芯片——为旌御行。基于为旌天权NPU的强大性能,为旌御行系列芯片在AI计算方面表现优异。除NPU外,为旌御行系列芯片还集成了CPU、DSP、GPU以及MCU,通过多核任务均衡分配,有效提高芯片计算效率。

为旌御行旗舰产品VS919支持单芯片8V行泊一体+CMS域控方案,引入BEV环侧复用,可实现高速点到点NOA。为应对高阶智驾场景需求,VS919还可通过级联扩展算力,实现高端11V及以上的行泊一体方案,实现部分场景下纯视觉城区NOA功能。产品详情请见:重磅发布| 为旌御行系列,开启智能驾驶新篇章

为旌科技致力于为客户提供好用、易用、耐用的智能驾驶芯片御行系列凭借高计算效率、高集成度、高安全性、低功耗、低延时等五大优势,降低研发成本,助力客户实现极致性价比的单芯片行泊一体解决方案。

未来,凭借资深团队的技术实力,在高能效AI计算、图像处理以及复杂SOC架构设计能力方面的深厚积累,为旌科技将持续扩大生态圈,与行业合作伙伴一起,共同推动智能驾驶解决方案规模化落地,助力智能驾驶行业快速发展。

责编: 爱集微
来源:为旌科技 #为旌科技# #为旌天权NPU#
THE END
关闭
加载

PDF 加载中...