极致高效，为旌天权NPU助力御行系列芯片发挥强大AI算力

作者：爱集微 01-04 18:22

来源：为旌科技 #为旌科技# #为旌天权NPU#

特斯拉在2021年AI Day向外展示了一项全新的BEV+Transformer感知方案，开始尝试用AI模型将图像空间映射到BEV空间。BEV的全称是Bird’s Eye View，也就是鸟瞰图的意思，是一种用于描述感知到的现实世界的视角或坐标系，相当于在车辆正上方10~20米的位置有一个直升机俯视车辆及周围环境的视角，也即所谓的“上帝视角”。

基于自注意力机制的Transformer将多个摄像头采集的2D图像特征进行关联从而准确投影到一个向量空间，最终得到一张反映周围环境的鸟瞰图。转换后的BEV空间融合了多种传感器的感知数据，通过对过去时间片数据进行时序融合，进一步可形成4D空间，让感知效果更为准确和稳定。

虽然鸟瞰图可以很好还原周围环境，但毕竟还是一个2D图像，类似一张平面的地图。缺失了空间高度信息，意味着无法真实反应物体在3D空间实际占用的体积是多少。针对这些限制，特斯拉在2022年AI Day上将BEV升级为占用网络（Occupancy Network），进一步提升了泛化能力，让系统的感知从2D变为了3D。系统可以快速计算车辆周围3D空间中每个位置/体素（Voxel）的占用概率，无需再纠结物体具体是什么，只需考虑体素是否被占用，并能预测被瞬时遮挡的障碍物，从而更好应对辅助驾驶中的极端事件。

另一方面，随着国内自动驾驶企业们从高速NOA（自动辅助导航驾驶）走向城市NOA，企业纷纷转向“重感知，轻地图”的模式，BEV+Transformer感知范式，迅速进入到更多自动驾驶企业的蓝图规划中。

为旌天权NPU 先进架构与设计

而对于智驾芯片设计公司来说，与传统CNN架构完全不同的Transformer给芯片的设计带来了质变。芯片需要对算力需求的提升进行针对性设计，同时，也对架构和带宽的设计提出了更高的要求。基于上述背景，为旌科技推出了全自研的AI处理器为旌天权NPU，支持包括CNN和Transformer在内的主流模型。

CNN与Transformer最基本的区别是运算方式，传统的CNN使用了大量的CONV(卷积)算子，而Transformer则使用的是Matmul(矩阵运算)，天权NPU通过针对性的架构与带宽设计，同时，对MAC阵列进行优化，可同时高效支持卷积和矩阵运算；

另一方面，在Transformer模型中，LayerNorm和Softmax算子被大量使用，但在CNN里使用的频率很低，天权NPU根据Transformer模型特点针对性优化对应算子以提高计算效率，更好的支持Transformer应用；

为旌科技始终认为芯片最大的挑战是如何把计算的效率发挥出来，而不是简单的堆砌算力。面对Transformer中大量的Reshape和Transpose数据变形处理，为旌天权NPU通过灵活的指令集来避免频繁数据变形和搬运处理。进而保证了模型运算过程中的效率。

另外，为旌天权NPU还针对Transpose-Convolution和DW-Convolution卷积操作进行了优化处理、支持INT8/INT16/FP16等不同精度的计算场景、同时支持对YUV/RGB/RAW等多种图像格式的计算处理。

算力方面，为旌天权NPU支持算子级可编程技术，一方面单核NPU Core最大支持256Tops，且算力可灵活配置，另一方面可通过多核NPU Core的互联技术来满足更大算力需求。

为进一步提升计算效率，为旌天权NPU采用先进的近存计算技术，通过自定义专用memory接口，实现对on-chip memory的大带宽、多并行访问，并通过自定义指令集，充分发挥硬件优势，支持指令乱序发射，通过纯硬件方案解决指令相关性问题，效率最高，最大化提高处理器性能，并降低工具链开发复杂度。

通过实测性能对比，在同等条件下，为旌天权NPU的计算效率和功耗都远优于竞品。用极致高能效，有效应对实际应用场景中对芯片算力和功耗的苛刻要求。

为提升用户基于为旌芯片平台的开发效率，为旌科技提供一整套完整的工具链-为旌星图，可以为开发者提供全方位的技术支持。

为旌星图工具链支持PTQ（训练后量化），支持丰富的量化算法以及自动混合精度量化；同时，也支持QAT（量化感知训练）来满足不同场景的精度需求。此外，通过ONNX导入PyTorch，TensorFlow、Paddle-Paddle等训练框架模型，并可接入TVM、OpenVX、NNAPI、Paddle-Lite等成熟AI推理生态。

为旌星图采用先进的编译算法将模型进行Tiling和高效调度，以充分利用片上资源，提高MAC利用率，充分发挥NPU的算力，显著降低内存访问带宽。同时，可以支持NPU和DSP之间直接交互，有效提高异构计算的效率以及降低模型推理迟延抖动。此外，为旌星图工具链还提供x86下的NPU性能仿真器和精度仿真器，算法模型的部署效率大步提升。

为旌御行旗舰产品VS919

为旌科技已于2023年12月21日正式发布搭载为旌天权NPU的智能驾驶芯片——为旌御行。基于为旌天权NPU的强大性能，为旌御行系列芯片在AI计算方面表现优异。除NPU外，为旌御行系列芯片还集成了CPU、DSP、GPU以及MCU，通过多核任务均衡分配，有效提高芯片计算效率。

为旌御行旗舰产品VS919支持单芯片8V行泊一体+CMS域控方案，引入BEV环侧复用，可实现高速点到点NOA。为应对高阶智驾场景需求，VS919还可通过级联扩展算力，实现高端11V及以上的行泊一体方案，实现部分场景下纯视觉城区NOA功能。产品详情请见：重磅发布| 为旌御行系列，开启智能驾驶新篇章