近年来,人工智能相关技术再次得到全面发展,各类深度学习新技术层出不穷,在云计算、大数据和芯片等新兴技术的支持下,逐渐从“智能”走向“智慧”,占领新一轮科技革命的制高点。
人工智能的逐渐成熟,为各行业数字化转型带来了强大的动力。全球范围内各行业数据中心对推理算力的需求在快速增长,下游客户多样化的算力应用场景,催生了多样化的AI计算加速芯片需求。
研究机构赛迪顾问报告显示,从2019年到2021年中国AI芯片市场规模仍将保持50%以上的增长速度,到2021年,市场规模将达到305.7亿元。其中,随着大规模地方性数据中心的建设陆续完成,云端训练芯片增长速度放缓,而随着各领域市场需求的释放,云端推理芯片、终端推理芯片市场增长速度将持续呈上升趋势。从2019年到2024年,云端训练芯片的年复合增长率为32%,而云端推理的增长率将达69%。到2022年,中国云端推理芯片市场规模将达到189亿元,首次超过云端训练市场规模。
“AI推理市场将超越训练市场,并且差距会越来越大。我们所面对的海量数据,需要很多个推理运算单元支撑你的计算。随着AI应用不断扩展,推理远大于训练是顺理成章的。”瀚博半导体创始人兼CEO钱军在昨(7)日的发布会上表示。
成立于2018年的瀚博半导体致力于成为驱动云边计算的算力源泉、中国芯片设计企业的标杆和世界芯片设计的领导者之一。基于对行业产品技术需求的洞察及显而易见的巨大市场机遇,经过两年多的技术论证与软硬件一体化设计,瀚博半导体推出了专为云端数据中心而生的SV100系列芯片与VA1通用推理加速卡,预计2021 Q4量产。
钱军指出,瀚博深度了解行业客户对吞吐量、延迟、通用性和成本的需求。同时,向前兼容性非常重要,瀚博的软件栈具有极高灵活性与可扩展性,能够支持未来新兴算法模型和用户自定义算子扩展等。另一方面,占据过半中国AI应用市场的计算机视觉应用需要高密度的视频解码算力配合AI算力实现端到端的计算加速,在两者之间的算力配比平衡方面,瀚博也做了大量的工作。
据瀚博半导体创始人兼CTO张磊介绍,此次发布的SV100系列芯片,单芯片INT8峰值算力超200 TOPS,深度学习推理性能指标数倍于现有主流数据中心GPU,具有超高吞吐率、超低延时的特性。瀚博自研的通用架构,为各种深度学习推理负载极致优化SV100系列芯片支持FP16, BF16和INT8等数据格式,并可以实现众多主流神经网络的快速部署及计算机视觉、视频处理、自然语言处理和搜索推荐等多样化推理应用场景。同时集成高达64路以上H.264/H.265/AVS2的1080p视频解码,广泛适用于云端与边缘智能应用场景,提升客户的设备资产效益、降低运营成本。
此外,同步推出的基于SV100系列芯片的VA1推理加速卡,为单宽半高半长75瓦PCIe x16卡,支持32GB内存和PCIe 4.0高速接口协议,无需额外供电,即可适用于所有厂商的人工智能服务器,实现数据中心高密度高算力部署。
张磊指出,SV100系列芯片基于先进的DSA架构,相同功耗下实现数倍于数据中心GPU的最高深度学习推理性能。同时支持计算机视觉、自然语言处理、搜索推荐、智能视频处理领域的众多常用神经网络,软件栈支持灵活扩展,支持用户自定义算子。VA1推理卡可无缝适配各种人工智能服务器,最大化算力部署密度。瀚博的VastStream软件平台支持TensorFlow, PyTorch, Caffe2等常见的深度学习框架模型与ONNX格式的模型,通过高度定制的AI编译器充分优化模型在瀚博硬件上的执行效率。
作为AI芯片的初创企业,研发一款大尺寸的芯片也并不容易。钱军在接受集微网在内的媒体提问时表示,作为初创公司,打造一款芯片会遇到非常多的挑战,在整个框架设立之初就会遭遇瓶颈。但最重要的是理解客户需求,从客户角度出发。选择DSA架构,一是英伟达的软硬件成熟度,如果以相同架构下与之较量存在较大难度。二是,GPU架构在AI推理侧虽然是主流,但并不是最好的架构方案。相对于AI训练,AI推理生态更容易突破。瀚博的DSA架构的核心IP核设计完全自主,面向整个广阔的推理市场,瀚博认为需要一颗非常优质的产品。
此外,公司的核心研发团队的专业知识和行业经验积累也与研发产品披荆斩棘的过程息息相关。瀚博创始团队包括前AMD高管和AMD Fellow,及多位资深AI和视频架构师。核心员工来自世界顶级的高科技公司,平均拥有15年以上的相关芯片与软件设计经验,包括业界第一颗7nm GPU在内的约百款芯片流片、量产经验。瀚博目前拥有200人以上的资深团队,研发人员占90%以上,且规模还在快速增长中。
“基于整体考量,我们第一个产品并没有直指GPU,更多的是去做一款新的DSA架构的产品。我们的创业目标非常明确,瀚博要做一个在国际上有竞争力的产品,而不单单是一个中国的故事,更不仅仅是一个国产替代的故事。”钱军说道。(校对/Sharon)