探索AI软硬件适配之路,共创算力服务新未来|甲子引力

来源:甲子光年 #芯耀辉#
5421

编者按:文章爱集微经甲子光年授权转发。

11月30日至12月1日,由中国科技产业智库「甲子光年」主办的「致追风赶月的你」2023甲子引力年终盛典在北京顺利举行!百余位嘉宾齐聚一堂,聚焦产业前沿话题,剖析科技产业风口,总结分享这一年来的里程碑事件和行业变量,共同探寻科技产业融合与落地的方向与思路。

在12月1日的《探索AI软硬件适配之路,共创算力服务新未来》主题圆桌中,青云科技副总裁&云业务部负责人沈鸥、亿铸科技创始人&董事长兼CEO熊大鹏、芯耀辉董事长&创始人曾克强、善思开悟COO余溢、传智驿芯科技首席战略官时昕、忆芯科技副总裁孙唐围绕“算力服务的机遇与挑战、算力需求满足、生态构建”等话题展开讨论。

以下是本场圆桌的交流实录,「甲子光年」整理删改:

1.AI狂飙下,算力的机遇与挑战

沈鸥:谢谢各位嘉宾,也谢谢下面的各位听众。我们今天上午的最后一个话题是谈谈算力,也谈谈国产GPU和国产芯片行业,以及如何来应对大模型以及AI的快速发展所带来的挑战。现在,我们先请各位嘉宾来自我介绍一下。

青云科技副总裁&云业务部负责人 沈鸥

熊大鹏:我是熊大鹏,来自亿铸科技。我们公司主要做AI大算力芯片,具体来说,我们做的是全数字化的存算一体,这是一条比较新的技术路线。到目前为止,不管是从技术路线本身,还是从工程落地来讲,都比较先进且具有优势。而且,我们的POC(原型概念验证芯片)也已经点亮成功了,经第三方机构验证,能效比表现超出目前基于先进工艺制程、传统架构AI芯片10倍以上。

曾克强:大家好,我是芯耀辉董事长、创始人曾克强。芯耀辉是国产先进工艺接口IP的领先供应商,专注于做先进工艺的接口IP。我们在先进工艺接口IP上,目前已经实现了国内唯一的最先进工艺上全线的所有主流接口IP国产化。我们提供的接口IP已经支持了人工智能、高性能计算、5G通信、智能汽车、消费电子所有的核心应用。我们的产品已经上市,并且被各个领域的头部客户所采用,也突破了国内的卡脖子技术。

余溢:大家好,我是善思开悟的COO余溢。善思开悟依托国家超算广州中心、英伟达无锡AI创新赋能中心两大核心资源成立,致力于提供HPC+AI的一站式异构算力解决方案,并提供一些生态方面的支持和服务。期待能够通过本次盛典与大家达成合作,谢谢!

时昕:大家好,我是时昕,来自传智驿芯。我们主要做芯片设计上游IP,同时提供解决方案。我们的产品和技术起点来自于纳斯达克上市公司Arteris的一些片上网络互连IP,然后以此为基础,我们提供更多包括子系统IP和芯片设计解决方案在内的服务。

稍微解释一下片上网络。我自己过去从事了很多年做处理器设计的工作,包括GPU等等。我之所以加入这家公司,一个主要原因就是随着摩尔定律放缓,芯片性能的提升现在更多是要依靠多核、众核包括异构这种方式来提供更强大的算力。在众核的时代,如何把几百个甚至几千个处理器核组织起来、调动起来,这就成为一个关键问题。而片上网络互连会成为芯片内部非常关键的技术。因此,我们以片上网络(NoC)为起点,结合我们在各种多核方面的芯片设计经验,实际上可以帮助芯片设计客户加快设计节奏,提高产品性价比。

过去,传统的互连方式可能会占用到一个芯片里面1/3甚至更多的面积,而且在后端会导致拥塞和时序等问题。而我们通过NoC可以帮助大家以更低的代价实现片内更高的带宽和更低的时延。谢谢!

孙唐:大家好,我是忆芯科技的孙唐。我们忆芯科技是一家目标赋能大数据应用的芯片集方案的主控设计公司。我们的产品有两个系列,一个是高性能的存储主控,主要面向企业级市场,目前我们在国内是信创头部存储主控以及存储模组供应商。另一个系列是存算融合技术,这项技术主要是为了满足未来智算中心算力和存力共同发展的业务需求,我们提供片上存力、算力一体化的业务解决方案。目前,我们有一些成熟的产品正在进入各地的数据中心以及相关的运营商市场。我很高兴有机会和各位专家讨论这个话题。

忆芯科技副总裁 孙唐

沈鸥:今天在座的各位嘉宾来自不同的专业领域,有做AI芯片的,有做IP技术的,也有做管理平台的。我来自青云科技。今年,我们的客户发现AI和大模型让他们对业务有了很多新的想法和思路。对于青云科技这样服务企业数字化的行业来说,我们面临的挑战是如何能够应对客户新的业务需求发展,比如,如何在云服务、云产品这个领域满足客户的要求。我相信在座的各位领导也遇到过此种挑战。今天整个AI大模型对相关产业都带来了一些变化。在这里,我想请余总介绍一下,站在你的角度,你们看到这带来了哪些新的机会和挑战?

余溢:我们公司注册于今年5月,AI大模型早于公司出现,并对我们的发展路线造成了很大的影响。作为一家算力供应商,我们切身感受到了大模型浪潮带来的市场方面算力需求的猛增。于公司而言,算力需求多多益善。

从机会角度来说,需求的增加促进了整个算力市场及行业上下游生态的发展。

从挑战角度来说,第一个挑战是对计算速度和性能的挑战,大模型的出现,使得大家对算力的要求提高。例如像CPU计算这一类型的传统算力,相对来说只能满足基本需求。现在大家对计算速度和性能有了更高的要求,这就对卡的配置提出了更高的标准。顺便给在座的各位打一个硬广,我们也提供高端算力和高端芯片,如果有兴趣可以了解一下;第二个挑战是从硬件到软件的挑战,高端芯片的昂贵价格直接对企业提出了更高的要求。从成本控制的角度考虑,企业需要权衡如何合理配置资源,包括不同类型的卡,用GPU和CPU的配比或者是否有更先进的互联技术包括网络带宽设置、机房设置等等。

沈鸥:熊总,从您的角度出发,是如何看待其中的新机会的?

熊大鹏:大模型的出现确实让存算一体有了更多的机会。因为存算一体主要解决两个问题。一个是从架构的角度来看,在相同的工艺和功耗条件下,裸算力确实比传统架构要高出10倍以上,这一点无论是从理论上还是工程实践上都已经得到了证实。第二个,在大模型时代,一个最大的问题就是数据搬运的带宽不够,无论是从外部搬到芯片内部,还是芯片内部之间的传输,以及芯片与芯片之间的连接等方面,都存在带宽瓶颈。

所以,存算一体的优势在这种情况下就彰显出来了。因为在存算一体AI芯片中,很多模型参数数据不需要搬运,它们本身就是芯片内部的一部分。因此,存算一体的实际运算效率会比传统架构更好,甚至可能高出好几倍。再加上其对裸算力的提升,可以说在大模型时代具有非常强的优势。

亿铸科技创始人&董事长兼CEO 熊大鹏

沈鸥:我也想问下孙总,刚刚我们谈到了缩短存储或者在CPU和GPU之间的连接以增加带宽的问题。我们看到英伟达使用GPU和NVLink等技术,为其整体性能带来了很大的提升。您怎么看这个问题,这给您的企业带来了什么样的机会呢?

孙唐:我们观察到英伟达实际上完成了三件事情。第一个,英伟达集成了网络、存储和计算三种资源,收购了迈络斯并做了片上的NVLink。第二个,英伟达与IBM联合开发了BaM大型加速器存储技术,相当于说GPU和存储能够直通。第三件事,他们还投资了一些以色列公司,以解决小数据的存储和检索加速问题,这主要是为了应对当前智算和超算领域中大模型的训练问题。

大家可能都知道单张GPU卡的故障率只有万分之几,但在大规模使用千卡万卡进行大模型训练时,平均故障时间小于两天。为了解决这个问题,目前引入了一种在超算中心中使用的DDN技术。这种技术可以通过不断记录、存储快照,并在出现故障时以回款方式进行错误修复,从而确保大模型的效率。这种技术实际上带来了存储领域20倍以上的数据增长。

大家都知道最近六部委联合发布了关于算力、存力共同发展的指导性意见,要求未来的智算中心30%以上的部分必须是全国产。为什么?这其实是为了解决算力、存力发展不平衡的问题。对于忆芯来说,这是一个巨大的机会。

首先,我们本身就是做高性能企业级存储的,我们的目标是替代DDN这样的超算中心中的存储单柜。其次,我们在片上还内置了一些数据库和向量加速能力,这对整个智算中心来说具有巨大的价值。因此,从目前来看,我们的方案和产品在未来市场上有着良好的前景和预期。

沈鸥:我自己在实际项目中注意到DDN的存储价格相当高昂。如果有非常好的国产替代产品和解决方案,我相信在国内建立新的智算中心和大数据中心时,肯定会更加倾向于考虑使用国产的相关设备和技术能力。

我们刚刚谈到了英伟达,其实英伟达除了硬件能力外,还有软件方面的生态,这对整个业态构成了巨大的挑战。在国内讨论AI算力的时候,我们常常会提到是否能够与CUDA对接,以及是否能够与下方的多个开发平台对接。下面我想继续问一下孙总,从您的观点来看,这种软硬件的结合或者生态的结合,并不仅仅是谈一个技术,而是涉及到整个生态建设。在这方面,您认为您的公司或者您个人来看,我们应该做些什么样的工作呢?

孙唐:非常感谢您的提问,也让我有机会给各位报告一下我的背景。我原先在AMD做GPU的,所以与国内现有的这些GPU公司保持着相当多的沟通和协同合作。从这个角度来看,为什么CUDA生态能够成功建立起来,是因为他们坚持了整整十年的投入。相对来说,如果国内的GPU公司、网络公司以及存储公司想要与英伟达同台竞技的话,其实我们最主要的诉求应该是要进行能力协同。简单来说,就像刚才提到的英伟达与IBM合作收购了迈络斯,投资了POI Apps,都是为了构建一个完整的生态链,以确保在市场上具备足够的竞争力。

对于我们来说,关于CUDA生态,我们的第一个目标肯定是在不侵犯专利的前提下,实现生态的兼容。第二个则是需要针对国内实际的大型模型现状,确保数据的安全性、隐私性,以及符合当前网络信息安全的要求。实现数据可用但不可见的一体化能力需要存储和计算的共同协同合作。

在这方面我们已经有了一些预先的布局和规划,希望能够为未来的国产大型模型和国产智能计算中心提供一个更具先进性、安全性和可靠性的能力基础。当然,我们的最大诉求是希望将这些技术和解决方案变得更加便宜一些。谢谢大家。

2.国内做生态配合,需要蚁群战术

沈鸥:我认为现在变得便宜可能不是最紧急的,主要还是在国内我们需要建立自己的完整软件生态。其实前面一个圆桌讨论中,我们听到了很多关于开源社区的话题,我相信如果国内有完善的开源生态和软件生态,我们整个国内的硬件体系将会有更好的发展。熊总,从您的角度看,你们企业如何看待与其他软件公司或硬件公司进行生态配合的问题?有什么经验和心得可以与在座各位分享的吗?”

熊大鹏:前面有很多专家谈到了开源和开源社区,当然,我们做的话,肯定也是基于开源先去做。刚刚提到的CUDA问题,这是一个很有意思也很复杂的话题。我从两个方面来谈一下我的看法:

第一方面,对于大型模型来说,由于其泛化性能较好,这在一定程度上削弱了英伟达和CUDA在这一领域的生态墙。第二方面,走不同的技术路线,例如我们采用的存算一体技术路线,由于我们芯片架构技术路线的特殊性,能够实现一键生成和一键迁移等功能。我们利用开源架构,在上层能够与CUDA兼容,这一点我相信相对容易实现。在编译器层面,通过我们的一键生成工具,可以自动基于一些经典算子生成优化过的可执行代码。所以从这个角度来说,尽管我们不能完全推翻它的生态壁垒,但至少可以在它的生态墙上打一个洞,让我们能够有所获取。

沈鸥:余总,贵司今年虽然刚刚成立,但已经看到了很多异构的情况,比如国产GPU。我知道现在有很多厂商也在从事这一领域的研究工作。站在您公司的角度,你们如何克服这些技术难题,去解决所遇到的软件生态和整体的适配工作呢?

余溢:关于异构的话题,我有三点想说。

首先,我们与一些国产厂商共同探索过国产芯片异构的问题。但在这些厂商中,只有少数的会积极地兼容适配CUDA的整个生态,以确保现有的能够使用,这是非常重要的。说得直白一点,现在大部分的国产厂商,如果他们自己去开发自己的生态或软件,可能很多软件都不会用,研发人员也不会用,不知道该怎么用。所以首先得满足这个需求;

其次,我们也知道现在有很多的厂商,比如华为昇腾,他们自建生态,我认为这对于整个行业的发展来说,是一个比较好的方向;

最后,我们会慢慢地走向国产自研的方向。我们发现了CPU虽然可以用,但它就是不好用,就是慢。在某些特定场景里,比如科学计算中,确实也会使用到CPU。所以我觉得我们也可以去探索一下CPU+GPU的方式。

善思开悟与中山大学联合建立了一个AI创新赋能联合实验室,我们会有很多国产芯片的公司把他们的芯片给我们去做性能测试。我知道在场有一些可以合作的公司,做测试、做适配和优化,我们能去做一些算法移植等等。我觉得这些都是很好的一些探索,未来肯定还是很有突破的空间的。

善思开悟COO 余溢

沈鸥:所谓的突破,我相信这不仅仅是企业的努力,昨天我正好参加了一个政府的算力中心的开业,谈到政府其实也在扶持国产的很多芯片和厂商,要一起去打造这个生态。但是我们在与他们交流的时候,也会看到一个问题,在算力领域要弯道超车,其实离不开芯片设计的行业。我们看到美国与中国的竞争中,还有CAD的设计、很多的设计软件以及整个的IP。刚才也听到了这是芯片设计的一个基石。

国内整个IP国产化率可能相对还比较低。我们应该怎么去做这块的创新和加速呢?时博士,从你们的角度来说,您认为我们应该在哪些地方努力去做一些创新和突破?对你们企业来说,在这个领域要怎样去满足今天大模型和AI算力带来的一些新需求呢?

时昕:您提的问题真的非常好,让我有很多话想说,但可能有些零散。首先,您提到了IP作为芯片设计的基石。我想先分享一下半导体行业协会的数据。在中国,只有大约3%的企业规模是超过500人的。但看看国际企业,无论是NVIDIA、高通等,他们的员工规模都是几万人。因此,我个人的结论是,中国的企业或芯片设计企业对于IP的依赖性可能会更强。像NVIDIA、高通这样的公司,他们的员工规模要大很多倍,而且已经存在了很多年,所以他们有很多自己的积累。

在中国很多小一点的企业,大概有超过90%的企业员工人数在200人以下。他们要想快速推出一个产品,可能对IP的依赖性会更强。这还只是硬件方面。在软件方面,如果是处理器的话,无论是NVIDIA还是高通,他们其实有更多的工程师是做软件的。包括NVIDIA的创始人,他曾经两次说过,一次说NVIDIA是一家软件公司,后来又改口说NVIDIA是一家AI公司。

在这些处理器公司里,你会发现他们的软件工程师数量也是非常多的,包括CUDA生态为什么做得这么好,是因为他们早期可能有上千的软件工程师写CUDA相关的底层库,到现在每年有几千个软件工程师投入。这方面会导致我们真想要突破这个生态的垄断地位,我们需要做的工作还是非常多的。

在国内,目前像华为这样的公司有很多底层的人才,包括硬件和软件方面。他们很有机会自建一套生态。但对于大多数的公司来说,只有几百人的公司靠自己的力量其实是非常难的。要想做到这一点,我们可以采用开源、社区、联盟等方式。我们可能用蚁群的战术,一个500人的公司可能突破不了,但是如果我们有一百个500人的公司是不是就有5万人了。当然这5万人怎么能够协调好就类似于一个芯片里面有1000个处理器核你需要一个NoC组织起来。NoC就是让芯片里面的数百个核能够协同工作的中心枢纽,能够让每个核心IP的价值叠加起来,协作起来。如果将一个高性能的SoC比喻成一个人,那么NoC就是这个人的血管网络,重要性不言而喻。传智驿芯可以提供业界最先进的NoC解决方案,为中国的高性能计算产品提供最优质的片上网络通信。

传智驿芯科技首席战略官 时昕博士

曾克强:感谢主持人的提问。国内要在AI大算力领域实现弯道超车,芯片设计是不可缺少的一环,而芯片IP是芯片设计的基石。但国内芯片在IP领域国产化率还是非常低,尤其在高性能、高价值的CPU和高速接口IP领域。例如,全球高性能的CPU主要由Arm公司垄断,但近年来国际上兴起了开源的RISC-V技术,国内也有不少公司在做RISC-V的IP。而在高速接口IP方面,国际上主要由新思科技占据绝大部分市场份额,国内在这块还是非常薄弱的。

我在创立芯耀辉之前,在新思科技工作了21年,并担任中国区副总裁。正是看到国内这个薄弱环节,我们在2018、2019年开始筹划,于2020年创立了芯耀辉,致力于解决国内“卡脖子”技术。传统的国内友商在高速接口IP领域虽然有所尝试,但产品比较单一、不完整,主要集中在40纳米及以上的传统工艺。而先进工艺的高速接口技术门槛相当高,需要针对先进工艺不断升级迭代,同时紧跟协议标准的快速演进,如DDR3到DDR5、PCIe3、4到PCIe 5,不同的协议都要能够快速演进,还要能针对不同外设实现良好的兼容性和可靠性。这需要整个团队与下游应用厂商有十几二十年的共同迭代产品量产打磨经验。芯耀辉的核心团队来自新思、紫光展锐、华为海思以及高通等国际国内顶尖大厂,积累了十几二十年的相关经验。因此,我们在成立后的短短三年内实现了国内最先进工艺的线上全套主流接口IP的自研并推向市场。去年我们实现了上市上量,今年在高性能计算、人工智能、5G、汽车电子等各个领域都实现了全套接口IP的量产交付,帮助国内解决“卡脖子”问题,也支持AI产业实现弯道超车。

沈鸥:我再问一个问题,你们谈到了这种合作需要上下游十几年甚至更长时间的合作。我想知道在这个领域里,是否有一些相应的新的标准需要重新适应今天整个AI大模型的要求?电子和软件的结合是一个自然的过程,整体上一定会遵循一些标准。在标准方面,你们企业是否观察到这个业态在中国自主的标准或设计上有一些工作要做?

曾克强:这个问题很好。IP,尤其是接口IP,是有国际标准的。我先讲一下大模型对于接口IP带来的机会和挑战。首先,大模型对接口IP的第一个要求是更高的数据吞吐量、更复杂的接口和更多协议的支持。这需要我们在关键的协议标准上能够达到最高性能。例如,传统上,我们和大家都在使用的是DDR4,但目前国际上最新的标准已经到了DDR5,要实现6.4G的最高速率。我们已经是国内第一家实现并交付这个速率的公司,并且已经在国内高性能计算领域的头部客户中量产使用。

PCIe外设上同样也是,同样需要达到最高速率标准,如PCIe5。虽然国际上最新的标准还没有出来,但很快就会出来到PCIe6。虽然以前国内在这块比国外要滞后几年,但由于大模型的出现,我们看到未来1-2年这个需求很快就会出来,我们也已经开始研发下一代的PCIe6,这是一方面。

第二方面,大模型对于大算力有很大的需求,这需要的是更先进工艺的接口IP支持。这也是我刚刚提到的,我们传统的国内IP设计往往都是在28纳米以上的成熟工艺,但我们已经实现了国内最先进的12、14纳米工艺的最先进IP研发。

除此之外,我们在今年半导体协会广州ICCAD上讲到的,不仅是先进工艺上的实现,因为现在大家都知道,国内的先进工艺实际上受到了一些国际政治的影响,我们能否在相对成熟的工艺上实现国际上下一代工艺的性能,这个也是很考验技术的。目前来说,我们的DDR5就是在国内12纳米的工艺上实现了6.4G的吞吐最高性能速率,而在这个速率上,国际上所有头部厂商都是在下一个工艺节点7纳米上实现的,所以这个需要有新的技术。

第三点是大模型对于算力的需求。今天大家都看到了出台的各种限制措施,国内的算力在最新的芯片密度上受到一定程度的制约。而且另一方面也是摩尔定律失效以后进入后摩尔时代,实际上通过工艺得到性能提升的效能已经逐渐减弱了,这个更需要我们通过新兴的技术路径,通过Chiplet异构集成去实现算力堆叠,而Chiplet技术落地最核心的就是需要片间互连。如何把不同的原来一个完整的SoC的芯片根据不同的功能、不同的工艺需求划分成不同的芯片Die,然后用不同的工艺生产把他们再连接起来。其实,最核心的就是芯片Die和Die之间的互联,这也是您刚提到国内有没有最新的标准。

国际上最新的标准叫UCIe,我们是国内首批加入UCIe组织的,但我们也知道国际的标准往往需要的产业链是根据国外的技术生态实现的。我们国内的一些生态链和这个还有差距,如何做自己的标准是要符合国内的生态来做的。

在中国,我们积极参与首个Chiplet原生产业联盟,并成为主要的贡献单位之一,参与并制定了相关标准。不仅如此,我们还是国家科技部相关重点专项的唯一落地实施单位。针对片间互联,我们成功实现了Die to Die UCIe标准,并同时兼容国内标准。作为国内首家成功研发出相应Die to Die IP并推向市场使用的公司,我们在推动行业发展方面走在了前列。传统上,这一标准需要支持2.5D和3D的先进封装技术,但由于国内实际上在封装方面还有一些滞后,我们将密切关注在保证性能的同时支持国内产业链的发展。我们的技术可以不仅能够支持2.5D的封装,同时也与国内传统的封装方式兼容,为大算力产业的进一步发展提供了强有力的支撑。

芯耀辉董事长&创始人 曾克强

沈鸥:介绍非常完整。我们能了解到,新的标准正在使用今天所拥有的技术来支持一些新的技术和标准。我想问一下时总,鉴于今天我们所看到的算力需求的暴涨,从芯片设计的角度来看,你们的企业以及产业上下游的企业是如何应对这种暴涨的算力需求的?包括在汽车电子、智能驾驶等各个领域。我相信不仅仅是在大模型这样的领域,其实AI在方方面面都有需求,那么你们是如何进行构建的呢?

时昕:刚才余总提到了一个词——“异构”。这个词也被其他几位嘉宾提到过。我认为,多核和异构将是未来的一个重大趋势。曾总也提到过摩尔定律正在放缓,因此,要提升算力可能更多地需要依赖增加更多的核,甚至更多的硬件资源来承载这些核。同时,这些核并不都是完全相同的架构,可能包括CPU、GPU、NPU等。如何协调它们,包括在软件方面,可能是我们未来应对AI或自动驾驶带来的算力需求的方向。

当然,还有一些更前沿的,例如熊博士和孙总正在研究的存内或近存计算。虽然目前这些技术可能还稍微前沿了一点,但在某些特定的细分场景中,它们具有非常好的优势。而目前基于处理器的方式,无论是CPU还是GPU,可能在通用性和适配性方面会稍微好一些。将基于逻辑的矩阵运算的核与近存或存内计算结合起来,也是一种异构的概念。在驾驶中,对于某些特定的算子,我们可以使用非常高效的方式进行计算,实现低性能、低功耗。对于其他不太适合内存计算的场景,我们还是可以使用传统的方式来进行计算。这种分工可能是未来的一种方式。

3.GPU不是为AI而生的

沈鸥:相当于是在用不同的芯片适应不同的场景,以实现芯片利用的最大化。今年我们都在讨论算力,算力其实就是一种服务。在整个算力服务的层面上,为什么大家都在争夺GPU资源呢?因为前面论坛的嘉宾也提到了,没有算力,我们只能去租用一些相应的算力。在国内的西北地区,有很多算力中心的建设。这些算力中心的建设其实是国家“十四五”规划的一部分,包括国家在谈到2035年的一些计划制订时,都会把算力、整个深度计算视为国家数字经济发展中非常重要的一个部分。

所以,我想和熊总讨论一个问题,在整个算力服务中,作为芯片制造商,应该如何服务于整个算力服务?你们如何能够将这一块打通?或者说如何让国产的算力与你们的场景更好地结合呢?

熊大鹏:我想补充一点,前面曾总讲得很好,片间互联等方面确实是一个短板,因为这方面的性能直接影响到整个系统的性能。时总也提到了异构,我觉得他说得非常对。首先,GPU肯定是AI算力的一个基础,这样一个系统不可避免地会是一个异构的系统。尽管我们现在做的是存算一体,但我们最终做的是存算一体超异构芯片。这个设计其实相当复杂,因为它涉及到好几个异构融合在一起。从芯片设计的角度来说,我们采用的是统一的设计,从指令集开始就把这几个异构统一在一起来设计,希望最终做出来的芯片在整体性能、可编程性等方面都能做得比较好。

另外,关于GPU对中国的算力,我有一个不一定对的观点,但我始终有这个疑虑。目前的GPU并不是为大模型而诞生的,甚至最初都不是为了AI而生的,而是为了图形渲染。因此,从技术根上来说,它并不是特别适合大模型的AI计算。从这个意义上来说,将来一定会有更好的技术、更好的解决方案在大模型和AI上解决得更好。这些新技术出来后,其能效比和性能肯定会比现有的技术要好很多。我们现在建设比如A100、H100这样的智算中心,将来如果和新的技术比起来真的差很多怎么办?今天投下去的这么多钱怎么办?

沈鸥:这是一个非常实际的问题。我相信很重要的一点是,大家都看到了未来。我们今天之所以投入这么多资金,是因为我们看到了整个大模型和AI将成为我们未来所有工作和应用的基础。可能你手机上的应用背后都需要一个大模型的支持,才能让它们变得更加智能。我也想请教一下各位嘉宾,从你们的角度来看,今天可能只是一个起点,那么在接下来的3-5年里,你们如何看待AI和大模型对你们所处行业的挑战和机遇?3-5年后会是一个什么样的情况?

孙唐:我这边其实有两个观点。目前大模型的落地非常热门,但就像熊总所说,能不能赚到钱现在是一个问号。第一个挑战肯定是资源匹配度的问题,谁来买单。这里的机遇非常大,我与熊总的观点一致,未来可能不是GPU的市场,而是存算融合、存算一体,可能会有更大的空间让大家赚到钱。

它会落地的方向可以分为两块来看,第一块是目前海量的推理市场,即针对应用的市场,如何降本增效。第二块是目前刚刚兴起的具身智能,也就是机器人这个领域。因为在中国,具身智能未来应该有很大的潜在发挥空间。未来这个大模型是否能进入大家的手机、进入大家的家用机器人,可能是一个非常有意义的场景。我们也会在这块进行学习和研究,看是否能在这个市场上做更多的拓展。

沈鸥:我个人观察到,比如国家在11月发布的《人形机器人创新发展指导意见》中提到,人形机器人将变得更智能,其背后有类似的大模型部分。再回到今天的主题元宇宙,元宇宙里的虚拟世界是否背后有AI模型的支撑,让元宇宙中的虚拟世界变得更加智能。我也想请教一下余总,你们公司刚刚成立,为什么有勇气介入这样一个新的市场?在接下来的3-5年里,你们如何看待自己的机会或者说整个大模型的机会在哪里?

余溢:首先,我个人认为这股“大模型热”可能会在明年有所冷却。我曾经在大厂里工作,所以我明白,之所以现在算力这么火,是因为大厂都在使用自己的GPU算力。而外面的人只看到了热闹的表象就开始哄抢算力,逐渐才发现事实上的供给并不多,还要面临贸易禁运的问题。但从长期看来,我对此持乐观态度,有了这样的一个热点,能吸引更多的公司一起努力,在未来实现生态的搭建和完善。我相信随着生态的发展,下游会出现实际的应用。

其次,从目前来看,大众对于大语言模型的使用更多偏向娱乐化。虽然有过如前面嘉宾提到的生物医药领域、三甲医院医生问诊等很多领域的尝试,但实际上这些应用中存在着很多实际问题,如数据隐私、医疗责任、安全问题、法务合规等。这些问题在当前看起来很美好的过程中,是必须要克服的。但我坚信,长期来看在各个细分领域和下游行业中,会有人克服这些困难,实现真正的落地并产生商业价值。

最后,我认为整个AIGC行业、算力行业最终肯定会走向国产化。我们需要解决“卡脖子”的问题,发展自己的国产生态和硬件建设。因此,我们应该由整个行业上下游的所有公司、软件和硬件等生态共同努力,完成这项对国家发展具有重要意义的使命。

沈鸥:因为时间原因,我们不能再继续讨论了。如果大家看到今年国家发布的《中国综合算力评价白皮书(2023)》,就会了解到中国整体算力增长差不多是20%多。随着中国包括绿电、东数西算、国家算网等全部建立起来以后,以AI为业务先导、需求先导、算力中心为基础的整体国家算力平台一定能够更好地服务于中国整个人工智能产业链的发展。这其中离不开各位公司,包括今天所提到的从IP到芯片到整个算力平台方方面面、一环扣一环的需求,而且都要满足中国国产化的各种要求。由于时间原因,我们就不再展开了。

曾克强:我其实想说一句话。您问到关于大算力的问题,大家都觉得现在是追热点,不管是做AI还是大算力、大模型,真正规模化的商业落地还比较少,大家都觉得好像隔了一层,本来想做To B的,后来却做成了To G的行业。

我有两个观点想和大家分享一下,第一个观点是,大家都在追求算力的堆叠,但从当前的技术发展和国际形势来看,我认为很快就会出现一个瓶颈,这个瓶颈很有可能很快从计算转向互联,反而互联会成为更紧迫的瓶颈。第二个观点是,我们现在处于经济下行和半导体产业下行的周期中,在下行的周期中,没法再盲目追求热点。大家应该思考什么是行业真正需要的。

刚刚熊总提到的现在的GPU并不是从原生就能解决问题的,但我们要考虑什么是这个产业从长远来说真正需要的,并去做产业真正需要的事情,而不是当前热点的事情。我也相信在这个下行的周期里面,每个企业都专注于做好本质的东西,修炼好内功,做好产品,一定会迎来未来大模型真正繁荣的时候。

沈鸥:我非常同意曾总说的观点,我们要做好自己的产品,把自己的工作做得更扎实,才能让每个企业在整个发展竞争激烈的环境中立足。

曾克强:所以这也是我们芯耀辉专注于做好高速接口IP的原因,我们希望为大家提供最好的IP赋能国产半导体互联技术。

沈鸥:也谢谢各位嘉宾和现场的各位听众的参与和支持,谢谢大家!

责编: 爱集微
来源:甲子光年 #芯耀辉#
THE END
关闭
加载

PDF 加载中...