芯原戴伟进：ChatGPT推动生产力变革浪潮，芯原如何助力打造中国版AIGC？

作者：朱秩磊

2023-03-30

相关舆情

AI解读

生成海报

ChatGPT的爆火，多模态大模型GPT-4的发布以及全面植入微软Office全家桶，百度也推出了同样具备多模态能力的“文心一言”（ERNIE），甚至李开复、英特尔首席架构师Raja Koduri也准备下场角逐—今年以来，以此为代表的内容生成式AI（AIGC，AI Generated Content）应用快速破圈，掀起基于大语言模型(LLM)的生产力革新浪潮。

就像一个正在飞速进化的新物种，全民AIGC是否将推动新一轮生产力变革的新时代到来？

ChatGPT令AI从everywhere到everyone

1956年夏，麦卡锡（John McCarthy）、明斯基（Marvin Minsky）、罗切斯特（Nathaniel Rochester）和香农（Claude Shannon）等科学家首次提出“人工智能（Artificial Intelligence，简称AI）”这一概念，标志着人工智能学科的诞生。在经历了数次寒冬与泡沫之后，坎坷的人工智能探索道路才终于随着ChatGPT的走红而实现了从“不能用、不好用”到“可以用”的技术突破，并进一步走向实用化。

“事实上，在这一轮ChatGPT浪潮之前，AI技术已经是随处可见（everywhere）。比如边缘AI计算已被广泛应用于包括消费电子、工业和汽车设备在内的众多细分市场，包括语音交互、人脸识别、图像优化、安防监控、自动驾驶等等。”芯原执行副总裁、IP事业部总经理戴伟进对集微网评论说，“随着AI技术的不断演进，它从以往处理特定任务，发展到今天像ChatGPT一样与人互动，回答问题，这种具备思考和学习能力的工具能够使每个人（everyone）的休闲娱乐或工作从中受益。”

ChatGPT的开发逻辑，是基于Transformer架构的语言模型，通过学习大量预先标注的文本数据(包括网络新闻、书籍、学术文献等)，生成与人类语言相似的文本。通过数据中心、计算机硬件设备等进行模型的运行、文本数据的计算处理，以服务器、存储器、网络接口输入输出设备等硬件为基础。

虽说ChatGPT可以初步用于提高生产力，但是基于GPT-3.5的ChatGPT仍存在缺点和瓶颈。 “无论你问什么，它总会给你一个答案，不管是否准确，可能就是一些‘正确的废话’。”戴伟进表示，“包括ChatGPT在内的AIGC应用仍需技术迭代演进，首先是训练的数据量，其次就是算法模型的参数量。”比如最新发布的多模态GPT-4模型，其参数量更大，模型迭代时间更长，可识别图像，也能够给出更准确的结果，具有更广泛的常识和解决问题的能力。

ChatGPT实质是对话式AI的应用，IDC数据显示，对话式AI市场规模在2022年达到54.6亿元人民币，其市场渗透率相对已经饱和。ChatGPT引发的浪潮促使主流厂商在其对话式AI应用中引入大模型，将带动对话AI相关市场新一轮增长。此外，在搜索、营销场景中，ChatGPT类型的应用则可能衍生出全新的产品形态。

随着OpenAI开放了GPT-4的API，戴伟进预测它将成为老少咸宜的、提高生产力的工具，而智慧出行领域将是最先落地的应用场景之一。

现阶段，作为市场主流的交互方式，智能语音是智能座舱的标配功能，然而当前车载语音系统的交互程度普遍较弱，用户体验一般，大多时候沦为“鸡肋”。“ChatGPT将极大地推动自然语言处理（NLP）AI的商业化应用，为汽车中语音交互系统带来新的可能。”他强调，“人人能用”很酷，这样一项非常实用的技术将会吸引更多人来开发需求，挖掘商业价值，使AI从研究项目真正成为可商业化大规模投资的产业，进而形成活跃的生态圈。

ChatGPT引发AI算力告急

观察GPT系列从1到3的发展过程，都是基于Transformer架构，并且探出一条路，就是可以通过海量数据，超强算力，让NLP产生质的变化。既然ChatGPT等AIGC应用的“智力”增长，建立在对海量数据的训练上，算法、数据、算力是生成式AI不可或缺的三大关键，算力做为硬件基础决定AI“智力”的上限。OpenAI发布的AI模型算力报告中指出，与2012年的模型相比，2020年提出的模型需要600万倍的计算能力；预计从2023到2028年，AI所需算力将再增加100万倍。IDC也预测，中国智能算力需求规模，到2026年将进入每秒十万亿亿次浮点计算（ZFLOPS）级别，达到1,271.4EFLOPS，从2021到2026年，年复合增长率将达52.3%。

戴伟进表示，AI运算可以简单归纳为云端运算、边缘运算和移动边缘计算三个场景，对相关算力芯片的性能、功耗和延时等关键指标有着不同的需求。ChatGPT背后的算力支撑正是基于分布式运算的云端运算集群。

据TrendForce估算，处理1800亿个参数的GPT-3.5大模型，需要的GPU数量高达2万枚，未来GPT大模型商业化所需的GPU数量甚至超过3万枚。而根据英伟达的公告，微软Azure上部署了数万枚A100/H100高性能芯片。这是第一个采用英伟达高端GPU构建的大规模AI算力集群。

“以云端运算、数据中心为支撑的AI运算，需要的是GPU、GPGPU、以及TPU/NPU/VPU ASIC加速芯片等为代表的大算力芯片。”戴伟进指出，过去数据中心曾经用CPU，性能增长越来越难以跟上AI算力需求，而并行运算的GPU更适合用于高并发的深度学习任务。去掉或减弱GPU的图形显示能力的GPGPU，则将其余部分全部投入通用计算，实现处理人工智能、专业计算等加速应用。再辅以TPU/NPU等加速模块，这三大类芯片构成了AI算力的基石。

另外，戴伟进还指出，由于AI运算需要对海量数据进行处理，数据存取能力也在很大程度上限制了AI运算速度，存储性能跟不上的话，会导致GPU在那里等待，无事可做，空转浪费算力，因此通用存储和缓存技术等数据存取架构的创新也越来越急迫。

目前，ChatGPT已经令英伟达成为这场算力革命的最大赢家。部分业内人士认为，如果英伟达在其人工智能GPU业务中看到了机会，它可能会优先供应人工智能GPU，而不是游戏GPU。ChatGPT以及随后涌现的诸多AIGC应用必然会让供应已然十分紧缺的高性能GPU再次告急。

如何打造中国版“ChatGPT”

ChatGPT火爆全网之时，“背水一战”的百度也推出了中国版“ChatGPT”文心一言。李彦宏直言“大模型训练堪称暴力美学，需要有大算力、大数据和大模型，每一次训练任务都耗资巨大。”尽管文心一言收获了众多围观者褒贬不一的反馈，但不可否认其对算力基础设施的需求必将驱动AI芯片市场井喷。

戴伟进指出，对于中国AIGC市场发展而言，数据、算力、算法是驱动力也是瓶颈所在。随着高端计算芯片在国内的发展一再受限，AI芯片领域的国产替代势在必行。

要打造中国版“ChatGPT”，我们还需要突破哪些瓶颈？

戴伟进认为，首先中文语料的训练量要比用英文训练的ChatGPT大得多，训练时间也还远远不够，需要进一步积累。比如文心一言中文语料占比约75-85%，与GPT3.5对比，量级是后者10倍以上。“这需要时间。”

其次是算力挑战。虽然高性能GPU成为主流的AI算力芯片，但实际上在AI运算中，需要的核心模块更多是并行运算单元和神经网络加速单元，因此GPGPU被视为AI时代的算力核心。“对于AI芯片厂商来说，需要真正明白自己需要的是哪部分的功能，虽然国内在并行运算单元性能上与英伟达还有一定差距，但是通过NPU单元，以及数据存取方面的创新，有效解决芯片性能瓶颈问题，何乐而不为呢？”

芯原Vivante GPU/GPGPU/NPU架构

“作为中国排名第一，全球排名第七的半导体IP提供商，芯原已拥有六类自主处理器IP。针对AI芯片，芯原基于超过20年Vivante GPU的研发经验，推出了GPU、GPGPU、NPU等AI芯片所需的系列IP组合，可提供从边缘AI运算低功耗嵌入式设备，到云端AI运算高性能服务器，再到智能驾驶等应用所需的计算能力，满足广泛的人工智能计算需求。”他表示，“如今芯原的NPU IP已被全球60余家客户用于其110余款人工智能芯片中，这些芯片应用于物联网、可穿戴设备、安防监控、汽车电子、服务器、智慧电视、智慧家居、智能手机、平板电脑、智慧医疗等众多场景。未来，公司将在AIoT、可穿戴设备、汽车电子、数据中心这四个领域专注半导体IP的研发与平台化升级。”

他解释，针对客户不同的应用场景需求，芯原的处理器IP可通过对图像处理单元、并行计算单元和神经网络加速单元的差异化“配比”来实现不同芯片尺寸和功耗预算的定制化设计，并提供完整的软件栈和SDK，支持主流的深度学习框架，包含Tensorflow、PyTorch、ONNX、TVM、IREE等，支持OpenCL和OpenVX等编程API。

据悉，目前芯原多家车载领域的客户，已经将基于芯原IP打造的GPGPU、NPU用于训练Transformer模型。“随着基于大模型的AI迅速展现强大的商业价值，芯原的相关IP也越来越受欢迎。部分客户开始在此基础上开发第二代芯片产品，也有更多客户将芯原的NPU IP部署到他们的GPU中，以提高运算性能。”戴伟进透露，“除了智能驾驶领域，数据中心和服务器领域也是芯原持续关注的重点研发方向，结合自身技术优势努力挖掘新的市场机会。”

最后，戴伟进还重点强调了数据存取技术领域的创新。“以往行业关注的重点大多在于处理器的创新，存储领域已经20年没有出现重大的技术突破了，行业龙头和初创企业都在努力解决，国内在这个领域还是有机会的。”

结语

尽管越来越多“大神”加入到AIGC的大潮中，但这种大语言模型离真正掌握做类比推理的能力还有一定的距离。而各路“ChatGPT”的破圈成长还需不断以模型的优化，训练规模的提速以及算力资源的扩充来支撑。

无论是为了实现技术的安全可控，还是为了应对AI算力性能和数量均“告急”的瓶颈，都驱动着国内AI芯片厂商另辟蹊径。芯原的GPGPU+NPU的DSA异构设计思想，为广大国产算力芯片设计者提供了一个从“能用”到“好用”的多元算力解决方案。

（校对/王梓凌）