DataBox:全球领先的大数据时代“芯”基石

来源:爱集微 #DataBox#
6.2w

大数据时代,全球数据量增长迅猛。IDC预计,2013年至2020年,全球数据量将增长10倍达44ZB,与数据摩尔定律预测全球数据量每两年翻一番的增长速度不谋而合。44ZB数据仅仅保存就需要44亿块10TB机械硬盘,成本超过3万亿美金(多份拷贝的灾备冗余保存成本可达5-10万亿美金),远超企业的成本承受能力,更谈不上处理与利用。如果核心技术创新能够让数据的存储、计算、通信成本大幅降低、性能大幅提升,让更多的数据得到保存和处理,将为全球各行各业创造巨大价值。

2018年,潜心磨剑三载有余的硬科技初创企业——达博科技(DataBox)携自主研发的大数据专用芯片技术公开面世,产品陆续进入包括互联网巨头、中国三大电信运营商在内的行业顶级企业客户,实现了此类新芯片技术在中国电信运营商与互联网行业从0到1的突破。

1

全球IT行业内,很难找出达到以下标准的硬科技公司。

第一,创立时间在5年以内。

第二,作为硬科技公司,技术水平处于全球领先地位。

第三,在中国、美国、欧洲、印度四大市场中的至少一个市场,在互联网和电信运营商行业这两个IT产品最大用户行业,产品进入多数TOP企业客户。

现在,DataBox可望成为全球第一家这样的硬科技公司。

在电信运营商行业,DataBox大数据专用芯片已在中国三大电信运营商进行产品POC测试,其中一家电信运营商大数据平台规模最大、技术水平最高的标杆省份率先立项商用,这也是中国电信运营商行业首次采用这项新技术。负责本次采购部署的大数据平台部门表示,经过一年多的了解、测试、调研和决策流程,此类芯片技术带来的经济效益远高于产品价格成本,最终决定采用部署。参加本次竞标的包括全球顶级芯片厂商,DataBox产品通过中字号行业权威认证机构组织的产品测试,出具了官方测试报告,关键核心技术指标相对竞标产品优势显著。

在中国互联网行业,半数TOP互联网企业已进行DataBox产品POC测试,陆续进入采购流程,其中一家数千亿市值的互联网巨头成为第一家立项商用这项新技术的TOP互联网企业,参加竞标的同样包括全球顶级芯片厂商。POC测试结果表明,DataBox产品的关键核心技术指标相比竞标产品有显著优势,可为客户额外多创造可观的经济效益,远超产品售价本身。这意味着,哪怕在竞争对手的产品免费赠送、自身价格不打折的情况下,DataBox产品也仍然是客户更为合算的选择。

依靠核心技术优势,占据产业竞争制高点,掌握高额溢价能力,是发达国家高科技企业的经典套路。如今,在大数据、芯片这样的各国必争行业,一家中国科技初创企业却脱颖而出。2019年,DataBox的产品可进入中国互联网和电信运营商行业一半以上的TOP企业客户,创立未满5周年的DataBox将成为全球IT行业首家满足这三项条件的硬科技初创企业。DataBox,这家非典型的中国科技初创企业,究竟与众不同在何处?

2

近年来如火如荼的科技创新创业热潮中,涌现出了一批炙手可热的科技明星公司 —— 商汤(汤晓鸥,香港中文大学教授),云从(周曦,中科院教授),云知声(黄伟),云天励飞(田第鸿),寒武纪(陈云霁陈天石兄弟,中科院教授),景驰(王劲),龙芯(胡伟武,中科院教授),国盾量子(潘建伟,中科大教授),科大讯飞(刘庆峰),……,有心人不难发现,这一系列名闻遐迩的科技明星企业都有一个共同点 —— 无论创始人还是核心团队,均毕业于隶属中国科学院的中国科学技术大学(简称“中科大”)。

DataBox创始人董群峰和核心团队同样大批出自中科大,曾全职执教中科大和中国科学院的教授、副教授就有3位,创业过程中还先后吸引了一大批来自Intel、Cisco、Microsoft、IBM、Cadence、Marvell、Realtek、富士通、华为、中兴等全球名企的技术市场老兵。1993年高考,董群峰的母校庐江中学在安徽省25所重点中学排名前八,16岁的他以中学第一名的成绩考取中科大。四分之一世纪后的今天,人们可能已经很难想象,彼时的中科大校园,每年高考录取几百人,全校本科生不到4000人,在读的理工科省状元却有40位上下。今天,清华北大每年理工科高考招生四五千人,纵然把30来个理工科省状元尽收囊中,省状元密度也未过此。如此看来,这样一所荟萃了那个时代菁英人才的名校,孕育出如今这一大批大名鼎鼎的超级明星科技企业,就不足为奇了。

中科大计算机系本硕毕业后,董群峰留学美国,成为威斯康辛大学麦迪逊分校计算机系历史上最短时间完成学业的博士研究生。旋即,学术上羽翼渐丰却还没有任何正式学术职业履历的他收获了一份沉甸甸的信任 —— 母校中科大破格直接聘任他为正高级教授,在千人计划尚未问世的当时,这是即将迎来50周年华诞的这所中国名校校史上未有先例的创举,也是一笔“吃螃蟹”的风险投资。

无论留学、执教、创业,开始三年不飞不鸣,对于董群峰来说是常态。他始终不忘回国工作的初衷 —— 在中国本土做出世界领先的科技创新成果,在中国高校科研院所从未发表论文的世界顶级学术会议上发表科研论文,填补历史空白。每年在全世界范围内只录取三四十篇论文的顶级精英会议,才是历史空白所在,才是他的目标。

执教中科大整整三年之际,研究组的成果论文开始陆续面世,均发表在精英学术会议上。其中,最具代表性的就是实现了包括港澳台、新加坡在内的大中华地区本土高校科研院所在世界顶级学术会议NSDI上发表研究论文“零的突破”,也领先于彼时尚未破零的日本等发达国家高校科研院所。中科大在他身上重注押宝的这笔风险投资,经历了最初三年的蛰伏与平淡,最终大获成功。

实现历史“零的突破”的学术生涯夙愿目标已经实现,作为一介书生,董群峰觉得就算不负平生了。若要把只有一次的人生在这条轨道上继续下去,关键是要给自己一个关于生命意义的答案 —— 我还能改变什么?“世界上有过你这个人和从来没有过你这个人,不应该没有区别。”

在他看来,颇负盛名的中科大老校长朱清时院士已经给出了答案。院士、校长、党委书记集于一身,在中国高教界没有第二人,也是很有社会影响力的名人,但即使是他,连自己管辖的中科大校内的很多现状都改变不了。在高校工作几年,虽有些难以割舍,但他认为自己看得很清楚,继续在高校工作一辈子的意义有限,改变不了太多东西。

那,人生的下半场究竟该做什么呢?

3

在美国读书期间跟随两位导师的经历,冥冥之中给出了方向。

说起美国留学期间的第一位导师,董群峰赞不绝口。“麻省理工学院数学本科,加州大学伯克利分校计算机理论博士,导师是计算机科学界的诺贝尔奖 —— 图灵奖得主Richard Karp教授。这些还不是关键,只有亲自读过他的计算机算法论文,你才会真正体会到论文中算法的精妙创意和数学构造给人展现出来的那种智慧心灵上的享受。”

这位美国导师后来放弃了已经获得的终身教职,离开大学创办自己的科技公司。这件事情对董群峰触动最深的是,导师做算法研究的智慧不仅可以呈现为学术论文中美妙精巧的数学构造,同样也可以创造出实实在在的巨大价值 —— 卖掉自己创办的科技公司后,导师收获了很大一笔财富。

彼时,全神贯注在学术上的董群峰没有跟随导师去创业公司,转学到了威斯康辛大学麦迪逊分校(University of Wisconsin - Madison)继续攻读博士。威斯康辛大学麦迪逊分校计算机系自1960年代建系起,连续40余年名列USNEWS全美大学计算机科学TOP 10行列,其中研究芯片技术的计算体系结构(Computing Architecture)学科和研究大数据技术的数据库(Database)学科是享誉世界的两大王牌学科,斯坦福、伯克利、卡内基梅隆、康奈尔等一大批顶级院校都有这两大王牌学科的威斯康辛大学毕业生担任教授。DataBox研发大数据专用芯片技术,与他的母校两大王牌学科不谋而合。

攻读博士期间,董群峰研究的科技创新发明专利后来被全球芯片龙头Intel公司看中,还支付给他一笔专利费。博士毕业时,导师劝他不要回国了,一起在美国用自己的技术创办一家科技公司,就算不独立上市,卖给Intel这些大公司也行啊。一心回国实现学术夙愿的董群峰婉拒了导师,回国在学术道路上继续实现理想。

但现在,董群峰告诉自己:也许是时候创办一家自己的企业了。凭借多年的技术积累和独立研究创新能力,只要找对方向,一定能创办一家很有价值的科技公司。如果能做一家足够大的公司,可做的事情比自己在高校要多得多,也自由得多。

他决定了,这就是自己人生的下半场最值得做的事情。

4

通过研究创新来研发行业领先的新技术,他有自信的本钱。但究竟什么问题才是产业上真正值得做、能做成巨大公司的问题,就不是学校里的学院派教授真能说清楚的事情了。他觉得,如果能在一家拥有全球产业格局的顶级企业担任高层职务,在实战中观察实践,总结积累,对于创办一家成功的科技型企业应该是非常有益的经历。恰在此时,曾邀请他到美国硅谷研究所举办过专场学术报告会的华为公司相关部门获悉他有意离开学术界进入产业界,第一时间递出了橄榄枝,邀请他加入华为担任计算体系结构(Computing Architecture)首席科学家,全面负责专用芯片加速技术及其核心算法研究。

他没有经过太长时间的思考就决定接受了。外界看名气,可能更关注他发表的那篇历史破零的论文,其实他更喜欢实验室发表的另一篇论文。那篇论文创造性地构造了一种巧妙的编码方式与电路结构相结合,把业界研究了二十年也没能突破的电路规模指数级爆炸的魔咒给突破了。这种啃硬骨头解决实用问题的研究创新工作,正是他最热衷也最擅长的。身为中科大教授的他在华为美国研究所可容纳上百名中外技术专家的报告厅做完这个成果的学术报告,说完Thank you等待提问,迎接他的不是学术报告常见的礼貌安静,而是由衷热烈的掌声。那一刻,他的内心激荡起一种回国之后久违的感受:这是一家尊重技术、热爱技术而且懂得鉴赏技术的公司。

现在回过头来看,董群峰认为这是自己做出的最正确的抉择之一;唯有如此,他才摆脱了如今在他看来“学院派”创业公司存在的弊端局限。华为数载,究竟给这位科学家出身的创始人带来了怎样的升华与转变?

5

刚刚加入华为担任计算体系结构首席科学家的董群峰,碰上一个意料之外的工作机遇 —— 华为公司当时还没有统筹全公司算法工作的组织体系。由此机会,他做了一件对他个人和整个华为公司来说都很有意义的事情 —— 作为三名核心创始委员之一,共同组建华为公司算法委员会,统筹华为公司的核心算法研发工作。算法是IT企业最核心的竞争力灵魂;软件也好,硬件也好,只不过是算法的实现形式。对于年营收几千亿人民币的华为公司来说,也不例外。

彼时,阿尔法狗(AlphaGo)尚未横空出世,以深度学习为代表的人工智能领域远不像媒体铺天盖地宣传之后的今天这样人声鼎沸。其实,董群峰很早就接触到深度学习专用芯片加速技术,也就是现今大众媒体热捧的“人工智能芯片”或“AI芯片”。寒武纪联合创始人,中科大少年班1997级校友陈云霁博士跟他是大学期间认识多年的球友;早在2012年,陈云霁跟他谈起和弟弟陈天石博士(寒武纪创始人,中科大少年班2001级校友)在做深度学习加速芯片这个新方向,他听后觉得挺感兴趣。2013年底,他作为主管专用芯片加速技术领域的首席科学家在华为主办了一次硬件加速技术峰会,国内知名高校科研院所的院士、院长、系主任、教授专家济济一堂,他专门把陈云霁请到峰会做了专题学术报告,讲的就是当时刚被国际顶级学术会议录用但还未公开发表的寒武纪深度学习加速芯片论文。令他惋惜的是,陈氏兄弟的研究对于彼时的产业界来说还比较超前,能听出感觉的人并不多。

也是在那个时候,他领导的专用芯片加速技术团队开始接到来自业界大型企业客户的技术需求,为客户业务系统使用的深度学习算法提供专用芯片加速解决方案。当时,国内现今AI芯片领域的头部创业公司,要到2-3年之后才陆续创立,他的团队是当时中国最早从事商用级深度学习专用芯片加速技术研发与应用的,在全世界范围内也是最早的之一。

然而,2015年创业时,他并没有选择AI芯片这个将在资本热捧下烈火烹油的创业方向 —— 作为华为公司算法委员会核心创始委员,专用芯片加速技术首席科学家,他见过太多全球各行各业真正有价值的技术问题了。人生只有一次,他很清楚自己创业是为了解决人生下半场的意义问题 —— 做一家足够大的公司,才能去做一位体制内的大学校长做不了的事情;如果一个创业项目注定难以成长为巨大企业,他的创业就失去了意义。

时至今日,回忆在华为工作的收获,除了鸟瞰全局的全球产业视野,他认为最有价值的收获就是华为强调客户价值需求痛点的企业文化 —— 客户是企业发展动力的最终源泉,只有很好地满足客户价值需求痛点,企业才能持续成长。华为从两万元起家,成长为全球年营收上千亿美元的产业巨头,强调客户价值需求痛点的企业文化和全球产业视野至关重要。很多一时看起来很炫的东西,其实并非真正足以造就新巨头的产业价值痛点,或者并不适合创业公司;做这种热闹一时的“风口”项目,或许可以迎合跟风的资本,却也因此偏离了真正能够成长为产业巨头的轨道。

6

创业前,他认真全面地推演了若干技术方向;按照华为做产品必须能赚钱、赚大钱的商业原则,他的推演结果指向的是一个不仅具有广阔发展前景,而且已经拥有巨大现实市场规模的产业 —— (包括政府等公共部门在内的)企业级大数据。

在企业级市场,DataBox研发的大数据专用芯片瞄准的大数据服务器集群,规模远远超过AI芯片瞄准的机器学习服务器集群。这背后有着内在的产业技术逻辑。人类这样的强智能体,不需要看几百万张狗的照片才能识别狗;而今天广泛运用的人工智能技术仍然属于弱人工智能,必须依赖数以亿万计的海量大数据进行深度学习,是天然建立在海量大数据基础上的。大数据服务器集群是底层基础设施,它承载的海量大数据可以被用于许多用途;AI服务器集群则是建立在这个基础设施之上的一个上层应用子系统。两者的角色与规模,不言自明。

数据摩尔定律预测,全世界的数据量按照每两年翻一番的指数级速度增长。人类产生、人类消费的消费媒体类数据,受限于人的数量、时间、精力有限,不足以持续驱动指数级数据增长速度。相比之下,机器产生、机器消化的企业级数据,由于机器数量、时间、精力几乎不受限,才是数据摩尔定律的长久核心驱动力,未来大数据的主流。

他用自己称之为“冰山原理”的比方做了解释:消费媒体类数据是冰山在水面上的部分,人们日常生活看得到感觉得到;企业生产类数据是冰山在水面下的部分,人们日常生活看不到感觉不到。实际上,冰山在水面下的部分远大于水面上的部分。例如,人们每天用手机打电话,发消息,拍照,读新闻,看视频,觉得人类世界的大数据就是这些,其实根本不是。电信运营商大数据系统平台存储的数据绝大多数是手机用户们根本不会接触也不知道的信令、日志等机器生产、机器处理的数据。正是冰山在水面下的这些企业级数据,以及生产、采集、存储、传输、处理这类数据的机器,维系着人类世界有条不紊的运行。

三年后,基于深度产业理解的长远抉择赢得了历经时间检验的回报。

7

2018年11月,英伟达GTC大会在苏州召开。DataBox苏州研发中心接待了一批来苏州参会的互联网巨头客户,其中一家拥有数万台大数据服务器的互联网巨头透露,他们用于人工智能业务的GPU不到两千套,只相当于大数据服务器数量的二十分之一。另一家互联网巨头的人工智能研究院高层是科大校友,很坦率地告诉他,即使在拥有海量数据和数以亿计用户的这家互联网巨头,人工智能苦于找不到更多可落地产生价值变现的实际应用,已经见顶了,他们现在使用的人工智能服务器和GPU数量已经不大增加了。

如果当初创业做AI芯片,现在即使所有客户企业都愿意把已经稳定成熟的英伟达GPU平台全部换掉,而且不考虑Google TPU、华为昇腾等大型厂商和其他创业公司的产品,全都换成DataBox的产品,国内存量市场空间除以产品寿命周期,公司一年也就是几亿人民币营收而已。AI芯片独角兽企业普遍都是几百人以上的队伍,加上昂贵的研发流片开支,每年成本好几个亿,很难盈利。实际上,正如这些互联网巨头所说,客户没有很强动力去撤换稳定成熟的英伟达GPU平台,清一色都用英伟达GPU,AI芯片独角兽们并不偶然地遭遇产品落地的困境,实际年营收连几千万人民币都难以做到,年年巨亏不可避免。

现在,DataBox面对的是全球大数据平台上千万套的存量空白市场。以TOP企业客户已经立项商用的这类DataBox大数据专用芯片产品为例,2017年,DataBox成为中国首家成功流片此类芯片的芯片设计企业,亦是全球目前唯一拥有新型算法芯片的企业。作为行业从0到1的创新领导者,DataBox的商用落地进展也是行业领先的,目前产品已进入包括中国三大电信运营商、互联网巨头企业在内的顶级企业大数据平台。仅这一类芯片,DataBox面对的全球存量市场毛利润空间上百亿美金,拉动公司市值增长可达千亿美金级别。

除此之外,DataBox拥有多个功能系列的专用芯片产品,越来越多的TOP企业大数据部门使用了DataBox芯片产品之后,不断引荐数据库、存储、网络、安全、人工智能等业务部门前来与DataBox商谈合作,共同研发各种企业级应用的硬件加速技术方案,有的新产品已经陆续交付客户POC测试,公司比预期更快地迎来了厚积薄发、全面开花的良好局面。走不为人知的僻静小路,有时比走热闹喧嚣的马路更快接近终点。

随着数据量迅猛增长,市场规模还在持续快速增长。以负责本次采购的电信运营商大数据平台部门为例,在电信行业推行提速降费、不限流量的情况下,大数据服务器集群扩容速度非常迅猛,约半数大数据服务器是过去一年新增的,年增速高达100%。随着5G时代的来临,数据量还将持续迅猛增长。

全球IT巨头同样盯准了大数据时代的巨大市场。DataBox如何应对竞争,未来会不会被超越、颠覆呢?

8

对于可能的竞争,DataBox格外笃定。创业三年不飞不鸣,换来的是初次亮相就占据优势的先发主动。经过互联网、电信运营商这两个最大行业的顶级企业客户POC测试,以及中字号行业权威认证机构组织的产品测试, DataBox第一代芯片的关键经济技术指标已经超越包括Intel在内的全球竞争对手同类芯片。算法+芯片的研发周期长,潜在竞争对手即使一次性流片成功,也需2年左右时间;每流片失败一次,封装、测试、调试、修改、重新流片等步骤至少再增加9个月左右,方可再次流片。

即使最终流片成功,竞争对手的芯片技术竞争力能否超越Intel等全球顶级芯片厂商,达到DataBox已流片的第一代芯片的水平,仍属未知。全球顶级芯片厂商已经推出此类芯片产品,技术水平要短期内突然质变赶超并不容易。从留学美国期间,到执教中科大,再到华为担任首席科学家,创办DataBox,前后15载有余,这位DataBox创始人始终深耕专用芯片技术及其核心算法研究。无论在大学做学术,还是在企业做产品,DataBox始终保持在全球顶级技术圈子里,像DataBox团队这样把ASIC、FPGA、GPU、TCAM等各类专用芯片技术和算法都做到全球顶尖水平的团队,在这个全球顶级技术圈子里还没有见过第二个。

令DataBox更加成竹在胸的是技术储备,正在研发的第二代芯片技术水平进一步显著提升。据此推算,DataBox应可保持至少两代芯片周期(相当于3~5年)的领先优势。对于这个TOP 20客户占据大半份额的高度集中化市场来说,几年时间已经足以让DataBox全面占领主流市场。这样一来,DataBox就拥有了技术、时间上的双重壁垒,可以非常从容地应对竞争,布局未来。

真正世界第一流的前沿科技创新是充满不确定性的高风险工作,你永远没法确定,会不会有其他顶尖高手正在这个世界上你不知道的角落里研究同一个问题,你永远只能与内心深处幽灵般挥之不去的不确定性相伴而行。在学术界工作甚至比创业更残酷的是,一旦有人抢先一步做出来了,哪怕你只差一天就将发布同样的技术,也顿时完全失去了价值;如果是创业,至少还有在市场上公平竞争继续搏杀的机会。正因为如此,长期从事世界第一流的前沿科技创新的学者,有些方面的抗压力、抗风险能力甚至是一流的创业者也没有历练过的。DataBox团队过去15年在学术界和产业界取得的世界一流成果证明了,在这样高压力、高风险常态化的环境下,DataBox团队抗压力、抗风险的竞争力要比不具备学术界+产业界双重成功经历的创业团队强韧得多。

DataBox研发中心的玻璃墙上,整齐地排列着一系列企业价值观宣传画,其中一幅正是美国总统约翰·肯尼迪在1962年9月12日发表的美国登月计划演讲中的那句名言:“We choose to go to the moon in this decade and do the other things, not because they are easy, but because they are hard.

9

随着集成电路制程工艺日益接近物理极限,芯片性能每18-24个月翻倍的摩尔定律不可持续。通过采用针对特定功能设计的专用芯片,服务器的性能、成本、功耗相比当前采用CPU、GPU这类通用处理器均可大幅优化。近年来,服务器行业深陷同质化红海竞争,利润趋薄,IBM甚至把X86服务器业务卖给了中国联想。正如DataBox在企业级市场证明的那样,专用芯片技术将成为服务器大幅提升性能,降低成本,实现差异化竞争的致胜武器,从商业效率上根本性地重塑行业。各类功能专用芯片的门类很多,无论芯片研发还是应用落地,都需要比较长的周期,这是一个需要10年、20年时间去系统化完成的技术演化历史进程。

以图形专用芯片全球领导企业英伟达(nVIDIA)、通信专用芯片全球领导企业高通(QUALCOMM)为对标企业,DataBox完全有实力、有机遇、有信心发展成为大数据专用芯片领域千亿美金级别的全球领导企业。以大数据软件领域的全球领导企业Cloudera和Hortonworks为参照,两者2018年10月宣布合并,总市值52亿美金,总营收7亿美金。

首先,大数据软件系统是基于开源的,国内外供应商众多,单价不高。DataBox研发的大数据专用芯片产品技术含量高,可给客户创造高额经济效益,平均售价高出数倍。

其次,占据全球大数据服务器集群规模半壁江山的互联网企业软件研发能力强,通常不会购买这类基于开源的大数据软件产品。DataBox研发的大数据专用芯片产品则在包括互联网企业在内的所有客户企业都有价值需求,因此市场容量高出2倍。市场容量乘以售价,大数据专用芯片的总市场规模超出10倍左右。

再次,大数据软件厂商众多,行业分散,集中度低,大数据专用芯片行业的技术门槛高,有实力的厂商屈指可数,行业集中度高,头部企业的市场地位和份额远高于大数据软件行业的头部企业。按2倍计算,大数据专用芯片行业领军企业的营收规模将超出20倍左右,市值可达上千亿美金。

同时,产业规模还在进一步持续快速增长,大数据专用芯片行业领军企业的营收和市值还有很大的进一步增长空间。

董群峰小时候热爱武侠小说,最喜欢温瑞安笔下的柳五 —— 书生般温和的外表下,是炽热燃烧的狂放内心和睥睨天下的王者之气;亦如李沉舟光芒下的柳五,李沉舟不在时,他可独掌大局,而真正令他怡然自得的,却从来都是没有光芒、不飞不鸣的日子。虽无飞,飞必冲天;虽无鸣,鸣必惊人。

责编: 刘洋
来源:爱集微 #DataBox#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...