AI如何与智能手机深度融合？ vivo高管团队深入解读

作者：爱集微 10-12 15:48

来源：凤凰网科技 #vivo# #AI#

2.3w

10月11日，2024vivo开发者大会昨日举行，大会期间，vivo高管团队接受媒体采访，vivo副总裁、OS产品副总裁、vivo AI全球研究院院长周围、vivo OS产品总监黄梓勋、vivo AI系统中心高级总监熊官敬分享了vivo在智能体、大模型以及用户体验融合方面的深入思考和实践。

vivo AI全球研究院院长周围表示，vivo在AI手机领域的布局不仅仅局限于表面的功能创新，而是深入系统底层，通过AI重构整个手机的交互方式和服务框架。他强调，vivo追求的不仅是功能的堆砌，而是如何让AI更自然、更符合直觉地融入用户的日常生活，提升整体使用体验。面对激烈的市场竞争，周围表示vivo将坚持长期主义和用户导向，通过技术创新不断提升用户体验，赢得市场的认可。

vivo AI系统中心高级总监熊官敬详细介绍了vivo在AI模型优化方面的最新成果。vivo今年推出的3B模型在保持高性能的同时，显著降低了对硬件资源的需求，使得更多机型能够支持AI功能。他透露，vivo在数据清洗、算法结构创新和训练优化等方面进行了大量工作，确保3B模型在实际应用中表现出色。

vivo OS产品总监黄梓勋指出，vivo在AI手机领域的差异化竞争策略在于通过AI重构整个系统的体验。vivo不仅关注AI在单个功能上的表现，更注重AI如何与整个系统深度融合，提升整体的服务能力和用户体验。他表示，vivo将继续在AI技术上进行投入，推动手机智能水平的不断提升。

此外，在无障碍体验面，周围分享了vivo在手语翻译官和声音大模型上的进展，强调这些技术不仅服务于特定人群，也反哺了vivo通用产品的AI能力。

vivo的高管们对AI手机的未来发展持乐观态度。他们认为，随着技术的进步和市场的成熟，AI手机将在未来几年内实现更自然、更温暖、更智能、更舒适的用户体验。

以下为采访问答全文，略有删减：

问：最近发布的iPhone16很多网友都在说它创新不足，vivo在下一代产品中有哪些潜在的创新可以超越苹果现有的产品线？

黄梓勋：首先我们平常心来说，我们倒不认为苹果创新不足，在深度理解苹果背后的思考和洞察之后，我们觉得苹果还是一家非常伟大的公司，抛开参数层面，它背后的认知还是值得我们学习的。

我们在和苹果的差距上还是有的，我们不断在跟行业的学习和追赶的过程，我们还是在用我们自己的节奏或者洞察在一年一个脚步进行布局，我们往未来的方向还是在追求极致体验，这是我们的方向，在用户熟悉的场景下，在他熟悉的应用范围内给他带来一种更快、更好用的产品方案或者设计方案，这是我们的思考。

周围：大家比较关心我们和伟大的苹果之间的比较，我们还是胸怀敬畏之心看待这个事情，这几年vivo OriginOS成长还是有目共睹的，我认为我们在有些地方是做对了，主要是方法论和系统性，比如说我们以前也做流畅，今年我们做流畅，以前我们做体验，今年我们持续在做体验，但是我认为今天的流畅、体验、优雅、舒适和以前完全不一样，因为我们有系统性、体系化的方案。

我们和一个行业伟大的产品比较的时候，比较的是什么？虽然我们比的是体验，但是我认为比的更多是我们的认知能力和方法论，认知不到位，我们根本不知道为什么要努力，而方法论不到位，不管我们怎么努力，它终究有短板，我认为这几年vivo在OriginOS上的体验提升，得益于我们系统性的提升，系统性的认知能力提升和系统性的规划、完整方法论的提升，我觉得这是我们过去三年进步特别快的原因，如果我们再找和其他优秀厂商的差距，我更希望从这个地方自我找原因。

问：AI手机的定义从去年到今年大家听得比较多，包括操作系统的重构，能不能请您给大家普及一下，大家都在说重构，这里有没有判断标准？哪些是真的架构？哪些是假的重构？

周围：我们无意做概念的定义，我们只是汇报一下我们工作的边界在哪里。我们认为第一个要重构的是整机的交互方式，而我们的追求不是新的方式，是把旧的方式变得更自然，更符合直觉，就像支撑像真人一样的声音大模型，就像支撑手机的拖拽，就像在手机上圈一圈，我们立马把圈一圈的文字图片全部找出来，并且做好对应的支撑，就像你点击一个东西，我就知道你想保存这个东西，还是想分享这个东西，还是想把这个东西丢到其他的应用上去，我们进行这些完整的识别和能力的支撑，目的只有一个，就是让整个人对设备的交互变得更自然更符合直觉，这是我们重构的第一个方面。

重构的第二个方面，我们分为三个事情，第一个事情是我们真的完整重构了数字服务的体验，比如说我们开始支持智能体，以前我们手机里面只能下载应用，安装应用，现在不是，你有一个教育的智能体，能写作业，你有一个金融或者医疗的智能体能挂号看病，我把这些智能体丢在智能体广场，你用蓝心小V拍一个作业或者试卷的时候，你可能想问这个作业怎么做，我会把教育智能体丢出来，比如说讯飞的智能体、网易的智能体、作业帮的智能体，它能出来给用户提供专业的支撑。我们把这个完整的智能体平台的搭建，服务意图平台的搭建，这是修基础框架，我们认为这是重构的一部分。

我们一直没有强调的是，我们要把各种服务用各种卡片，各种模块把它进行呈现，这不是我们这次的重构，我们真正的重构是水面之下的支撑。

除了做识别和智能体之外，我们还做执行，比如说我每天早上订咖啡，为什么不是到公司之前帮我订好？这个事情交给小V，每天早上帮我订一杯无糖的拿铁，这个工作你以后交付给这个小助手就可以了，我认为这是能力的增强，这是一个基建，有了这个基建之后，我们的用户用手机的时候，整个服务和原来发生变化，我认为这个小小的变化是珍贵的，这是AI团队重构的，所以我们重构的第一点，就是要重构整个数字世界的基本服务框架、基本的支撑。

同时我们还重构了一些能力中心，比如说我们现在便签可以做摘要，可以文生文，可以写市场报告，这个能力不仅仅是vivo的本系统能力有，我还希望行业的开发者可以调用我们的能力，这些基本的能力包括图片的识别，包括个人的社会关系、消费能力、金融习惯这些能力都很珍贵，我们把这些能力公共化，把它标准化，既提供给vivo自己用，也提供给行业的第三方使用，这是我们重构整个数字世界能力的一个完整的认知，我们的工作就是这么开展的。

第三个事情，我们做了这么多工作，你总得为我们做什么，所以我们想帮你在生活中分担一些力所能及的事情，比如说明天小朋友过生日，发一张我们玩得很开心的回忆，告诉他生日快乐。我希望它知道我的孩子是谁，知道这个图片在哪里，并且知道我的微信谁是他，主动把这个东西打包成卡片发给他之后，还能够真的找到我们共同喜欢的餐厅，或者它直接帮你订了，如果它发现你明天有会议的话，它可能帮我把会议取消。我认为这就是一个很好价值的事情，我们需要帮人分担，同时我们还帮助大家听见这个世界，看见这个世界，和这个世界进行很好的互动和沟通，这是我们在日常做产品时很朴素的坚持。

所谓的重构有三个事情，重构完整的交互，更自然、更符合直觉，重构整个数字世界，让新的服务形式出现，并且为整个行业做一些准备工作，第三个是做了这么多工作，最后还是为人服务，所以我们只做了这个事情。每个企业对于AI重构的定义是不一样的，vivo的重构是这三点。

问：过去几年我们也了解vivo在无障碍产品当中投入很多的人力物力，也做了大量的产品开发，我们针对残障人士的应用而开发的产品，这块的技术研发和AI的通用产品之间的关系是什么样的？有没有一些技术本来是针对特定人群的需要才开始开展的，后来又应用于通用产品当中？

周围：有的，我们在去年发布了手语翻译官，手语翻译官是在自己胸前20厘米的距离之间，在空间之间用手指头不停做乱序表达，还要识别意思，它的难度比手势识别难一万倍不止，但是我们做出来了。当我们把手语识别做出来之后，再做正常的手势识别功能的时候，它已经是降维的应用。

事实我们在做vivo听见的时候有几个收益，比如说我们做vivo听见的时候，就是要听得懂各种各样的语言，包括国外各种国家的语言，包括国内的各个方言，我们把这些语言放在手机里面，可以帮助孩子在城里长大，爷爷奶奶在乡下可以进行沟通，外地媳妇和本地婆婆也可以沟通。这个为残障人士做的功能，也是在正常人服务，我们把这个极致人群极致场景的功能做到了，我们去年做vivo看见，就是帮助盲人读盲谱，帮助他学会乐器，我们也可以做赋能。

我们有希望做这种大爱，做声声有息的公益活动，这是我们的初心，同时这也是一个极致的场景，做好之后是反哺到手机上的能力，今年我们的蓝心大模型有好几个都是为残障人士做的，包括声音、视觉包括多模态，我们今年声音大模型不是“-o”的，“-o”的意思是我们可以相互说话，相互嵌套干扰都没问题，今年我们是你说完我再说，我说完你再说。我们还需要两三个月时间，“-o”的模型就是希望盲人在听的时候，他可以乱序打扰，我们希望把体验做到极致，当我们让他们很满意，他们以3倍语速在沟通的时候，他们都觉得很好的时候，大家在日常使用的时候都会很满意。当我们为更多的障碍人士做事情的时候，可以帮助正常的很多人获得帮助。

问：从去年7B到今年3B，这个新的系统像一些智慧体、PhoneGPT这些功能，老机器升级之后可以完整体验到，还是只能在新的机型上才能提到这样新的功能？vivo的人工智能体验优势在于哪里？如何吸引消费者购买？

熊官敬：关于老用户同步的问题，去年我们在做7B、13B，整体而言我们经过极致量化压缩之后，7B要占用户3.5GB的存储空间，我们并没有很激进地一开始把模型强行内置到系统当中，我们给用户一个选择，去年我们的模型需要下载，可能在座都是先锋用户，都觉得这个东西很重要，但是对于大部分用户而言，突然觉得手机少了几个G的内存还是有疑问的，所以我们去年提供了可下载和可卸载的逻辑。

今年我们依然贯彻的是整个AI透明可控的原则，这个模型你依然可以卸载，但是为了方便，我们今年的模型尺寸也非常小，1.5个G的占用，我们今年内置到接下来旗舰机型的OriginOS 5当中，今年很多场景都要用这个模型，它是一个基座模型，我们不希望在每个地方都去下载，今年的逻辑和去年略有不一样，3B是内置的。

在3B内置的情况下，因为过去的模型既然可以下载，就有版本的概念，有版本就有更新，我们会分批次看这些老用户的设备对3B的兼容情况和运行起来的平衡，一旦这个地方准备好的情况下，我们会在下载的版本增加一个模型让用户下载，他就可以更新他的体验到最新的尺寸上来，这是关于3B对于老用户兼容的逻辑。

黄梓勋：我代表产品这一部分补充第二个问题，今天大家看到我们加了一些拖拽的动作，圈选的动作，刚才提到有行业内的其他友商做过这样的事情，我们对于这块的解读更多是用户已经到了一个新的交互方式的成熟，拖拽或者圈选的动作不是新的东西，过去vivo也做过，以前的用户仍然停留在点、按的认知水平上。所以我们过去构建圈选、拖拽的动作很难快速让用户的心智进行培养或者学习，拖拽以前做得更好可能是像苹果iOS这样的系统，现在随着手机形态的成熟，交互方式的成熟，包括越来越多的用户开始尝试更快的方式获取他想要的服务或者内容，我们认为它是一个成熟的节点来推出这样的交互方式。

但是推出这样的交互方式就意味着，包括今天的主题一直在做AI重构系统体验，新的交互方式不是一个纯粹的手势改变，更多是整个系统如何更加体系化理解用户意图，我们在做点按、拖拽、圈选背后需要触发一系列和AI对于用户的新的交互手势，包括原有场景要用新的交互方式上要更进一步理解用户的诉求，今天看到的我们在交互方式上包括意图框架的重构上，包括从多端统一的意图框架接入上，是在更全面思考用户到了新的认知水平下，在原有成熟手机产品形态上，在用户已有的手机产品上怎么样用新的交互方式获得更快、更便捷的体验，在这一部分是属于我们基于回归用户场景，或者基于用户体验保障的情况下，我们做的全盘重构或者梳理，它不仅仅是一个手势的变化，而且后面关联了一系列技术体系的变革。

关于智能体这一部分，我们在思考的是，在往后看用户对于服务的获取是不是纯粹依赖于APP的方式，有没有更快的方式？获取它不仅仅是AI助手的融合，我们也是在全新的探索，包括主动智能，在这个方向上今天我们一方面在逐渐构建更个人化的AI助手，未来可能是更有主动性、自动化，我们在探索一种新的模式，它本身不是在改变手机的结构或者改变用户的习惯，更多的是给用户一种新的获取服务的方式，可能会更符合自然语言的表达，更加自然舒适或者自觉化的获取服务的方式，这是我们在探索的一种新的产品形态，我们在构建新的交互手势或者新的产品形态上的一种思考。

周围：这个话题在很多产品包括内部也会问起，AI大家对它的预期特别高，感觉是不是要创造一些全新的颠覆性功能和场景？不会，我们还是平常心，我们还是回到本原去思考，AI包括大模型时代并不会创造任何新的用户需求，所以站在用户的角度，所有的产品都是原来的老需求，还是原来的老用户。

我们这次的AI赋能只是增强了原来的用户体验，只是大家可能对这个东西预期非常高，你已经完全重构了，总得有一些显性的功能，所以我认为要从两个层面来看，站在用户的角度，他的需求在过去十年没有发生过任何变化，就像触摸屏和电容屏一样，只是从指甲盖操作变成用手指指尖操作，只是让它变得更智能，更符合直觉，但是同样是智能机，它的体验已经发生了翻天覆地的变化，已经是一个全新体验的产品，我认为这次大模型是一样的，大家对于手机的需求没有发生变化，只是我们这次的大模型能让它的交互更自然更符合直觉，同时我们在看不见的地方做了一系列的支撑，比如说原来不能感知到场景，原来不能感知到意图，原来不能帮助用户主动做决策，原来不能主动执行，而我们这次全部都可以了。

但是这些全部都可以，我们就要创造新的需求和新的场景吗？不是，还是原来的用户老需求，只是让他的需求功能体验更得更好，我们在内部也有您这样的问题在不停地问自己和老板在对话，当我们这么思考的时候，我们整个团队开始知道，这么做下去，我们会做3-5年规划，我们已经清晰地看到未来3-5年的路子。

问：从用户体验来看，各大手机厂商的AI能力有没有拉开差距？vivo大概处于什么样的位置？第一梯队大概有几家厂商？

周围：我觉得我们是第一梯队。第一梯队有两三家（含国外），从认知、规划到产品的输出和能力的比拼，我们还没有显著落后的地方，我一直觉得每个事情的综合对比，更多的是认知和规划的对比，如果认知没到位，同样看一个事情也看不到差距。

问：过去一年AI和手机操作系统深入融合，给团队带来哪些新的挑战？为此我们在内部做了哪些新的调整或者努力？

周围：我们公司老板也一直问我们这个问题，整个手机行业也面临这过问题，目前整个手机行业都在做去路人、文生图等功能，这个功能在去年比较合时宜，这是大模型可以带来体验的利益点，但是在2023年11月之后，到现在又过去11个月时间，我认为这11个月我们思考的焦点和范围和去年不太一样，不太一样的地方在于，去年是大模型相对于3.5之后的元年，我们基本上只够用大模型直接带来利益的点，过去的11个月我们更多的思考是大模型如何和手机进行深度融合，产生全新的利益点，概括起来来看，我们认为在过去这一年，更多的思考是如何用手机重构系统，重构系统不是目的，重构系统的目的是结合AI大模型的能力和手机的特点，我们要提供个人智能做专属助理，如何才能做个人智能和专属助理，我们认为一种全新的体验首先是交互的革命，我们支持长按、拖拽，另外我们支持全新的语音，听得懂各种方言，听得懂各种国家的语言，并且还说得出，这是交互上的变化。

第二个是我们完整地重构了整个数字世界，这个数字世界有点广，我们有智能体，我们要重构标准文生文、文生图的编辑能力，这些能力我们不仅要做在本机的能力赋能上，还要做成行业的公共赋能上，同时我们也要构建一整套的框架，比如说要洞察意图，能够根据时间、空间、地点、行为、习惯、事件等等形成意图洞察，做成记忆，帮助我们做决策，最后我们还做了PhoneGPT，我们开始做主动智能，主动智能也是要训练的智能体，训练完之后它要像人一样操作手机，再加上我们的决策和主动智能，帮助我们完成任务。

而我们做这么多工作，就是希望在数字世界帮助我们做一个个人智能，帮助我们做私人的专属助理，帮助我们在生活工作中分担我们的压力，为我们排忧解难，这是我们一个完整的思考。如果今天问今年的AI和去年的AI有什么特别的变化？去年只是一个本能性的大模型红利，而今年我们真的在重新定义AI和手机融合后的产品，并且我们深度重构了整个手机的系统，我们是这么思考的。

这个思考最开始提出的时候，不管是企业的经营管理层，还是我们自己的团队，都会觉得这个概念非常宏大，可能只做意图识别、只做一个图谱，只做一个决策感觉已经是很大的范围，但是能不能用一年的时间把它做出来，我们去年11个月整个团队都很辛苦，好在我们赶出来了，还是交付了1.0出来，我们开了一个头，我相信以后会越来越好，但是这个开的头给我们带来全新的挑战，比如说审核要做到端侧，比如说大量的端侧模型化，模型要端侧化，去年我们也提模型端侧化，但是今年的端侧化不一样，我们在整个图谱、决策、执行全部都要端侧化，有数十处都要端侧化，这些都是我们工作量的一个组成部分，如果要完全展开的话，真的是一个很长的课题。