高通Marta Karczewicz博士：以协作式探索加速新一代编码技术开发

作者：爱集微 2小时前

来源：爱集微 #JVET# #高通#

1926

压缩效率始终是视频编码研究的核心，它直接关系到能否以更低比特率传输高质量视频——这一点对从流媒体服务到实时通信在内的几乎所有应用场景都至关重要。2025年10月召开的联合视频专家组（JVET）会议成为视频编码技术持续演进过程中的一个重要里程碑。JVET委员会在本次会议上审议了针对证据征集（Call for Evidence，CfE）的各类响应，这是推动视频编码技术超越当前通用视频编码（VVC）标准能力的关键步骤。此次会议不仅凸现了近年来所取得的显著技术进展，也彰显了视频编码社区在推动创新方面所展现的协作精神。

从证据到提案：以结构化方式驱动创新

证据征集（CfE）旨在通过主观人眼评分（MOS），将各项提案与VVC测试模型（VTM）进行对比，从而评估新兴技术在提升压缩效率方面的潜力。CfE过程对于在正式征集提案之前判断新工具和新方法的改进幅度及其成熟度至关重要。CfE 的结果毫无疑问是积极的，多项提案均表现出明显的性能增益。这一成功为随后的提案征集（Call for Proposals）奠定了基础，正式提案将于2027年1月进入评估。长期以来，从证据收集到提案评估的流程已被证明行之有效，这也体现了JVET对于以系统化、数据驱动方式推进标准化工作的坚定承诺。

增强压缩模型

在本次CfE中，一个重要趋势是提案广泛采用了增强压缩模型（ECM）工具。ECM 工具最初源自 2021 年 1 月 JVET 会议所启动的探索阶段。当时，高通技术公司提出了提案 JVETU0100，该提案在随机访问条件下相比 VVC 展现出 11.5% 的压缩效率提升，并且是在 VVC 标准完成仅六个多月后提交的。该提案成为后续探索工作的基础，其软件也被采纳为 ECM 的参考模型。ECM 作为一个协作平台，使各方能够共同开发创新的编码工具。

随后，高通联合多家积极参与ECM开发的公司，针对CfE提交了一份基于ECM的响应。此外，高通还通过发布优化的软件实现作出进一步支持，这个软件实现集成了最新的 VTM 与 ECM 编码工具（JVETAN0271）。此次软件发布旨在为研究社区和行业相关方提供一个更高效的平台，用于评估各类编码技术。

*预计名称及最终完成日期。

历史视角：延续探索传统

在之前各代视频编码标准的发展过程中，探索模型均发挥了重要作用。例如，VVC标准的制定，始于高通向国际电信联盟电信标准分局（ITU-T）视频编码专家组（VCEG）提交的COM16-C.806提案。该提案包含了相应软件，在随机访问配置下，其编码效率较HEVC测试模型（HM）提高了10.4%。鉴于其重要性，VCEG专家组将该软件作为联合探索模型（JEM）的起点。JEM在VVC标准制定过程中发挥了关键作用，作为新理念和新方法的测试平台，其中许多被验证的新理念和新方法最终被纳入了VVC标准。正是看到协作式探索加速了新一代压缩技术的开发，我们深受鼓舞，并在VVC标准完成后，再次将我们的研究成果和软件引入标准化论坛。

集成神经网络：下一个前沿领域

近年来，视频压缩研究社群愈发关注将深度学习方法融入编码框架，尤其是神经网络帧内预测模型与环内神经网络滤波技术。其中包括自适应神经网络滤波器，其参数可作为码流的一部分进行传输。这些工具已被纳入ECM，并进一步显著提升了压缩效率。传统算法优化和数据驱动的机器学习方法的协同融合，正在塑造视频编码标准的未来方向，并有望为超高清视频、沉浸式媒体和低时延流传输等新兴应用提供更卓越的性能。神经网络在挖掘和建模视频数据中的复杂模式方面具有巨大潜力，从而能够实现更高效的压缩，并更好地适应多样化的内容类型。

随着视频压缩技术的不断发展，神经网络有望通过解决传统混合编码框架（基于帧间/帧内预测与变换）的局限性，引领下一次重大技术变革。在静态图像压缩领域，神经网络已被证实能够有效地处理纹理等复杂场景，因它侧重于匹配统计特性，而不仅仅是降低均方误差。此外，它还使在编码过程中融入基于人类视觉系统（HVS）的度量更加容易。得益于能使用特定数据集进行训练的能力，神经网络能够为不同类型的内容提供更高效、定制化的压缩方式，从而无需依赖静态的、手工设计的算法。

面向未来的合作愿景

展望未来，行业领军企业、学术专家和标准化组织的持续合作，对于推动视频编码技术进步至关重要。即将于2027年1月启动的提案征集（Call for Proposals）评审工作，将为进一步推动技术进步提供契机，届时各类创新理念和解决方案将接受全面的测试和优化。高通在这一过程中所发挥的作用——包括所提出的技术方案和发布的软件实现——充分展现了产业的参与如何塑造未来标准的发展。