搭载人工智能的可听戴设备正日益受到青睐

作者：爱集微 09-27 17:29

来源：CEVA IP #CEVA# #听戴设备# #AI音频#

1.1w

消费者对高质量音频设备的需求持续推动着创新。可听戴设备（耳塞、无线耳机和游戏耳机）满足了消费者对移动性的期待，抓住了这个市场机会，既促进了耳机市场的发展，也推动了助听器和非处方听力增强产品的技术进步。

在经历了2023年的低迷之后，可听戴设备的销量再次起飞，到2024年第二季度将达到1.06亿件，同比增长超过10%。真无线立体声（TWS）和无线耳机被认为是这一增长的主要推动力。自然，产品设计师们渴望增加人工智能（AI）功能，以此使他们的可听戴产品实现差异化。我们已经能看到这类升级，主要通过智能提升音频体验的质量，而不是依赖更复杂的人工智能功能。

AI提升音频质量

在可听戴设备中，音频质量是一个重要的差异化特征，特别是在嘈杂环境中，设备的组件质量往往只能在一定程度上抵挡干扰。这时，AI和软件就派上用场了。例如，虽然所有可听戴设备都具备一定的降噪功能，但大多只能抑制稳定持续的背景噪音。更先进的自适应降噪解决方案利用AI分析环境噪声，并实时调整降噪参数。

同样，在使用耳机或耳塞通话时，将语音与背景噪声隔离开来也至关重要。虽然设备的移动性让我们可以随时随地通话，但街道噪音和人群的嘈杂声往往会淹没我们想要听到的对话。与其他音频相比，语音是一种可分辨的信号，但需要依靠AI来提取这一信号并过滤掉背景噪声。这项能力在助听器中尤为重要，因为听力受损者在稍微的背景噪音中，也可能很快就无法跟上正在进行的对话。

个性化是AI应用的另一个重要领域，通过多种音频处理技术，能够根据用户的偏好和听力受损情况进行调整。个性化在特定应用中同样显得重要，例如在游戏中，可以增强第一人称射击游戏的脚步声，或在多玩家游戏中增强聊天对话。

值得一提的是，Android和iOS均在筹备，目标是在发布认证设备时同步支持蓝牙6技术，从而充分利用所有这些领域的机遇。

打造有竞争力的产品

今年我们从TWS耳机中学到的一个重要经验是，可听戴设备需求对价格非常敏感，与此同时，消费者既希望整体设备体积小巧，又希望有超强的续航能力。您需要在众多听觉设备中脱颖而出（或至少保持竞争力）。这该如何实现呢？在通用微控制器（MCU）上运行这些AI选项是行不通的，因为这样的平台太慢且耗电。

您至少需要一个数字信号处理器（DSP）来实现高质量的音频处理并执行端到端的应用。此外，流媒体音频也应兼容最新的Bluetooth®蓝牙标准和编解码器，以确保最佳音质。更理想的是，使用能够同时处理DSP和AI功能的处理器。这样可以高效融合来自多个传感器的输入，处理处理TWS高质量音乐流、语音和环境噪音。沉浸式空间音频还需要将基于惯性测量单元（IMU）的头部跟踪与音频结合，从而准确定位声音源，这也是AI方法的发展趋势。所有这些功能都必须适应耳机的小巧设计，并由小型电池供电。

您的产品计划是否准备好将AI技术应用到可听戴设备中？

要实现这一目标，关键在于将所有AI功能压缩到一个非常小、超低功耗的空间中，同时保持低延迟，以提供高质量的音频体验。这就需要一个嵌入式的NPU（神经网络处理单元）核心，能够处理独立DSP和NPU的所有处理元素，包括代码执行和内存管理。这个核心应该是完全可编程的，可用于特征提取、DSP功能和ML（机器学习）处理，同时还要控制其他代码的运行。同时，它必须在各个应用中严格管理功耗，尤其是限制系统设备与DRAM之间的数据流动，以降低能耗。在始终开启模式下，它必须能够将功耗降至极低水平。

自然，NPU应支持当今先进的机器学习数据类型和运算符，包括卷积神经网络（CNN）、深度神经网络（DNN）和本地变换模型，并能与TensorFlow Light for Microcontrollers（TFLM）和microTVM等领先的开源推理框架完全互操作。为了最大限度地缩短产品开发时间，开发人员应寻求一个强大的模型库，这个库里包含预先训练好的和经过优化的机器学习模型，涵盖可听戴设备应用中重要的语音和传感用例，此外，还需要一系列优化过的运行时库和现成的软件。