当前位置首页 > 高中物理 > 教学视频

声网工程师分享:音频质量优化中的回声消除难题与实践

更新时间:2024-10-10 文章作者:佚名 信息来源:网络整理 阅读次数:

本文是“Dev for Dev专栏”系列文章,作者为音视频实验室工程师黄一清。Cd0物理好资源网(原物理ok网)

优化音频质量是一项复杂的系统工程,回声消除是常见的话题之一。一般来说,回声消除的效果受设备本身的声学设计、声学环境、软件系统等多种因素影响。传统的回声消除方法包括线性回声消除和滤波非线性处理。然而,当前回声消除的前沿仍然面临非线性回声消除、近端能量小于回声能量、立体声回声问题、麦克风和参考信号时钟不一致、参考信号不准确以及缺乏可靠的延迟估计方法等问题。 Agora音频技术团队结合自身实践,推出了特殊场景下的音频评测系列文章。这篇文章是关于回声消除的——希望与业界同仁交流。Cd0物理好资源网(原物理ok网)

随着4G/5G的应用,实时音视频领域也快速发展,实时语音质量越来越受到关注。回声、延迟、滞后等因素已成为人们关注实时语音质量的主要方面。本文主要介绍实时语音通话中的回声消除问题。Cd0物理好资源网(原物理ok网)

回声是指扬声器发出的声音被麦克风拾取并发送回远端的现象。所有通信系统都必须进行回声消除,否则通信质量将受到严重影响。回声消除带来的问题主要分为两类,双语音时回声丢失和单词丢失。直观的表现是说话者听到自己的声音而对方的声音卡住甚至听不见。Cd0物理好资源网(原物理ok网)

■图1:回声产生的原因Cd0物理好资源网(原物理ok网)

01 回声消除的几个问题Cd0物理好资源网(原物理ok网)

■图2:回声消除解决方案Cd0物理好资源网(原物理ok网)

影响回声消除的因素有很多,比如音量问题。当播放信号太大时,很容易产生回声。其主要原因如下:Cd0物理好资源网(原物理ok网)

1、麦克风采集到的回声信号溢出(),引入非线性回声;Cd0物理好资源网(原物理ok网)

2、音量过大会加剧硬件设备本身的振动,引入非线性成分;Cd0物理好资源网(原物理ok网)

3、麦克风采集到的回声信号不会溢出,但远大于近端语音信号留学之路,导致双讲时严重掉话甚至听不见。Cd0物理好资源网(原物理ok网)

此外,延迟抖动、时钟偏移、采集或回放频率不稳定、非线性失真、回声路径变化、混响、硬件3A(手机自带3A)处理效果等,都是影响回声消除的常见因素。因素。从宏观上看,采集或播放设备的外观(扬声器/麦克风设备型号和排列)、手机的3A处理算法(手机制造商、系统和型号)、传输算法、环境因素等复杂多变。不同的通讯场景,会对回声消除产生不同的影响。Cd0物理好资源网(原物理ok网)

02 回声消除的评价方法Cd0物理好资源网(原物理ok网)

产生回声的场景如此复杂,那么我们如何评估回声消除呢?在实验室场景中,我们对回声消除的评估主要分为两个部分。第一部分,人工主观测试,重点关注各种复杂场景下是否存在回声问题;第二部分,客观自动化测试,重点关注大量不同模型/系统版本是否存在回声问题。Cd0物理好资源网(原物理ok网)

手动主观测试更容易理解。它是人工互操作,模拟各种用户可能使用的场景来测试是否有回声。常见场景如主持人与观众切换、切换后台/锁屏、打开/关闭第三方应用(音视频相关)、打断等,以及与各种终端设备(耳机/输出音箱)的切换/蓝牙耳机)/环境(安静/吵闹)等Cd0物理好资源网(原物理ok网)

那么客观的自动化测试如何检测回声呢?Cd0物理好资源网(原物理ok网)

我们建立了一个评估AEC的系统。该系统适用于声网及行业SDK的所有场景。所使用的语料库是在消声室中录制的人声语料库,对用户最热门模型和常见问题模型进行评估。将设备音量调节至官方推荐音量,通过测试机播放的完整性、测试机的播放响度、长短回声比例、量等指标来衡量AEC质量的残余回声。Cd0物理好资源网(原物理ok网)

03 具体AEC客观评价方法Cd0物理好资源网(原物理ok网)

该测试方法通过测试设备统一发送和接收测试信号,可用于回归测试。在大批量自动化测试中也具有良好的稳定性,可以大大提高测试效率。Cd0物理好资源网(原物理ok网)

步骤一:将近端设备连接至远端设备;Cd0物理好资源网(原物理ok网)

步骤2:计算机通过声卡将音频信号输出到近端标准设备,近端设备采集并测试音频信号;Cd0物理好资源网(原物理ok网)

步骤3:在远端设备上播放接收到的音频信号;Cd0物理好资源网(原物理ok网)

步骤4:声卡同步采集近端设备接收到的待测音频信号;Cd0物理好资源网(原物理ok网)

步骤5:通过检测待测音频信号的响度和持续时间来确定远端设备的回声消除质量。Cd0物理好资源网(原物理ok网)

■图3:电波暗室测试环境Cd0物理好资源网(原物理ok网)

为了评估理想条件下的回声消除能力,我们在消声室内进行了测试。隔离噪音并最大限度地减少回声。图3是测试环境的部分展示。我们在选定的测试机上进行批量测试。Cd0物理好资源网(原物理ok网)

描述Cd0物理好资源网(原物理ok网)

A1Cd0物理好资源网(原物理ok网)

全双工无衰减Cd0物理好资源网(原物理ok网)

A2Cd0物理好资源网(原物理ok网)

全双工在发射方向有衰减Cd0物理好资源网(原物理ok网)

非常短的剪辑Cd0物理好资源网(原物理ok网)

音节的短截断造成损坏Cd0物理好资源网(原物理ok网)

剪辑导致单词丢失Cd0物理好资源网(原物理ok网)

极短的残余回波Cd0物理好资源网(原物理ok网)

间歇返回Cd0物理好资源网(原物理ok网)

连续回声Cd0物理好资源网(原物理ok网)

表1 回声消除性能类型说明Cd0物理好资源网(原物理ok网)

根据3GPP对回声消除性能分类的描述(表1)和回声消除性能的分类(图4)回声是怎么产生的,我们将回声比例分为回声比例小于25ms、回声比例25~150ms和回声比例超过150ms。三个级别的比率用于定义回声的严重程度。Cd0物理好资源网(原物理ok网)

■图4 回声消除性能分类Cd0物理好资源网(原物理ok网)

04 测试结果分析Cd0物理好资源网(原物理ok网)

以下是Agora的AEC评测结果以及行业解决方案。Cd0物理好资源网(原物理ok网)

■AEC评价结果(部分)Cd0物理好资源网(原物理ok网)

以上是理想条件下回声消除的评价。但在实际通信中回声是怎么产生的,会存在各种复杂的环境,产生不同程度的回声。为了模拟真实情况下出现的回声,我们使用可调混响室中记录的语料进行回声分析。以下是AEC评测方案在四种不同场景、不同档位下的一些数据。同时,还可以测试频繁进出通道或长期压力测试下的回声消除效果。Cd0物理好资源网(原物理ok网)

可调混响室的混响时间可设置至0.2~2秒,共7级。可模拟小型会议室、客厅、报告厅、大型教室、电影院等不同规模的实际应用环境,并提供主观声音评价。客观的算法质量评估提供了可重复的全场景测试条件。Cd0物理好资源网(原物理ok网)

通过分析数据,我们可以清楚地看到回声消除能力。使用大量测试模型,可以检查特定模型对回声消除的影响。通过比较不同版本,可以评估优化迭代的效果。通过与行业解决方案的对比,可以检验我们研发工作的领先性。Cd0物理好资源网(原物理ok网)

写在最后:回声消除的效果会直接影响各种场景下的用户体验,比如聊天室、卡拉OK、会议、在线教学等。为了提高用户体验,我们也深度融合了传统算法和用于开发基于人工智能的回声消除的人工智能算法。该功能可以在更严格的条件下保留完整、清晰、流畅的近端人声,显着提高系统性能。回声消除和双讲功能为用户带来更舒适的通话和直播体验。目前该功能已集成在 Agora RTC SDK 4.1.0 及以上版本中。欢迎大家免费下载体验。立即注册声网账号,下载SDK,每月免费获得10,000分钟。如果您在开发过程中遇到任何问题,可以在声网开发者社区与官方工程师交流。Cd0物理好资源网(原物理ok网)

发表评论

统计代码放这里