当6亿用户习惯每晚通过QQ发送语音和进行视频通话,或则在群里与网友语音接龙完成一场Pia戏,又或是与好友一起聚会语音答题的时侯,你们可曾想过,在不同场景下仍然清晰、流畅的QQ音视频体验背后,究竟是哪些黑科技在支撑这种场景中“声”与“话”的美好?
去年11月16日举行的微软2021开发者会议期间,会议官网更新了一则案例——《助力:AI语音降噪构建QQ音视频通话新体验》,作者正是QQ音视频通话技术团队。作为微软的优秀应用案例,腾讯QQ团队在该文中详尽解密了语音提高技术在QQ音视频功能中的研制与应用。
利用,QQ搭建AI降噪模型训练框架
在现在的应用市场中,音视频通话功能几乎已成为APP的标配。2021年10月份中国区下载榜前100名中,超过70%的APP配备音视频通话功能。音视频功能的体验,是评判一款APP体验是否优秀的重要指标。
而优化音视频通话质量,降噪算法是核心技术之一。
目前,主流降噪方案主要有传统降噪和AI降噪两种。传统降噪方式估算量低,具有实时进行语音降噪的优势,但与此同时,因其基于物理和数学原理进行推论,过程中难免基于人认知的理想先验假定,这促使传统降噪对实际场景中频发的多种类、非平稳噪音表现不佳。
AI降噪是近来盛行的基于数据驱动的降噪方式,才能有效的应对各类突发的非平稳噪音,但前期须要经过大量的数据训练,以及搭建合适的数据模型作为基础。而模型在联通端的布署,须要权衡模型大小、降噪疗效、CPU占用率和显存占用率等多个诱因,由此给降噪技术的实现带来了一定的挑战。
为解决6亿用户对QQ音视频的庞大需求,腾讯团队基于开源机器学习平台,搭建了AI降噪与噪音场景分类的并行训练框架,并设计了音频降噪、音质提高和模型优化算法。
噪音数据的多样性是提升降噪模型泛化性的关键,为此,在训练模型时,腾讯QQ团队通过若干等时长音频数据的“投喂”和场景训练,结合合适的数据扩展,进一步提高了模型泛化能力,结合精细化设计的网路结构,才能让AI降噪模型适应生活中常见的几百种噪音,为用户提供具有AI加持的智能通讯体验。
同时,腾讯QQ团队还利用Lite的量化功能降低模型规格,在模型的降噪疗效基本不受影响的前提下,极大提高了性能优势并成功布署到产品功能中。
AI降噪算法+分馏技术模型优化,构建实时、高质量的清晰通话体验
在案例中,腾讯QQ团队强调,AI降噪算法包括音频降噪模块和音效提高模块两大方面。
音频降噪模块主要是通过针对带噪音音频中的干净人声进行建模,再提取出带噪声频的卷积特点量子视频,将带噪音音频与干净音频的的卷积特点进行对比和估算,进而使AI对人声之外常见的开门声、键盘声、走路声等音频具备更精准的辨识能力和降噪处理,从吵闹环境中剥离出干净语音。
在此基础上,腾讯QQ团队又加入了音效提高模块,以平衡降噪幅度,确保噪音消除的愈发干净,同时防止造成其它有用的音频被消声,确保实时降噪过程中“有用的信息都进来,无用的噪声都隔离”。
当代人生活更加多元,饭店、咖啡馆、车厢、影院以及街道、小区等不同场景,阴天、雨天、台风上思不同天气,也都伴生着不同种类的噪音,也都有可能对用户的音视频体验带来干扰。
为测试AI降噪面向不同场景的深度优化能力,腾讯QQ团队还选定了办公场景下常见的百种噪音:鼠标声、关门声、风扇声等噪声,结合干净人声根据0dB、5dB、10dB和15dB杂讯制做混和音频,分别测试原始降噪模型以及采用分馏技术提高后的AI--模型的表现。
测试结果显示,短时目标清晰度(STOI)与语音质量的感知评估(PESQ)均有所提高,而且随着降噪量的提高,AI降噪疗效的优势能够进一步突显。
优质的社交功能体验,常常藏在用户“看不见”的地方
社交软件几乎抢占了当代人使用手机的大半时间,它除了是人们日常相处中至关重要的工具,同时也紧密关系着用户体验与社交质量。
而在每一条文字或语音信息的背后,在每一通音频或视频通话的背后量子视频,都有来自无数环节的技术支持,每一个环节的好坏,也都关系着用户体验的优劣——用一句比较流行的话来说,就是“用尽了四肢力气,才会变得毫不费劲”。
腾讯QQ团队基于研制的降噪技术,就能通过AI算法带来智能的降噪功能和清晰、干净的音视频体验,对于行业难点之一的音频降噪同时保证音效疗效,也有了针对性的优化方案,对语音质量和视频通话带来更好的技术保障。
腾讯QQ仍然专注社交与沟通,旨在于提供优质的社交体验。许多音视频相关的功能如趣味变音、语音暂停等功能都率先出现在QQ中。这种功能也遭到了年青人的普遍喜爱。获悉,腾讯QQ未来还将在AI基础算法、模型方面强化研究,拓展更多元的社交应用场景。
附表:
推动:AI语音降噪构建音视频通话新体验