音视频AI技术助在线会议提质,腾讯天籁12米远距降噪拾音“出圈”
写字声、纸张翻页声、键盘敲击声、桌椅碰撞声、咳嗽声、开关门声、脚步声,甚至窗户外的车流穿梭声,在远距离拾音过程中会出现近百种常见的会议噪声,如何降低这些噪音成为提供在线音视频会议服务的厂商十分关注的一个新技术突破点。腾讯天籁实验室总经理商世东、技术研发专家余涛7月6日介绍了天籁语音模块方案,为音视频软件行业在后疫情时代的发展提供了思路。
疫情期间在线会议软件行业迎来井喷
疫情期间,音视频会议被广泛应用于远程办公、在线教育、远程医疗、线上娱乐等各个场景,随着用户使用习惯的养成,整个行业井喷式增长。根据IDC预计,视频会议的硬件行业,未来5年增速将放缓至6%左右,视频会议的软件行业,未来5年增速预计为25.5%。而据Capgemini咨询公司发布的最新报告显示,从2021年到接下来的两到三年,大约三成的企业会期望其员工中的70%以上实现远程工作,约有45%的员工期望每周远程工作3天或以上。
在这样的背景下,各类在线会议软件驶入发展快车道。公开数据显示,ZOOM股价曾一度暴涨超过40%,市值超越老牌科技企业IBM,成功跻身美国市值最高的20家科技公司之列。腾讯会议在上线不足一年的时间内用户量就突破了1亿,日活跃账户数突破1000万。钉钉在线会议单日已突破2000万场、1亿人次。
后疫情时代,垂直细分场景需与黑科技深度融合
进入后疫情时代,远程会议呈现新发展趋势:协作占员工工作时间50%-80%,小型协作空间数量将大幅增长,线上线下混合会议将超过90%,视频会议功能将成为大部分会议室标配。
与传统会议场景相比,实时音视频会议场景存在诸多挑战。例如,音频外设的多样化(客户端,高清音质)、网络条件差异(Ethernet,4G,W i f i)、声学环境复杂(远距离/混响/本底噪声)、入会形式复杂(同地多设备)、噪声类型多变(平稳,非平稳噪声)、客户端的音频设备差异性(蓝牙,有线,内置)、与传统会议设备的兼容、用户需求的多样化(音频内容分享)及现网质量评估的复杂性等。如何更好地将垂直细分音视频会议场景与AI、云计算等黑科技的深度融合,解决用户痛点,提升语音可懂度、自然度、舒适度,成为行业关注焦点。
AI+深度学习,腾讯天籁语音模块“破圈而出”
余涛指出,音视频通信场景复杂、处理流程链条很长,每个节点均会影响用户体验。天籁语音模组把AI、深度学习等核心技术融入了包括数字信号处理,回声消除、远场语音识别、音视频解码等在内的各个环节,实现了180度广角、12米超长距离远程拾音和79ms超低时延,以及数百种常见噪声消除、双讲通透等功能,语音清晰度提升40%以上。
“采用软硬一体方案一方面能让用户接入更容易,快速形成产品能力,另一方面也能让声学、硬件设计等与我们的算法能力结合,更好地解决实际问题。我们一直在做实际场景,尤其是极端场景测试,目前天籁语音模组已经可以满足80%-90%的场景需求。” 商世东谈到。
此次沟通会上,腾讯天籁实验室资深研究员刘成还在现场展示了天籁语音增强方案在真实场景中的增强效果。展示环节中,他分别演示了键盘敲击声、桌椅碰撞声、街道、建筑工地等多种噪声场景下的消音效果,引发热烈关注。
业内人士评论称,与市面上其他同类型产品相比,天籁语音模组的差异化优势一方面体现在它融合了腾讯二十多年来在音视频技术、场景方面的积累与沉淀,产品能力具备优势;另一方面,它还将与腾讯庞大的社交生态进行无缝连接,能够快速铺开市场,抢占先机。
当前,我国软件视频行业竞争格局较为分散,正处于百舸争流、跑马圈地的阶段。阿里、华为、腾讯等互联网科技公司巨头纷纷入局。小鱼易连、好视通、会畅通讯等云视频厂商作为后起之秀,也在不断发力、扩大市场占有率。腾讯能否凭借“天籁”顺利“出圈”仍需拭目以待。记者了解到,腾讯正在与第一波合作伙伴尝试进行市场化推广,天籁语音模组预计将于今年下半年正式面市。