最近,通义大模型团队发布了全新的CoGenAV技术,以“音画同步”为核心理念,为语音识别领域带来了突破性的创新!传统语音识别在噪声环境下的表现往往不尽如人意,而CoGenAV通过融合audio-visual-text的时序对齐关系,构建了一个更鲁棒、更通用的语音表征框架。

简单来说,CoGenAV采用了“对比生成同步”策略,在特征提取阶段利用ResNet3D CNN分析视频中说话人的唇部动作,捕捉声音与口型之间的动态关联,同时用Transformer编码器提取音频中的语音信息,并将两者精确对齐。这种跨模态融合的方式显著提升了多个Speech-Centric任务的表现,例如语音识别(VSR/AVSR)、语音重建(AVSS/AVSE)以及语音同步(ASD)等。

实际效果如何?在视觉语音识别(VSR)任务中,CoGenAV仅用223小时的唇动视频训练,就在LRS2数据集上达到了20.5%的词错误率(WER),媲美使用数千小时数据的传统模型。而在音视频语音识别(AVSR)任务中,结合Whisper Medium模型后,WER低至1.27%,刷新了SOTA记录,尤其在0dB噪声环境下性能提升超过80%,远超纯音频模型。

此外,CoGenAV还展现了强大的语音增强与分离能力,在LRS2语音分离任务中SDRi指标达16.0dB,主动说话人检测(ASD)任务中mAP更是高达96.3%!最棒的是,这项技术可以直接接入主流语音识别模型(如Whisper),无需额外修改或微调即可实现视觉语音识别功能,大大降低了部署门槛。

目前,CoGenAV的相关代码和模型已在GitHub、arXiv、HuggingFace和ModelScope等平台开源,感兴趣的开发者们可以立即上手体验!

GitHub: https://github.com/HumanMLLM/CoGenAV

arXiv: https://arxiv.org/pdf/2505.03186

HuggingFace: https://huggingface.co/detao/CoGenAV

ModelScope: https://modelscope.cn/models/iic/cogenav

[hhw123pingdao]

温馨提示:
  • 请注意,下载的资源可能包含广告宣传。本站不对此提供任何担保,请用户自行甄别。
  • 任何资源严禁网盘中解压缩,一经发现删除会员资格封禁IP,感谢配合。
  • 压缩格式:支持 Zip、7z、Rar 等常见格式。请注意,下载后部分资源可能需要更改扩展名才能成功解压。
声明:
  • 本站用户禁止分享任何违反国家法律规定的相关影像资料。
  • 内容来源于网络,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理,联系微信:a-000000