Mega-ASR – NTU、NUS、上海AI Lab开源的语音识别模型

Mega-ASR 是南洋理工大学(NTU)、新加坡国立大学(NUS)与上海人工智能实验室联合开源的全场景鲁棒语音识别基座模型,模型以 Qwen3-ASR 1.7B 为底层架构,针对真实世界中复杂声学环境(如噪音、远场、回声、遮挡、传输丢包等复合场景)下的语音识别难题,提出了可扩展的复合数据构建与渐进式声学到语义优化框架。

新闻资讯 2026-05-08 PPISO
2 0

文章摘要

Mega-ASR 是南洋理工大学(NTU)、新加坡国立大学(NUS)与上海人工智能实验室联合开源的全场景鲁棒语音识别基座模型,模型以 Qwen3-ASR 1.7B 为底层架构,针对真实世界中复杂声学环境(如噪音、远场、回声、遮挡、传输丢包等复合场景)下的语音识别难题,提出了可扩展的复合数据构建与渐进式声学到语义优化框架。

特别声明

本文内容由 PPISO 编辑整理发布,仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时,请以对应官方网站信息为准。

原文链接:http://ainav.ppiso.com/xwzx/59.html

本文标签

这篇文章暂未设置标签。

相关阅读

暂无相关阅读。

评论交流

暂无评论,欢迎留下你的看法。