OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia

耿雪龙, 魏坤, 邵琪杰, 刘水云*, 林振楠*, 赵致闲*, 李国健*, 田文杰*, 陈培坤, 李泱泽, 郭鹏程, 邵明辰, 王水源, 曹雨昂, 王成有, 徐天翼, 戴宇航, 朱新发, 李越, 张丽, 谢磊†

Huggingface Test Page
📑 Paper (v2.0) | 📑 Demo | 💬 WeChat (微信)

OSUM读作 ‘awesome’ (/ˈɔː.səm/)

大型语言模型（LLMs）在各种下游任务中取得了显著进展，启发了业界对语音理解语言模型（speech understanding language models, SULMs）的开发，以期实现基于语音情感、性别等副语言的高表现力交互。然而，大多数先进的SULMs是由行业头部公司开发的，这消耗了大规模的数据和计算资源，而这些在学术界并不容易获得。此外，虽然训练好的模型和推理代码被开源了，但训练框架和数据处理流程依然缺乏透明度，这也为进一步研究产生了障碍。在本研究中，我们提出了OSUM，一个开放的语音理解模型，旨在探索在有限的学术资源下训练SLUMs的潜力。OSUM模型将Whisper编码器与Qwen2 LLM相结合，支持广泛的语音任务，包括语音识别（ASR）、带时间戳的语音识别（SRWT）、语音事件检测（VED）、语音情感识别（SER）、说话风格识别（SSR）、说话者性别分类（SGC）、说话者年龄预测（SAP）和语音转文本聊天（STTC）。通过采用ASR+X训练策略，OSUM通过同时优化模态对齐和目标任务，实现了高效稳定的多任务训练。除了提供强大的性能，OSUM还强调透明度，我们提供公开可用的代码，并详细介绍了数据处理流程，以期为学术界提供有价值的参考。通过这样做，我们旨在加速先进SULM技术的研究和创新。

Architecture

OSUM模型将Whisper编码器与Qwen2 LLM相结合，支持广泛的语音任务，包括语音识别（ASR）、带时间戳的语音识别（SRWT）、语音事件检测（VED）、语音情感识别（SER）、说话风格识别（SSR）、说话者性别分类（SGC）、说话者年龄预测（SAP）和语音转文本聊天（STTC）。通过采用ASR+X训练策略，OSUM通过同时优化模态对齐和目标任务，实现了高效稳定的多任务训练。

News and Updates

2025.2.16 🎉我们更新了技术报告 OSUM technical report v2.0，并发布了checkpoint，以及 Hugging Face 上的在线 test page。

在技术报告 v2.0 中，OSUM 模型经过了更多的训练步骤，训练数据量增加到了 50.5K 小时（相比 v1.0 的 44.1K 小时）：

3000 小时的语音性别分类（SGC）数据，其中包括 1500 小时的现有数据，通过噪声增强，另有 1500 小时的新数据。
说话人年龄预测（SAP）数据扩展：原有的 3400 小时年龄预测数据经过噪声增强，数据量增加到 6800 小时。

2025.1.22 🔥 我们发布了 OSUM technical report v1.0。

Evaluation

OSUM 模型和Qwen2-Audio 相比，在大多数任务中，尽管 OSUM 使用的计算资源和训练数据明显更少，但它的大部分表现接近甚至优于Qwen2-Audio。

在公共和内部测试集上的语音识别（ASR）任务评估结果如下表所示。加粗字体表示同一测试集中的最佳结果。

在公共和内部测试集上的多任务评估结果如下表所示。每个测试集的最佳结果以加粗字体突出显示，蓝色字体显示的结果以及内部测试集上的结果，均为我们使用官方发布的模型自行推理得出。

Requirements

pip install requirements.txt

如何使用OSUM框架进行推理和训练？请参考这里

License Agreement

我们使用的是 Apache 2.0 许可证。研究人员和开发人员可以自由使用我们的 OSUM 的代码和模型权重，甚至可用于商业用途。更多详细信息，请查看许可证文件LICENSE.txt中的相关内容。

Citation

@article{geng2025osum,
  title={{OSUM}: {Advancing} Open Speech Understanding Models with Limited Resources in Academia},
  author={Geng, Xuelong and Wei, Kun and Shao, Qijie and Liu, Shuiyun and Lin, Zhennan and Zhao, Zhixian and Li, Guojian and Tian, Wenjie and Chen, Peikun and Li, Yangze and others},
  journal={arXiv preprint arXiv:2501.13306},
  year={2025}
}

Contact Us

如果您有兴趣向我们的研究团队留言，欢迎发送电子邮件至 xlgeng@mail.nwpu.edu.cn。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia

OSUM读作 ‘awesome’ (/ˈɔː.səm/)

Architecture

News and Updates

2025.2.16 🎉我们更新了技术报告 OSUM technical report v2.0，并发布了checkpoint，以及 Hugging Face 上的在线 test page。

2025.1.22 🔥 我们发布了 OSUM technical report v1.0。

Evaluation

Requirements

License Agreement

Citation

Contact Us

FilesExpand file tree

README_CN.md

Latest commit

History

README_CN.md

File metadata and controls

OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia

OSUM读作 ‘awesome’ (/ˈɔː.səm/)

Architecture

News and Updates

2025.2.16 🎉我们更新了技术报告 OSUM technical report v2.0，并发布了checkpoint，以及 Hugging Face 上的在线 test page。

2025.1.22 🔥 我们发布了 OSUM technical report v1.0。

Evaluation

Requirements

License Agreement

Citation

Contact Us