阿里通义千问开源两款语音基座模型：SenseVoice和CosyVoice-充电桩和厂家合作还是自己办公司合作

转载：https://ai.zol.com.cn/882/8829808.html

2024-07-09 10:40:41·[??中关村在线原创??]·作者：拿铁不加冰

7月9日，阿里云通义千问宣布开源了两款语音基座模型：SenseVoice和CosyVoice。SenseVoice专注于高精度多语言语音识别、情感辨识和音频事件检测，特点包括支持超过50种语言的多语言识别能力，在测试数据上达到和超过目前最佳情感识别模型的效果，并具备优秀的声音事件检测能力。另一方面，CosyVoice同样支持多语言、音色和情感控制，表现出色的功能包括多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟随等。

值得一提的是，与开源的情感识别模型进行对比，SenseVoice-Large模型可以几乎在所有数据上达到最佳效果，而SenseVoice-Small模型同样可以在多数数据集上超越其他开源模型。这两款优秀的语音基座模型为开发者们提供了一种便捷的方式来进行语音技术开发。