豆包推出实时语音大模型赋予AI对话“真人感”

2025-01-21

　　上证报中国证券网讯（记者刘怡鹤）1月20日，豆包实时语音大模型上线豆包App。这是一款语音理解和生成一体化的模型，实现了端到端语音对话。相比传统级联模式，这款模型在语音表现力、控制力、情绪承接方面有较好表现，并具备低时延、对话中可随时打断等特性，呈现出接近真人的语音表达水准。

　　豆包实时语音大模型为语音多模态技术的研究和优化提供了基础。不过，模型的能力边界仍存在诸多不确定性。比如语种方面，目前模型主要支持中文，其他语种尚未得到成熟支持。中文范围内，模型也仅支持小部分方言和地方口音的理解和表达，仍有较大进步空间。此外，安全性课题同样需要长期投入。

　　豆包团队表示，豆包实时语音大模型不仅贴合中国用户实际需求，而且实现了发布即上线，有能力直接服务亿万用户。在未来研究中，团队将进一步挖掘模型潜力，通过优化算法、扩充数据以及改进训练策略等手段，逐步拓展其能力边界，提升其在复杂场景下的适应性和表现力。

文章来源：上海证券报·中国证券网