上证报中国证券网讯(记者刘怡鹤)1月20日,豆包实时语音大模型上线豆包App。这是一款语音理解和生成一体化的模型,实现了端到端语音对话。相比传统级联模式,这款模型在语音表现力、控制力、情绪承接方面有较好表现,并具备低时延、对话中可随时打断等特性,呈现出接近真人的语音表达水准。
豆包实时语音大模型为语音多模态技术的研究和优化提供了基础。不过,模型的能力边界仍存在诸多不确定性。比如语种方面,目前模型主要支持中文,其他语种尚未得到成熟支持。中文范围内,模型也仅支持小部分方言和地方口音的理解和表达,仍有较大进步空间。此外,安全性课题同样需要长期投入。
豆包团队表示,豆包实时语音大模型不仅贴合中国用户实际需求,而且实现了发布即上线,有能力直接服务亿万用户。在未来研究中,团队将进一步挖掘模型潜力,通过优化算法、扩充数据以及改进训练策略等手段,逐步拓展其能力边界,提升其在复杂场景下的适应性和表现力。