2025年1月20日,豆包APP发布了最新的“端到端”语音大模型,并更新了实时语音通话功能。此次更新将语音识别、理解和生成整合至同一模型中,显著提升了语音交互的自然度和流畅性。豆包的新功能亮点在于能够复刻人类的表达形式和情感输出,如“灵魂歌手”和“百变大咖”模式,能唱歌和模仿明星、书中及影视角色,展现了其拟人能力和情绪表达的新高度。
相较于传统的ASR+LLM+TTS级联方案,豆包的端到端方案在降低延时、提升自然度和情感表达方面表现优异。这一变化不仅提升了AI语音交互的拟人度,还将AI的应用场景从教育、客服等专业领域扩展到情感陪伴、心理咨询等更广阔的领域。随着AI在情感交互领域的市场潜力逐渐显现,豆包的此次更新无疑为AI与人交互形式的丰富和沉浸感的提升提供了关键支持。