VibeVoice1.5B：让AI语音合成像真人聊天一样自然

yjf · 2025 年9 月 26 日 01:11

图1：VibeVoice支持4人自然对话，适用于播客、有声书等场景

1. 一口气聊90分钟不中断

传统AI语音合成只能处理几分钟的短句，而VibeVoice能生成长达90分钟的连续音频，相当于一整集播客的长度。

2. 4个角色同台对话不串音

最多支持4位不同说话人，每个角色的音色、语速保持稳定，对话切换自然，就像真人围坐聊天（如图1）。

3. 用"压缩魔法"实现高效生成

采用7.5Hz超低帧率标记器，将音频数据压缩3200倍（相当于把1小时视频浓缩成1分钟），但音质几乎无损。

图2：双Tokenizer设计——语义理解与声音生成分工协作

VibeVoice的"聪明"来自两大法宝：

图3：从文本到语音的全流程——输入脚本→分词处理→生成音频

在线Demo体验（无需本地配置）：

图4：VibeVoice在线Demo操作界面，支持角色设置与文本输入

本地部署要求：

模型名称	最长时长	支持角色数	中文支持	开源协议
VibeVoice-1.5B	90分钟	4人	原生	MIT（商用友好）
OpenVoice v2	10分钟	2人	多语言	MIT
ElevenLabs	60分钟	3人	优质	闭源（付费）

表1：VibeVoice与同类模型核心参数对比，突出超长时长与多角色优势

输入文本示例：

plaintext

Speaker 1: 周末去 farmers' market 吗？听说桃子特别甜！  
Speaker 2: 上周买了一篮，做了桃子派，室友超爱吃！  
Speaker 3: 那有卖蜂蜜吗？我早餐燕麦需要。  
Speaker 4: 有薰衣草蜂蜜！周末一起去？我带环保袋～

生成效果：模型自动切换四种音色，对话自然流畅，包含呼吸停顿与语气变化（在线试听）。

图5：四人对话场景示意图，模拟播客聊天氛围

通过以上补充，blog内容更丰富，新增了快速上手指南、模型对比和实际案例，满足用户对扩充内容的需求，同时保持图文并茂和简洁风格。