一键克隆任意人声!VoxCPM 2.05 开源语音大模型,无需训练,3秒搞定声音复刻!支持30种语言,9种方言,支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存。最低8G英伟达即可运行
VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形。
🎯 目标:打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。
🔧 核心特性(技术亮点)
1. ✅ 端到端架构(End-to-End)
- 输入:纯文本(支持中英文、混合、特殊符号、音素标记等)
- 输出:16kHz 高保真语音波形
- 无需强制对齐、无需声码器、无需预处理文本正则化(可选)
2. ✅ 零样本语音克隆(Zero-Shot Voice Cloning)
- 仅需提供一段任意说话人的参考语音(≥3秒),即可克隆其音色、语调、语速、情感。
- 无需微调、无需注册说话人 ID。
- 支持跨语种克隆(如用中文语音克隆说英文)。
3. ✅ 支持音素/公式输入(Phoneme & Symbol Level Control)
- 可输入音素标记,如
{ni3 hao3}或{HH AH0 L OW1},实现精准发音控制。 - 可合成数学公式、特殊符号,如 “sin(x) = 0.5” → 读作 “sine of x equals zero point five”。
4. ✅ 情感与风格可控(通过 CFG 和 Prompt)
- 通过 Classifier-Free Guidance (CFG) 控制语音风格贴近参考音频的程度。
- 调整 CFG 值可在“忠实复刻”与“自由发挥”之间平衡。
- 参考音频可携带情感(如高兴、低沉、激动),模型可迁移该情感。
5. ✅ 支持文本正则化插件(可选)
- 可外接
WeTextProcessing库自动将“2025年4月5日”转为“二零二五年四月五日”。 - 也可关闭,让模型直接理解原始文本(模型本身具备一定文本理解能力)。
6. ✅ 快速推理(Diffusion + Flow Matching)
- 使用扩散模型 + 流匹配(Flow Matching) 技术,仅需 4~30 步 即可生成高质量语音。
- 默认 10 步,兼顾速度与质量。
📦 模型规格
| 模型名称 | VoxCPM-0.5B |
| 参数量 | 5亿(0.5B) |
| 训练数据 | 多语种、多说话人、多情感语音数据集(未公开细节) |
| 输入 | 文本 +(可选)参考音频 & 参考文本 |
| 输出 | 16kHz 单声道 WAV 音频 |
| 推理设备 | 支持 CPU / GPU(推荐 GPU) |
| 推理速度 | 约 1~3 秒/句(RTX 3090,10 steps) |
🚀 应用场景
- 📱 个性化语音助手(克隆用户自己的声音)
- 🎧 有声书 / 教育内容自动生成
- 🎭 影视/游戏配音(快速切换角色音色)
- 🤖 虚拟主播 / 数字人语音驱动
- 🧑🏫 语言学习(模仿发音、语调)
- 🧮 科技内容朗读(支持公式、代码、符号)
🧪 局限性(当前版本)
- 仅提供 0.5B 版本,更大版本尚未开源
- 长文本(>50字)可能语调不稳定
- 极端情感或口音克隆效果依赖参考音频质量
- 中文支持更好,英文尚可,其他语言未验证
💡 总结一句话
VoxCPM 是目前开源社区中功能最全面、最灵活的端到端语音合成大模型之一 —— 支持零样本克隆、音素控制、公式朗读、情感迁移,开箱即用,适合研究与工业部署。
如果你正在做语音合成、数字人、教育科技、AIGC 相关项目,VoxCPM 是一个非常值得集成和探索的开源工具!




整合包说明
1 支持50系显卡,最低6G 英伟达显卡,16G内存即可愉快玩耍
2 修改了生成的音频自动保存到output目录下
20260505 更新记录
1 新增音色保存
2 新增更多示例
3 修正部分bug
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END








暂无评论内容