VoxCPM 2.05 开源语音大模型,无需训练,3秒搞定声音复刻!支持30种语言,9种方言,支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存

一键克隆任意人声!VoxCPM 2.05 开源语音大模型,无需训练,3秒搞定声音复刻!支持30种语言,9种方言,支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存。最低8G英伟达即可运行

VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形。

🎯 目标:打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。

🔧 核心特性(技术亮点)

1. ✅ 端到端架构(End-to-End)

  • 输入:纯文本(支持中英文、混合、特殊符号、音素标记等)
  • 输出:16kHz 高保真语音波形
  • 无需强制对齐、无需声码器、无需预处理文本正则化(可选)

2. ✅ 零样本语音克隆(Zero-Shot Voice Cloning)

  • 仅需提供一段任意说话人的参考语音(≥3秒),即可克隆其音色、语调、语速、情感。
  • 无需微调、无需注册说话人 ID。
  • 支持跨语种克隆(如用中文语音克隆说英文)。

3. ✅ 支持音素/公式输入(Phoneme & Symbol Level Control)

  • 可输入音素标记,如 {ni3 hao3}{HH AH0 L OW1},实现精准发音控制。
  • 可合成数学公式、特殊符号,如 “sin(x) = 0.5” → 读作 “sine of x equals zero point five”。

4. ✅ 情感与风格可控(通过 CFG 和 Prompt)

  • 通过 Classifier-Free Guidance (CFG) 控制语音风格贴近参考音频的程度。
  • 调整 CFG 值可在“忠实复刻”与“自由发挥”之间平衡。
  • 参考音频可携带情感(如高兴、低沉、激动),模型可迁移该情感。

5. ✅ 支持文本正则化插件(可选)

  • 可外接 WeTextProcessing 库自动将“2025年4月5日”转为“二零二五年四月五日”。
  • 也可关闭,让模型直接理解原始文本(模型本身具备一定文本理解能力)。

6. ✅ 快速推理(Diffusion + Flow Matching)

  • 使用扩散模型 + 流匹配(Flow Matching) 技术,仅需 4~30 步 即可生成高质量语音。
  • 默认 10 步,兼顾速度与质量。

📦 模型规格

模型名称VoxCPM-0.5B
参数量5亿(0.5B)
训练数据多语种、多说话人、多情感语音数据集(未公开细节)
输入文本 +(可选)参考音频 & 参考文本
输出16kHz 单声道 WAV 音频
推理设备支持 CPU / GPU(推荐 GPU)
推理速度约 1~3 秒/句(RTX 3090,10 steps)

🚀 应用场景

  • 📱 个性化语音助手(克隆用户自己的声音)
  • 🎧 有声书 / 教育内容自动生成
  • 🎭 影视/游戏配音(快速切换角色音色)
  • 🤖 虚拟主播 / 数字人语音驱动
  • 🧑‍🏫 语言学习(模仿发音、语调)
  • 🧮 科技内容朗读(支持公式、代码、符号)

🧪 局限性(当前版本)

  • 仅提供 0.5B 版本,更大版本尚未开源
  • 长文本(>50字)可能语调不稳定
  • 极端情感或口音克隆效果依赖参考音频质量
  • 中文支持更好,英文尚可,其他语言未验证

💡 总结一句话

VoxCPM 是目前开源社区中功能最全面、最灵活的端到端语音合成大模型之一 —— 支持零样本克隆、音素控制、公式朗读、情感迁移,开箱即用,适合研究与工业部署。

如果你正在做语音合成、数字人、教育科技、AIGC 相关项目,VoxCPM 是一个非常值得集成和探索的开源工具!

image-20260603205635881
image-20260603205647021
image-20260603205658604
image-20260603205707942

整合包说明

1 支持50系显卡,最低6G 英伟达显卡,16G内存即可愉快玩耍

2 修改了生成的音频自动保存到output目录下

20260505 更新记录

1 新增音色保存

2 新增更多示例

3 修正部分bug

下载地址

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容