VoxCPM 2.05 开源语音大模型，无需训练，3秒搞定声音复刻！支持30种语言，9种方言，支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存-华灯初上

VoxCPM 2.05 开源语音大模型，无需训练，3秒搞定声音复刻！支持30种语言，9种方言，支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存

7天前更新

0475

一键克隆任意人声！VoxCPM 2.05 开源语音大模型，无需训练，3秒搞定声音复刻！支持30种语言，9种方言，支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存。最低8G英伟达即可运行

VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线（如文本分析 → 音素对齐 → 声码器），而是直接从文本生成高质量语音波形。

🎯 目标：打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。

🔧 核心特性（技术亮点）

1. ✅ 端到端架构（End-to-End）

输入：纯文本（支持中英文、混合、特殊符号、音素标记等）
输出：16kHz 高保真语音波形
无需强制对齐、无需声码器、无需预处理文本正则化（可选）

2. ✅ 零样本语音克隆（Zero-Shot Voice Cloning）

仅需提供一段任意说话人的参考语音（≥3秒），即可克隆其音色、语调、语速、情感。
无需微调、无需注册说话人 ID。
支持跨语种克隆（如用中文语音克隆说英文）。

3. ✅ 支持音素/公式输入（Phoneme & Symbol Level Control）

可输入音素标记，如 {ni3 hao3} 或 {HH AH0 L OW1}，实现精准发音控制。
可合成数学公式、特殊符号，如 “sin(x) = 0.5” → 读作 “sine of x equals zero point five”。

4. ✅ 情感与风格可控（通过 CFG 和 Prompt）

通过 Classifier-Free Guidance (CFG) 控制语音风格贴近参考音频的程度。
调整 CFG 值可在“忠实复刻”与“自由发挥”之间平衡。
参考音频可携带情感（如高兴、低沉、激动），模型可迁移该情感。

5. ✅ 支持文本正则化插件（可选）

可外接 WeTextProcessing 库自动将“2025年4月5日”转为“二零二五年四月五日”。
也可关闭，让模型直接理解原始文本（模型本身具备一定文本理解能力）。

6. ✅ 快速推理（Diffusion + Flow Matching）

使用扩散模型 + 流匹配（Flow Matching）技术，仅需 4~30 步即可生成高质量语音。
默认 10 步，兼顾速度与质量。

📦 模型规格


模型名称	VoxCPM-0.5B
参数量	5亿（0.5B）
训练数据	多语种、多说话人、多情感语音数据集（未公开细节）
输入	文本 +（可选）参考音频 & 参考文本
输出	16kHz 单声道 WAV 音频
推理设备	支持 CPU / GPU（推荐 GPU）
推理速度	约 1~3 秒/句（RTX 3090，10 steps）

🚀 应用场景

📱 个性化语音助手（克隆用户自己的声音）
🎧 有声书 / 教育内容自动生成
🎭 影视/游戏配音（快速切换角色音色）
🤖 虚拟主播 / 数字人语音驱动
🧑‍🏫 语言学习（模仿发音、语调）
🧮 科技内容朗读（支持公式、代码、符号）

🧪 局限性（当前版本）

仅提供 0.5B 版本，更大版本尚未开源
长文本（>50字）可能语调不稳定
极端情感或口音克隆效果依赖参考音频质量
中文支持更好，英文尚可，其他语言未验证

💡 总结一句话

VoxCPM 是目前开源社区中功能最全面、最灵活的端到端语音合成大模型之一 —— 支持零样本克隆、音素控制、公式朗读、情感迁移，开箱即用，适合研究与工业部署。

如果你正在做语音合成、数字人、教育科技、AIGC 相关项目，VoxCPM 是一个非常值得集成和探索的开源工具！

整合包说明

1 支持50系显卡，最低6G 英伟达显卡，16G内存即可愉快玩耍

2 修改了生成的音频自动保存到output目录下

20260505 更新记录

1 新增音色保存

2 新增更多示例

3 修正部分bug

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

AIGC
# AI # TTS # AI语音

喜欢就支持一下吧

相关推荐

评论抢沙发

请登录后发表评论

暂无评论内容