VoxCPM2

基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆。20亿参数,200万小时多语种音频训练,支持30种语言与9种中文方言,原生输出48kHz高质量语音。

2B
模型参数
30+
语言与方言
48kHz
音频输出
API
产品集成

从文本到真实语音的完整能力

README 中的核心能力被整理成开发者最容易理解的产品路径:设计声音、克隆声音、批量生成、流式输出。

音色设计

只用自然语言描述性别、年龄、音色、情绪和语速,就能创建全新声音,无需参考音频。

可控声音克隆

从短参考音频中复制音色,并通过风格指令调节情绪、节奏和表达,同时保持原始声纹。

极致克隆

提供参考音频与转录文本,模型可以从参考音频无缝续写,保留音色、节奏、情绪和风格细节。

实时流式合成

标准 PyTorch 推理在 RTX 4090 上 RTF 可低至约0.3,Nano-vLLM 或 vLLM-Omni 加速后可达约0.13。

覆盖全球语言,也照顾中文方言

直接输入原始文本即可合成,无需额外语言标签。项目 README 列出30种语言,并包含四川话、粤语、吴语等中文方言。

中文 English 日本語 한국어 Deutsch Español Français ไทย Tiếng Việt العربية Português Русский

中文方言

四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。

开发者可以从一行安装开始

保留 README 中最关键的安装、Python API、Web Demo 和生产服务路线。

pip install voxcpm
1

本地安装 Python 包,加载 openbmb/VoxCPM2 或 ModelScope 权重。

2

用 text、reference_wav_path、prompt_text 等参数覆盖 TTS、设计和克隆场景。

3

需要多人或高并发时,迁移到 Nano-vLLM 或 vLLM-Omni 的 OpenAI 兼容接口。

Tokenizer-Free 的扩散自回归架构

VoxCPM2 工作在 AudioVAE V2 的连续潜空间中,使用 LocEnc、TSLM、RALM、LocDiT 四阶段管线,让多语言语音、韵律和音色细节可以在同一套生成流程里表达。

  • VoxCPM2:最新推荐版本,2B 参数,48kHz,30种语言。
  • VoxCPM1.5:稳定版本,支持 SFT 与 LoRA 微调。
  • VoxCPM-0.5B:轻量版本,适合验证系列技术路线。
VoxCPM2 模型架构图
VoxCPM2 模型架构,来自项目 README。

从演示体验到商业化语音服务

宣传页本身可以托管在 Cloudflare Pages;真实推理服务部署到 GPU 主机后,可通过 API 网关、私有化服务或企业应用进行集成。

方案演示

用在线体验或本地 Demo 快速展示音色设计、中文方言、多语言合成和声音克隆效果。

打开在线体验

高吞吐推理

Nano-vLLM-VoxCPM 支持并发请求与异步 API,README 给出 RTX 4090 上约0.13 RTF 的加速路线。

查看 Nano-vLLM

标准化 API

vLLM-Omni 原生支持 VoxCPM2,可提供 /v1/audio/speech 风格接口,便于产品侧集成。

查看 vLLM-Omni

面向产品落地的语音生成底座

适合接入内容创作、客服播报、教育课件、短视频配音、有声读物、游戏角色语音和本地化多语言业务。