VoxCPM2

面向商业内容生产和产品级语音交互的多语言生成能力。基于连续音频表征路线,覆盖创意音色设计、声音克隆、中文方言和高保真 48kHz 输出,可作为品牌声音、配音工作流和企业语音服务的技术底座。

2B
模型参数
30+
语言与方言
48kHz
音频输出
API
商业接入

面向产品交付的语音生成能力矩阵

音色设计

音色设计

用自然语言定义性别、年龄、质感、情绪和语速,快速形成可用于品牌、角色或内容栏目的专属声音方向。

声音克隆

可控声音克隆

基于参考音频复现说话人音色,并通过风格指令控制情绪、节奏与表达强度,适配更真实的业务语境。

高一致性克隆

极致克隆

在有授权素材的前提下保留音色、节奏、情绪和细节表达,适合高一致性的角色语音和内容资产生产。

服务化集成

服务化集成

可围绕业务后台、内容平台或内部工具封装调用链路,让语音生成进入真实的生产、审核和发布流程。

多语言覆盖

多语言覆盖

覆盖普通话、中文方言和多语种内容,适合跨区域内容生产、出海本地化和多市场运营。

商业评估

商业评估

围绕样本文案、目标音色、使用规模、权限边界和交付方式,形成更可落地的售前判断。

覆盖全球语言,也保留中文表达的地域质感

面向多语言内容、本地化运营和区域市场表达,支持多语种与中文方言能力,让同一套声音系统服务更广泛的受众。

中文 English 日本語 한국어 Deutsch Español Français ไทย Tiếng Việt العربية Português Русский

中文方言

四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。

Tokenizer-Free 连续语音生成架构

VoxCPM2 工作在 AudioVAE V2 的连续潜空间中,结合 LocEnc、TSLM、RALM、LocDiT 等模块,把文本理解、韵律规划、音色控制和音频还原整合到统一生成链路。

  • VoxCPM2:推荐评估版本,2B 参数规模,覆盖 30+ 语言与 48kHz 输出。
  • VoxCPM1.5:适合需要稳定复现、微调探索或历史兼容的团队。
  • VoxCPM-0.5B:轻量版本,适合早期验证和资源受限的原型评估。
VoxCPM2 模型架构图
VoxCPM2 模型架构,适合用于客户技术评估和方案说明。

从官方 Demo 到可交付的商业语音方案

官方 Demo 评估

先从公开演示验证音色设计、多语言合成、中文方言和克隆效果,再判断是否适合具体业务。

打开 Demo

产品化接入

将语音生成能力封装到内容平台、客服系统、创作工具或企业内部流程,形成可调用、可审核、可管理的能力。

联系接入

私有化咨询

面向重视数据边界、权限控制、内容风控和服务稳定性的客户,按实际场景梳理交付路径。

咨询方案

把高质量语音能力接入你的业务系统

适合内容创作、客服播报、教育课件、短视频配音、有声读物、游戏角色语音和多语言本地化等场景。