音色设计
只用自然语言描述性别、年龄、音色、情绪和语速,就能创建全新声音,无需参考音频。
邮件联系
README 中的核心能力被整理成开发者最容易理解的产品路径:设计声音、克隆声音、批量生成、流式输出。
只用自然语言描述性别、年龄、音色、情绪和语速,就能创建全新声音,无需参考音频。
从短参考音频中复制音色,并通过风格指令调节情绪、节奏和表达,同时保持原始声纹。
提供参考音频与转录文本,模型可以从参考音频无缝续写,保留音色、节奏、情绪和风格细节。
标准 PyTorch 推理在 RTX 4090 上 RTF 可低至约0.3,Nano-vLLM 或 vLLM-Omni 加速后可达约0.13。
直接输入原始文本即可合成,无需额外语言标签。项目 README 列出30种语言,并包含四川话、粤语、吴语等中文方言。
四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话。
保留 README 中最关键的安装、Python API、Web Demo 和生产服务路线。
pip install voxcpm
本地安装 Python 包,加载 openbmb/VoxCPM2 或 ModelScope 权重。
用 text、reference_wav_path、prompt_text 等参数覆盖 TTS、设计和克隆场景。
需要多人或高并发时,迁移到 Nano-vLLM 或 vLLM-Omni 的 OpenAI 兼容接口。
VoxCPM2 工作在 AudioVAE V2 的连续潜空间中,使用 LocEnc、TSLM、RALM、LocDiT 四阶段管线,让多语言语音、韵律和音色细节可以在同一套生成流程里表达。
宣传页本身可以托管在 Cloudflare Pages;真实推理服务部署到 GPU 主机后,可通过 API 网关、私有化服务或企业应用进行集成。
用在线体验或本地 Demo 快速展示音色设计、中文方言、多语言合成和声音克隆效果。
打开在线体验Nano-vLLM-VoxCPM 支持并发请求与异步 API,README 给出 RTX 4090 上约0.13 RTF 的加速路线。
查看 Nano-vLLMvLLM-Omni 原生支持 VoxCPM2,可提供 /v1/audio/speech 风格接口,便于产品侧集成。
查看 vLLM-Omni适合接入内容创作、客服播报、教育课件、短视频配音、有声读物、游戏角色语音和本地化多语言业务。