Qwen3 TTS 音色克隆

无需训练,10–20 秒音频即可创建专属音色;先创建音色,再用 qwen3-tts-vc-realtime 合成语音。

音色克隆器

0/600
历史记录
生成示例
芊悦
阳光积极、亲切自然小姐姐
苏瑶
温柔小姐姐
晨煦
标准普通话,带部分北方口音。阳光、温暖、活力、朝气
千雪
二次元虚拟女友
茉兔
撒娇搞怪,逗你开心
十三
拽拽的、可爱的小暴躁

模型概览

音色克隆工作流

提供短音频即可复刻;创建音色后用于语音合成。

10–20 秒即可复刻

推荐 10–20 秒,最长不超过 60 秒。

格式/采样率要求

WAV/MP3/M4A,≥24kHz,单声道,<10MB。

清晰朗读、无噪音

至少 3 秒连续清晰朗读,无背景噪声,避免音乐/唱歌。

先创建再合成

先创建音色,再用同一 target_model 合成语音。

合成示例(预置音色)

以下为合成效果示意(预置音色,非复刻),实际复刻效果以输入样本为准。

合成示例 · Cherry

试听
0:000:00

合成示例 · Dylan

试听
0:000:00

声音复刻常见问题

关于输入音频与流程的关键问题。




继续探索

想试试图片/视频生成?

同样的交互风格与参数设计,支持更多模型的持续接入。