Qwen3 TTS 音色克隆

无需训练，10–20 秒音频即可创建专属音色；先创建音色，再用 qwen3-tts-vc-realtime 合成语音。

我的音色

合成文本0/600

历史记录

生成示例

芊悦

阳光积极、亲切自然小姐姐

苏瑶

温柔小姐姐

晨煦

标准普通话，带部分北方口音。阳光、温暖、活力、朝气

千雪

二次元虚拟女友

茉兔

撒娇搞怪，逗你开心

十三

拽拽的、可爱的小暴躁

更多图片工具

查看全部

受欢迎的模型

Qwen-Image-Edit-Plus z-image-turbo WAN 2.5 Nano Banana Nano Banana Pro Nano Banana Pro Ultra Seedream V4.5 GPT Image 1.5 Lite

受欢迎的工具

Qwen Image Layered 背景移除图片高清放大

更多视频工具

查看全部

受欢迎的模型

Hailuo 2.3 Fast Hailuo 2.3 Seedance 1.5 Pro Seedance 2 Sora 2 Preview Sora 2 Lite Sora 2 Pro Veo 3.1 Pro Veo 3.1 Fast

受欢迎的工具

OmniHuman 1.5 数字人口播视频

更多音频工具

查看全部

受欢迎的模型

Suno 音乐 Qwen3 TTS 语音生成器

受欢迎的工具

Qwen3 TTS 音色克隆 CosyVoice v3 音色克隆

模型概览

音色克隆工作流

提供短音频即可复刻；创建音色后用于语音合成。

10–20 秒即可复刻

推荐 10–20 秒，最长不超过 60 秒。

格式/采样率要求

WAV/MP3/M4A，≥24kHz，单声道，<10MB。

清晰朗读、无噪音

至少 3 秒连续清晰朗读，无背景噪声，避免音乐/唱歌。

先创建再合成

先创建音色，再用同一 target_model 合成语音。

合成示例（预置音色）

以下为合成效果示意（预置音色，非复刻），实际复刻效果以输入样本为准。

合成示例 · Cherry

试听

0:000:00

合成示例 · Dylan

试听

0:000:00

声音复刻常见问题

关于输入音频与流程的关键问题。

继续探索

想试试图片/视频生成？

同样的交互风格与参数设计，支持更多模型的持续接入。

图片生成视频生成

Qwen3 TTS 音色克隆

音色克隆器

音色克隆工作流

10–20 秒即可复刻

格式/采样率要求

清晰朗读、无噪音

先创建再合成

合成示例（预置音色）

合成示例 · Cherry

合成示例 · Dylan

声音复刻常见问题

输入音频有什么要求？

流程怎么走？

能否使用公共预置音色？

想试试图片/视频生成？