Qwen3 TTS 음색 클론
훈련 없이 10-20초 오디오로 전용 음색을 생성할 수 있습니다. 먼저 음색을 생성한 다음 qwen3-tts-vc-realtime으로 음성을 합성합니다.
음색 클론
0/600
기록
생성 예시
Cherry
Sunny, upbeat, friendly young woman
Serena
Gentle, warm young woman
Ethan
Standard Mandarin with a slight northern accent; sunny, warm, energetic
Chelsie
Anime-style virtual girlfriend
Momo
Playful, cute, teasing tone
Vivian
Spunky, cute, a little feisty
모델 개요
음색 클론 워크플로우
짧은 오디오만 제공하면 복제 가능; 음색 생성 후 음성 합성에 사용합니다.
10-20초로 복제 가능
10-20초 권장, 최대 60초까지 가능합니다.
포맷/샘플링 레이트 요구사항
WAV/MP3/M4A, ≥24kHz, 모노, <10MB.
명확한 낭독, 소음 없음
최소 3초 연속 명확한 낭독, 배경 소음 없음, 음악/노래 사용 불가.
먼저 생성 후 합성
먼저 음색을 생성한 다음 동일한 target_model로 음성을 합성합니다.
합성 예시 (사전 설정 음색)
다음은 합성 효과 예시입니다 (사전 설정 음색, 복제 아님). 실제 복제 효과는 입력 샘플에 따라 다릅니다.
합성 예시 · Cherry
시청
0:000:00
합성 예시 · Dylan
시청
0:000:00
음성 복제 FAQ
입력 오디오 및 프로세스에 관한 주요 질문.
