Qwen3 TTS 음색 클론

훈련 없이 10-20초 오디오로 전용 음색을 생성할 수 있습니다. 먼저 음색을 생성한 다음 qwen3-tts-vc-realtime으로 음성을 합성합니다.

내 음색

합성 텍스트0/600

기록

생성 예시

Cherry

Sunny, upbeat, friendly young woman

Serena

Gentle, warm young woman

Ethan

Standard Mandarin with a slight northern accent; sunny, warm, energetic

Chelsie

Anime-style virtual girlfriend

Momo

Playful, cute, teasing tone

Vivian

Spunky, cute, a little feisty

더 많은 이미지 도구

전체 보기

음색 클론 워크플로우

짧은 오디오만 제공하면 복제 가능; 음색 생성 후 음성 합성에 사용합니다.

10-20초로 복제 가능

10-20초 권장, 최대 60초까지 가능합니다.

포맷/샘플링 레이트 요구사항

WAV/MP3/M4A, ≥24kHz, 모노, <10MB.

명확한 낭독, 소음 없음

최소 3초 연속 명확한 낭독, 배경 소음 없음, 음악/노래 사용 불가.

먼저 생성 후 합성

먼저 음색을 생성한 다음 동일한 target_model로 음성을 합성합니다.

합성 예시 (사전 설정 음색)

다음은 합성 효과 예시입니다 (사전 설정 음색, 복제 아님). 실제 복제 효과는 입력 샘플에 따라 다릅니다.

합성 예시 · Cherry

시청

0:000:00

합성 예시 · Dylan

시청

0:000:00

음성 복제 FAQ

입력 오디오 및 프로세스에 관한 주요 질문.

계속 탐색

이미지/영상 생성을 체험해 보시겠습니까?

동일한 인터랙션 스타일과 파라미터 설계로 더 많은 모델의 지속적인 접근을 지원합니다.

이미지 생성 영상 생성