OmniHuman 1.5 数字人口播视频
上传 1 张人物图 + 1 段音频,生成自然口播视频。适用于带货讲解、在线课程、虚拟主播与客服解说。
视频生成
0 / 5000
可公网访问的 MP3/WAV 音频链接(最长 35 秒)。
人物检测
检测图片是否包含人物(发起更慢)。
自动生成 Mask
自动生成 Mask。
快速模式
生成更快,但可能降低质量。
视频预览
建议:使用正面清晰的人像(胸像/半身),音频尽量无杂音;生成后记得及时下载保存。
效果展示
覆盖口播、情绪表演、唱歌节奏、多角色对话等场景。
正在加载示例…
落地场景
OmniHuman 1.5 能做什么?
把“形象 + 声音”变成可交付的视频内容,适合快速产出与多场景复用。
带货讲解 / 产品介绍
统一形象输出多条卖点短视频。
在线课程 / 知识科普
讲师形象固定,音频可多语言替换。
客服解说 / 操作指引
把 FAQ 与说明做成可视化讲解。
虚拟主播 / IP 形象
覆盖新闻播报、直播口播、活动主持。
快速上手
3 分钟跑通一次生成
按步骤准备素材即可开始生成。
- 01/ 04
准备参考人像
正面、清晰、无遮挡,建议胸像/半身。
- 02/ 04
添加音频
上传音频或粘贴音频链接(MP3/WAV)。
- 03/ 04
(可选)文字提示微调
简短提示控制风格/镜头/动作倾向。
- 04/ 04
生成并下载
完成后可预览与下载,建议及时保存。
最佳实践
OmniHuman 1.5 生成最佳实践
重点在于“人像清晰 + 音频干净”。
实践 1:人像清晰、正面
避免侧脸、遮挡与过暗光照。
实践 2:音频干净、语速适中
减少噪声与混响,有助于口型稳定。
实践 3:可用短提示控制风格
例如“自然光、半身、轻微点头”。
常见问题
