OmniHuman 1.5 数字人口播视频

上传 1 张人物图 + 1 段音频,生成自然口播视频。适用于带货讲解、在线课程、虚拟主播与客服解说。

视频生成

0 / 5000

可公网访问的 MP3/WAV 音频链接(最长 35 秒)。

人物检测

检测图片是否包含人物(发起更慢)。

自动生成 Mask

自动生成 Mask。

快速模式

生成更快,但可能降低质量。

视频预览

建议:使用正面清晰的人像(胸像/半身),音频尽量无杂音;生成后记得及时下载保存。

效果展示

覆盖口播、情绪表演、唱歌节奏、多角色对话等场景。

正在加载示例…

落地场景

OmniHuman 1.5 能做什么?

把“形象 + 声音”变成可交付的视频内容,适合快速产出与多场景复用。

带货讲解 / 产品介绍

统一形象输出多条卖点短视频。

在线课程 / 知识科普

讲师形象固定,音频可多语言替换。

客服解说 / 操作指引

把 FAQ 与说明做成可视化讲解。

虚拟主播 / IP 形象

覆盖新闻播报、直播口播、活动主持。

快速上手

3 分钟跑通一次生成

按步骤准备素材即可开始生成。

  1. 01/ 04

    准备参考人像

    正面、清晰、无遮挡,建议胸像/半身。

  2. 02/ 04

    添加音频

    上传音频或粘贴音频链接(MP3/WAV)。

  3. 03/ 04

    (可选)文字提示微调

    简短提示控制风格/镜头/动作倾向。

  4. 04/ 04

    生成并下载

    完成后可预览与下载,建议及时保存。

最佳实践

OmniHuman 1.5 生成最佳实践

重点在于“人像清晰 + 音频干净”。

实践 1:人像清晰、正面

避免侧脸、遮挡与过暗光照。

实践 2:音频干净、语速适中

减少噪声与混响,有助于口型稳定。

实践 3:可用短提示控制风格

例如“自然光、半身、轻微点头”。

常见问题

常见问题




开始生成

用 OmniHuman 1.5 开始生成视频

在顶部输入提示词/上传素材,调整参数后即可生成。