Pixify 功能

AI 数字人 / 语音驱动头像

一张照片 + 一段音频 = 会说话的数字人

  • 一张照片 + 一段音频即可生成
  • 基于 OmniHuman v1.5 / Hedra 等模型
  • 口型、表情、头部动作全自动
  • 支持 9:16 竖版(短视频)和 16:9 横版
AI 数字人 / 语音驱动头像

这是什么

AI Avatar 把一张静态人脸照片和一段语音音频结合,生成数字人讲话视频。系统会自动让人物的嘴唇与音频对齐,并加入自然的眨眼、点头、表情变化。常用于做带货口播、教学视频、虚拟主播。一段 30 秒视频 2-5 分钟生成完毕。

如何使用

5 步即可上手

  1. 1

    上传人脸照片

    清晰正脸照效果最好,5-10MB 内 PNG/JPG/WEBP 都行。系统会自动检测脸部位置。

  2. 2

    上传音频

    准备一段你想让 ta 说的话,MP3/WAV/M4A 都支持,20MB 内。中英文都可以。也可以先用 Text to Audio 节点合成。

  3. 3

    可选:写 Prompt 描述场景

    描述镜头景别、动作、表情倾向("半身、自然微笑、偶尔点头")— 不写也能跑。

  4. 4

    选模型 + 长宽比

    OmniHuman v1.5 默认推荐,9:16 适合小红书 / TikTok,16:9 适合 B 站 / YouTube。

  5. 5

    生成 + 下载

    点击 Generate,2-5 分钟出片。可下载、保存到我的创作、或接入工作流后期。

适用场景

看看其他用户都拿来做什么

电商带货口播

一张主播照 + 一段产品介绍音频 → 直接出短视频,比真人录省 90% 时间。

教学课件

用历史人物照配讲解音频,学生看着"古人"讲历史。

虚拟主播

同一形象出多期视频,保持品牌人设统一。

多语言营销

一张照片配多语言音频,一次出全语种版本。

为什么选 Pixify

极简两步走

上传照片 + 上传音频,30 秒提交完毕。

口型对齐到帧

OmniHuman v1.5 是当前业界唇形对齐 SOTA。

可链入工作流

生成后接 Text to Audio(合成台词)或 Audio Video Merge(加 BGM)。

常见问题

对照片有什么要求?

+
清晰正脸、光照均匀效果最佳。侧脸 / 戴墨镜 / 大角度仰俯视会显著降低口型对齐准确度。建议照片分辨率不低于 1024x1024。

音频可以多长?

+
当前单次生成上限是约 60 秒。更长内容拆成多段生成后用 Video Merge 节点拼接。

能让两个人对话吗?

+
单次只能生成一个数字人。两人对话方案:分别生成 A、B 两个数字人视频,用 Video Merge 拼接 + Audio Video Merge 配音。

商用版权归谁?

+
生成视频的版权归你。但你用作输入的人脸照片必须是你有权使用的(你本人 / 已获授权 / AI 生成的虚拟形象)。禁止上传名人 / 未经同意的真实人物照片。

准备好开始了吗?

注册赠送积分,无需绑卡,立即上手。

生成第一个数字人