LPM 1.0 – 米哈游蔡浩宇推出的 AI 视频生成模型

Al项目 2026-04-13 12:00:10 AI导航网

LPM 1.0是什么

LPM 1.0(Large Performance Model)是Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演生成模型,支持实时全双工音视频对话。模型可将单图转化为能说话、倾听、反应且带细腻微表情的数字人,保持无限时长身份一致。LPM 1.0适用AI对话、虚拟直播、游戏NPC等场景作为通用视觉引擎。

LPM 1.0的主要功能

  • 实时全双工对话:支持同时进行说话和倾听的实时互动,双方可随时打断,模型能时生成回应前的停顿、目光转移等自然反应。
  • 无限时长身份一致:基于图像输入保持角色外貌、牙齿、表情纹路、侧脸轮廓等细节在数小时长视频中稳定不变,不会出现”越生成越失真”。
  • 三模态控制:通过文本(控制动作/表情)、音频(驱动口型/节奏)、参考图像(保持身份)联合控制角色表演。
  • 零样本泛化:支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格,无需针对特定领域微调。
  • 情感表演:模型能生成犹豫、思考、呼吸节奏等细腻微表情,支持唱歌时的旋律对齐嘴型。

LPM 1.0的技术原理

  • 数据构建:通过严格质量过滤(保留率<10%)去除剪辑痕迹、美颜滤镜等缺陷,利用改进的LR-ASD模型标注每帧说话/倾听/空闲状态并实现音频分离,同时构建全局外观、多视角身体和面部表情的多粒度身份参考条件,形成大规模多模态数据集。
  • Base LPM:基于14B图像到视频预训练模型增加3B参数交错音频交叉注意力块形成17B扩散Transformer,联合学习语音驱动动态、倾听反应、文本控制和多参考身份保持,训练超17万亿多模态token实现高质量角色表演生成。
  • Online LPM:通过四阶段自回归蒸馏课程将Base LPM转化为因果流式生成器,采用Backbone-Refiner架构分别保持时序潜变量轨迹和恢复高保真细节,实现低延迟实时推理和无限长度身份一致生成。
  • 系统架构:与A2A音频模型即插即用兼容,循环处理倾听、说话、空闲三状态,实时生成对应视频流。

如何使用LPM 1.0

LPM 1.0目前仅作学术交流不对外开放

LPM 1.0的项目地址

  • 项目官网:https://large-performance-model.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2604.07823

LPM 1.0的关键信息和使用要求

  • 定义:Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演模型(Large Performance Model),专注单人全双工音视频对话场景,可将单图转化为能实时说话、倾听、反应的数字人。
  • 核心能力:实时全双工对话(支持打断)、无限时长身份一致(外貌/表情长时稳定)、三模态控制(文本+音频+图像)、零样本泛化(支持写实/动漫/3D/非人生物)、细腻情感表演(微表情/呼吸节奏)。
  • 技术路线:基于严格过滤的多模态数据集训练Base LPM(17B扩散Transformer),经四阶段蒸馏为Online LPM(因果流式架构),采用Backbone-Refiner设计实现实时生成。
  • 应用场景:对话代理、虚拟直播、游戏NPC、AI教育导师、游戏伴侣的通用视觉引擎。
  • 当前状态不对外开放。无模型权重、源代码、在线演示、API或任何产品,项目页面仅供学术交流。

LPM 1.0的核心优势

  • 解决表演三难困境:业界首个同时实现高表现力、实时推理、长时身份稳定性的视频生成模型,突破传统模型只能兼顾其中两项的限制。
  • 全双工实时交互:支持真正的实时对话,说话与倾听状态可无缝切换,双方能同时说话并随时打断,响应延迟低且具备自然的停顿、眼神转移等微反应。
  • 无限时长身份一致:通过流式架构保持角色外貌、牙齿、表情纹路等细节在数小时长视频中稳定,不会出现其他模型(如Kling-Avatar 2.0/OmniHuman 1.5限30秒)随时间推移的身份漂移。
  • 自然倾听行为:模型能生成真实的倾听反应(点头、眉动、注视),填补现有模型只关注”说”而忽略”听”的空白。
  • 零样本泛化:模型无需微调可支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格,具备极强的角色适配能力。
  • SOTA性能:在首个交互角色表演基准LPM-Bench上全面领先,人工评估中720P版本对Kling-Avatar-2和OmniHuman-1.5的偏好率分别为64.3%和42.5%。

LPM 1.0的同类竞品对比

对比维度LPM 1.0Kling-Avatar 2.0OmniHuman-1.5
时长限制无限时长,长时身份稳定最长30秒最长30秒
交互模式全双工实时(可同时说/听/打断)单向说话生成单向说话生成
倾听能力原生支持(实时反应、点头、眼神)不支持不支持
身份稳定性数小时保持一致随时间推移可能漂移随时间推移可能漂移
人工评估基准64.3%用户更偏好LPM42.5%用户更偏好LPM

LPM 1.0的应用场景

  • 对话式人工智能代理:为AI助手赋予具象化的人类视觉存在感,支持面对面真实互动,用于客户支持、虚拟助理、数字人类。
  • 互动NPC与游戏角色:打造具备语境对话、倾听行为和情感连贯肢体语言的开放世界NPC,无需单独动作捕捉可实现互动叙事。
  • 直播与虚拟主持:实时虚拟流媒体,可在数小时长直播、亚秒延迟下保持身份一致性和视觉质量,支持24小时全天候播出。
  • 教育与个性化辅导:AI导师具备持续视觉存在感,可在长时间教学中保持身份一致,实现从热情讲解到专注倾听的自然切换。
  • 游戏伴侣:实时AI伙伴通过上下文评论、情感鼓励和自然表情响应游戏过程,为单人游戏增加社交互动体验。

© 版权声明

相关文章