LPM 1.0是什么
LPM 1.0(Large Performance Model)是Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演生成模型,支持实时全双工音视频对话。模型可将单图转化为能说话、倾听、反应且带细腻微表情的数字人,保持无限时长身份一致。LPM 1.0适用AI对话、虚拟直播、游戏NPC等场景作为通用视觉引擎。

LPM 1.0的主要功能
- 实时全双工对话:支持同时进行说话和倾听的实时互动,双方可随时打断,模型能时生成回应前的停顿、目光转移等自然反应。
- 无限时长身份一致:基于图像输入保持角色外貌、牙齿、表情纹路、侧脸轮廓等细节在数小时长视频中稳定不变,不会出现”越生成越失真”。
- 三模态控制:通过文本(控制动作/表情)、音频(驱动口型/节奏)、参考图像(保持身份)联合控制角色表演。
- 零样本泛化:支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格,无需针对特定领域微调。
- 情感表演:模型能生成犹豫、思考、呼吸节奏等细腻微表情,支持唱歌时的旋律对齐嘴型。
LPM 1.0的技术原理
- 数据构建:通过严格质量过滤(保留率<10%)去除剪辑痕迹、美颜滤镜等缺陷,利用改进的LR-ASD模型标注每帧说话/倾听/空闲状态并实现音频分离,同时构建全局外观、多视角身体和面部表情的多粒度身份参考条件,形成大规模多模态数据集。
- Base LPM:基于14B图像到视频预训练模型增加3B参数交错音频交叉注意力块形成17B扩散Transformer,联合学习语音驱动动态、倾听反应、文本控制和多参考身份保持,训练超17万亿多模态token实现高质量角色表演生成。
- Online LPM:通过四阶段自回归蒸馏课程将Base LPM转化为因果流式生成器,采用Backbone-Refiner架构分别保持时序潜变量轨迹和恢复高保真细节,实现低延迟实时推理和无限长度身份一致生成。
- 系统架构:与A2A音频模型即插即用兼容,循环处理倾听、说话、空闲三状态,实时生成对应视频流。
如何使用LPM 1.0
LPM 1.0目前仅作学术交流不对外开放
LPM 1.0的项目地址
- 项目官网:https://large-performance-model.github.io/
- arXiv技术论文:https://arxiv.org/pdf/2604.07823
LPM 1.0的关键信息和使用要求
- 定义:Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演模型(Large Performance Model),专注单人全双工音视频对话场景,可将单图转化为能实时说话、倾听、反应的数字人。
- 核心能力:实时全双工对话(支持打断)、无限时长身份一致(外貌/表情长时稳定)、三模态控制(文本+音频+图像)、零样本泛化(支持写实/动漫/3D/非人生物)、细腻情感表演(微表情/呼吸节奏)。
- 技术路线:基于严格过滤的多模态数据集训练Base LPM(17B扩散Transformer),经四阶段蒸馏为Online LPM(因果流式架构),采用Backbone-Refiner设计实现实时生成。
- 应用场景:对话代理、虚拟直播、游戏NPC、AI教育导师、游戏伴侣的通用视觉引擎。
- 当前状态:不对外开放。无模型权重、源代码、在线演示、API或任何产品,项目页面仅供学术交流。
LPM 1.0的核心优势
- 解决表演三难困境:业界首个同时实现高表现力、实时推理、长时身份稳定性的视频生成模型,突破传统模型只能兼顾其中两项的限制。
- 全双工实时交互:支持真正的实时对话,说话与倾听状态可无缝切换,双方能同时说话并随时打断,响应延迟低且具备自然的停顿、眼神转移等微反应。
- 无限时长身份一致:通过流式架构保持角色外貌、牙齿、表情纹路等细节在数小时长视频中稳定,不会出现其他模型(如Kling-Avatar 2.0/OmniHuman 1.5限30秒)随时间推移的身份漂移。
- 自然倾听行为:模型能生成真实的倾听反应(点头、眉动、注视),填补现有模型只关注”说”而忽略”听”的空白。
- 零样本泛化:模型无需微调可支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格,具备极强的角色适配能力。
- SOTA性能:在首个交互角色表演基准LPM-Bench上全面领先,人工评估中720P版本对Kling-Avatar-2和OmniHuman-1.5的偏好率分别为64.3%和42.5%。
LPM 1.0的同类竞品对比
| 对比维度 | LPM 1.0 | Kling-Avatar 2.0 | OmniHuman-1.5 |
|---|---|---|---|
| 时长限制 | 无限时长,长时身份稳定 | 最长30秒 | 最长30秒 |
| 交互模式 | 全双工实时(可同时说/听/打断) | 单向说话生成 | 单向说话生成 |
| 倾听能力 | 原生支持(实时反应、点头、眼神) | 不支持 | 不支持 |
| 身份稳定性 | 数小时保持一致 | 随时间推移可能漂移 | 随时间推移可能漂移 |
| 人工评估 | 基准 | 64.3%用户更偏好LPM | 42.5%用户更偏好LPM |
LPM 1.0的应用场景
- 对话式人工智能代理:为AI助手赋予具象化的人类视觉存在感,支持面对面真实互动,用于客户支持、虚拟助理、数字人类。
- 互动NPC与游戏角色:打造具备语境对话、倾听行为和情感连贯肢体语言的开放世界NPC,无需单独动作捕捉可实现互动叙事。
- 直播与虚拟主持:实时虚拟流媒体,可在数小时长直播、亚秒延迟下保持身份一致性和视觉质量,支持24小时全天候播出。
- 教育与个性化辅导:AI导师具备持续视觉存在感,可在长时间教学中保持身份一致,实现从热情讲解到专注倾听的自然切换。
- 游戏伴侣:实时AI伙伴通过上下文评论、情感鼓励和自然表情响应游戏过程,为单人游戏增加社交互动体验。
© 版权声明
本站文章版权归AI导航网所有,未经允许禁止任何形式的转载。
