LPM 1.0 – 米哈游蔡浩宇推出的 AI 视频生成模型

Al项目 2026-04-13 12:00:10 AI导航网

LPM 1.0是什么

LPM 1.0（Large Performance Model）是Anuttacon（蔡浩宇AI公司）推出的17B参数视频角色表演生成模型，支持实时全双工音视频对话。模型可将单图转化为能说话、倾听、反应且带细腻微表情的数字人，保持无限时长身份一致。LPM 1.0适用AI对话、虚拟直播、游戏NPC等场景作为通用视觉引擎。

LPM 1.0的主要功能

实时全双工对话：支持同时进行说话和倾听的实时互动，双方可随时打断，模型能时生成回应前的停顿、目光转移等自然反应。
无限时长身份一致：基于图像输入保持角色外貌、牙齿、表情纹路、侧脸轮廓等细节在数小时长视频中稳定不变，不会出现”越生成越失真”。
三模态控制：通过文本（控制动作/表情）、音频（驱动口型/节奏）、参考图像（保持身份）联合控制角色表演。
零样本泛化：支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格，无需针对特定领域微调。
情感表演：模型能生成犹豫、思考、呼吸节奏等细腻微表情，支持唱歌时的旋律对齐嘴型。

LPM 1.0的技术原理

数据构建：通过严格质量过滤（保留率<10%）去除剪辑痕迹、美颜滤镜等缺陷，利用改进的LR-ASD模型标注每帧说话/倾听/空闲状态并实现音频分离，同时构建全局外观、多视角身体和面部表情的多粒度身份参考条件，形成大规模多模态数据集。
Base LPM：基于14B图像到视频预训练模型增加3B参数交错音频交叉注意力块形成17B扩散Transformer，联合学习语音驱动动态、倾听反应、文本控制和多参考身份保持，训练超17万亿多模态token实现高质量角色表演生成。
Online LPM：通过四阶段自回归蒸馏课程将Base LPM转化为因果流式生成器，采用Backbone-Refiner架构分别保持时序潜变量轨迹和恢复高保真细节，实现低延迟实时推理和无限长度身份一致生成。
系统架构：与A2A音频模型即插即用兼容，循环处理倾听、说话、空闲三状态，实时生成对应视频流。

如何使用LPM 1.0

LPM 1.0目前仅作学术交流不对外开放

LPM 1.0的项目地址

项目官网：https://large-performance-model.github.io/
arXiv技术论文：https://arxiv.org/pdf/2604.07823

LPM 1.0的关键信息和使用要求

定义：Anuttacon（蔡浩宇AI公司）推出的17B参数视频角色表演模型（Large Performance Model），专注单人全双工音视频对话场景，可将单图转化为能实时说话、倾听、反应的数字人。
核心能力：实时全双工对话（支持打断）、无限时长身份一致（外貌/表情长时稳定）、三模态控制（文本+音频+图像）、零样本泛化（支持写实/动漫/3D/非人生物）、细腻情感表演（微表情/呼吸节奏）。
技术路线：基于严格过滤的多模态数据集训练Base LPM（17B扩散Transformer），经四阶段蒸馏为Online LPM（因果流式架构），采用Backbone-Refiner设计实现实时生成。
应用场景：对话代理、虚拟直播、游戏NPC、AI教育导师、游戏伴侣的通用视觉引擎。
当前状态：不对外开放。无模型权重、源代码、在线演示、API或任何产品，项目页面仅供学术交流。

LPM 1.0的核心优势

解决表演三难困境：业界首个同时实现高表现力、实时推理、长时身份稳定性的视频生成模型，突破传统模型只能兼顾其中两项的限制。
全双工实时交互：支持真正的实时对话，说话与倾听状态可无缝切换，双方能同时说话并随时打断，响应延迟低且具备自然的停顿、眼神转移等微反应。
无限时长身份一致：通过流式架构保持角色外貌、牙齿、表情纹路等细节在数小时长视频中稳定，不会出现其他模型（如Kling-Avatar 2.0/OmniHuman 1.5限30秒）随时间推移的身份漂移。
自然倾听行为：模型能生成真实的倾听反应（点头、眉动、注视），填补现有模型只关注”说”而忽略”听”的空白。
零样本泛化：模型无需微调可支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格，具备极强的角色适配能力。
SOTA性能：在首个交互角色表演基准LPM-Bench上全面领先，人工评估中720P版本对Kling-Avatar-2和OmniHuman-1.5的偏好率分别为64.3%和42.5%。

LPM 1.0的同类竞品对比

对比维度	LPM 1.0	Kling-Avatar 2.0	OmniHuman-1.5
时长限制	无限时长，长时身份稳定	最长30秒	最长30秒
交互模式	全双工实时（可同时说/听/打断）	单向说话生成	单向说话生成
倾听能力	原生支持（实时反应、点头、眼神）	不支持	不支持
身份稳定性	数小时保持一致	随时间推移可能漂移	随时间推移可能漂移
人工评估	基准	64.3%用户更偏好LPM	42.5%用户更偏好LPM

LPM 1.0的应用场景

对话式人工智能代理：为AI助手赋予具象化的人类视觉存在感，支持面对面真实互动，用于客户支持、虚拟助理、数字人类。
互动NPC与游戏角色：打造具备语境对话、倾听行为和情感连贯肢体语言的开放世界NPC，无需单独动作捕捉可实现互动叙事。
直播与虚拟主持：实时虚拟流媒体，可在数小时长直播、亚秒延迟下保持身份一致性和视觉质量，支持24小时全天候播出。
教育与个性化辅导：AI导师具备持续视觉存在感，可在长时间教学中保持身份一致，实现从热情讲解到专注倾听的自然切换。
游戏伴侣：实时AI伙伴通过上下文评论、情感鼓励和自然表情响应游戏过程，为单人游戏增加社交互动体验。

# 文章博客 # Al项目

© 版权声明

本站文章版权归AI导航网所有，未经允许禁止任何形式的转载。

相关文章

PokeClaw – 开源的全本地离线运行手机 AI Agent 应用

Al项目

716

LPM 1.0 – 米哈游蔡浩宇推出的 AI 视频生成模型

Al项目

764

Trooly – AI Native用户研究平台，实时检测受访者情绪信号

Al项目

873

TripStar – 开源 AI 旅行规划工具，多智能体协作规划旅行

Al项目

486

MiniMax Music 2.6 – MiniMax 推出的全新 AI 音乐生成模型

Al项目

885

FIPO – 阿里通义推出的强化学习算法

Al项目

623

AI工具集导航收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具集导航广告投放关于我们免责声明

Copyright © 2026 AI导航网鄂ICP备15001166号-12