VGHuman 是北大、CMU、同济、UCLA、密歇根联合团队在 arXiv 发布的具身AI框架，凭视觉在陌生3D场景自主行动。框架分 World Layer（单目视频重建带语义和碰撞网格的3D高斯场，考虑遮挡）与 Agent Layer（第一视角RGB-D感知，迭代推理生成规划，扩散模型转化为全身动作）。在200个测试场景中，成功率比 NaVILA 等基线高约30个百分点，碰撞率更低或持平；支持跑跳等动作与长程规划，代码计划开源，GitHub已建仓。

ME News

2026-05-01 03:10:18

摘要生成中

ME News 消息，4 月 14 日（UTC+8），据 1M AI News 监测，北京大学、卡内基梅隆大学、同济大学、加州大学洛杉矶分校和密歇根大学联合团队在 arXiv 发布 VGHuman，一个让数字人仅凭视觉感知在陌生 3D 场景中自主行动的具身 AI 框架。此前数字人系统普遍依赖预设脚本或特权状态信息驱动，VGHuman 的出发点是给数字人真正的眼睛，让它自己看路、规划、行动。框架分两层。World Layer 从单目视频重建出带有语义标注和碰撞网格的 3D 高斯场景，遮挡感知设计让它在复杂室外环境中仍能识别被遮挡的小型物体。Agent Layer 为数字人配备第一视角 RGB-D（彩色+深度）感知，通过空间感知视觉提示和迭代推理生成规划，最终由扩散模型转化为全身动作序列驱动角色运动。在 200 个测试场景的导航基准中，跨简单路径、障碍绕行、动态行人三个难度层级，VGHuman 任务成功率最高超出 NaVILA、NaVid、Uni-NaVid 等最强基线约 30 个百分点，碰撞率持平或更低。框架还支持跑步、跳跃等多种运动风格，以及访问连续多个目标的长程规划。代码和模型计划开源，GitHub 仓库已建立。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

五校联合研究让数字人靠视觉在3D场景自主导航，成功率超最优基线约30个百分点

热门话题

WCTC交易王PK

美国寻求战略比特币储备

比特币ETF期权持仓限额增4倍

美联储利率不变但内部分歧加剧

DeFi4月安全事件损失超6亿美元

置顶