五校联合研究让数字人靠视觉在3D场景自主导航,成功率超最优基线约30个百分点

robot
摘要生成中

ME News 消息,4 月 14 日(UTC+8),据 1M AI News 监测,北京大学、卡内基梅隆大学、同济大学、加州大学洛杉矶分校和密歇根大学联合团队在 arXiv 发布 VGHuman,一个让数字人仅凭视觉感知在陌生 3D 场景中自主行动的具身 AI 框架。此前数字人系统普遍依赖预设脚本或特权状态信息驱动,VGHuman 的出发点是给数字人真正的眼睛,让它自己看路、规划、行动。 框架分两层。World Layer 从单目视频重建出带有语义标注和碰撞网格的 3D 高斯场景,遮挡感知设计让它在复杂室外环境中仍能识别被遮挡的小型物体。Agent Layer 为数字人配备第一视角 RGB-D(彩色+深度)感知,通过空间感知视觉提示和迭代推理生成规划,最终由扩散模型转化为全身动作序列驱动角色运动。 在 200 个测试场景的导航基准中,跨简单路径、障碍绕行、动态行人三个难度层级,VGHuman 任务成功率最高超出 NaVILA、NaVid、Uni-NaVid 等最强基线约 30 个百分点,碰撞率持平或更低。框架还支持跑步、跳跃等多种运动风格,以及访问连续多个目标的长程规划。代码和模型计划开源,GitHub 仓库已建立。 (来源:BlockBeats)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论