博亚体育 0.9B跑出90%真机奏凯率！上海交大为VLA补上空间感

发布时间：2026-05-26 13:47 来源：未知作者：admin 浏览：62

机器东说念主看得见，但不一定看得准。

多数 VLA 模子仍然主要依赖二维视觉，一朝遭受精定位、细摆放、讳饰判断这类需要空间感知的任务，奏凯率就会显然下滑。

补空间信息的路有两条，但都有代价。

显式 3D 蹊径靠深度传感器和点云重建，硬件链路长、对标定罪过敏锐；隐式 3D 蹊径从 RGB 学几何，省了硬件，但不少决策依赖较重的基础模子，测验和推理老本偏高。

面前，上海交大 MINT 团队提议了一条中间蹊径 :

Evo-Depth，约0.9B参数，不荒谬加多硬件处事，用紧凑的隐式深度编码把空间感写进 VLA 战略里，乐橙体育(中国)官网入口仿真与真机同期兼顾性能与部署成果。

仿真端，Meta-World 84.4%、LIBERO 95.4%；真机平均奏凯率约 90%；部署侧约 3.2 GB 显存、约 12.3 Hz 推理频率。

代码、权重、测验剧本已全面开源。

轻量、可端到端测验

直入主题，Evo-Depth 的中枢想路是 :

从多视角 RGB 索纷乱凑的隐式深度表征，再以轻量状貌融入视觉 - 说话通路，临了通过 flow-matching 动作人人输出连气儿动作。

悉数系统主要由三部分构成 :

1、IDEM：Implicit Depth Encoding Module。

IDEM 谨慎从多视角图像中索要隐式深度特征，强调空间布局与相对几何关系，博亚体育2026世界杯中国官网而不是显式生成高老本的 3D 中间暗示。

论文中，IDEM 主干约 0.13B 参数，并结合多视角深度预测验启动化，在轻量条目下引入与深度接头的归纳偏置。

2、SEM：Spatial Enhancement Module。

SEM 将隐式深度算作一种调制信号，用于增强视觉 - 说话表征。

比较径直加多安稳深度分支，这种和会状貌更克制 :

原有 VLM 不息谨慎语义联结

深度特征主要谨慎空间增强

同期尽量放肆蔓延与显存支拨

3、Progressive Alignment Training。

天天德州app中国网入口

多模块聚拢测验每每容易出现优化不踏实的问题。

为此，作家禁受 Progressive Alignment Training，通过分阶段测验状貌逐步完成：深度表征对都 - 多模态和会 - 动作学习。

动作头则禁受了现时 VLA 中较常见的 flow-matching 蹊径。

在约 0.9B 总参数斥地下，论文讲解的末端如下。

仿真：Meta-World 84.4%、VLA-Arena 41.1%、LIBERO 95.4%、LIBERO-Plus 69.6%。

真机：平均奏凯率约 90%。

部署：约 3.2 GB GPU 显存、约 12.3 Hz 推理频率。

值得庄重的是，比较只温雅 benchmark 分数，论文也给出了部署侧支拨与及时性目标。

关于需要真确运行在机器东说念主放肆回路中的 VLA 来说，这部分信息往往相同进击。

性能 - 老本 - 及时性的折中

归根结底，Evo-Depth 惩办的问题其实即是一句话：

如安在不权臣加多系统处事的情况下，晋升 VLA 的空间才气。

末端是——比较纯二维 VLA，它补充了空间信息；比较更重的 3D 蹊径，它又尽量保留了部署成果。

关于正在作念机器东说念主操作、空间智能或 VLA 系统的团队来说，这类性能 - 老本 - 及时性之间的折中决策，可能会越来越进击。

官方仓库：https://github.com/MINT-SJTU/Evo-Depth

模子权重：https://huggingface.co/MINT-SJTU/EVO-Depth-LIBERO

一键三连「点赞」「转发」「谨防心」

宽容在指摘区留住你的观念！

— 完 —

咱们正在招聘别称眼疾手快、温雅 AI 的学术剪辑实习生 � �

感风趣的小伙伴宽容温雅 � � 了解确定

� � 点亮星标 � �

科技前沿施展逐日见博亚体育

博亚盘口

博亚体育 0.9B跑出90%真机奏凯率！上海交大为VLA补上空间感

扫码关注