LeWorldModel

Edit Me

联合嵌入预测架构（JEPA）为在紧凑隐空间中学习世界模型提供了一个颇具吸引力的框架，但现有方法仍然较为脆弱，往往依赖复杂的多项损失、指数移动平均、预训练编码器或辅助监督来避免表征坍塌。在本研究中，我们提出 LeWorldModel（LeWM）——首个仅用两项损失函数（下一嵌入预测损失 + 强制隐嵌入服从高斯分布的正则项）就能从原始像素端到端稳定训练的 JEPA。与当前唯一存在的端到端替代方案相比，可调损失超参数从六个降至一个。LeWM 拥有 1500 万参数，可在单张 GPU 上数小时内完成训练，规划速度最高比基于基础模型的世界模型快 48 倍，同时在多种 2D 和 3D 控制任务上保持竞争力。除控制任务外，我们还通过对物理量的探针分析表明，LeWM 的隐空间编码了有意义的物理结构。惊讶度评估进一步确认，该模型能可靠地检测出物理上不合理的事件。

<https://arxiv.org/pdf/2603.19312>

贡献者

这篇文章有帮助吗？

LeWorldModel

贡献者

最近更新