
本文源自:中国科学院自动化研究所的Wang Yuqi,博士学位,具有世界模型的研究方向,自主驾驶感知和决策,并在CVPR,Neurips,ICCV,ICCV,E-End,ICLR,ICLR,ETBP等领先会议中发表了许多论文。负责EMU系列工作的主要人物。 Zhang Zhaoxiang团队,中国科学院自动化研究所,研究方向涵盖了世界模型,视觉世代和重建,自主驾驶,体现的智能等,从Sora到Genie2,从一代人都来自世界上的交互式模拟的语言驱动。连接感知,理解和决策的基本基础。通过在体现智能领域的语言模型(VLA)的快速发展,多模式之间的边界被重塑。但是,现有方法通常以语言方式为中心,并且通常忽略丰富的动态时机和结构视觉信息中包含的原因。 To this end, Beijing Zhiyuan Research Institute and the Institute of Automation of the Chinese Academy of Sciences Proposed Univla - a brand new VLA model architecture, based on a fully discrete and autoregressive mechanism, natively model vision, language and action signals, and introduced world modeling in the post -training stage to Learn timing information and causal logic from large-scale videos, effectively enhancing the performance and learning efficiency of决策活动的模型。 Univla在主流体现的智能基准(例如Calvin,Libero,SimpleerEnv)中全面损坏了许多SOTA注释,并在现实生活中表现出了广泛的潜力,例如现实生活中的控制和自动驾驶。纸张标题:Unified Vision-Language-Action模型网站链接链接:https://robertwyq.github.io/univla.github.io/prape Link:https://arxiv.org/abs/2506.19850代码链接:OM/Baivision/Univla Unified Vision-M-M自动回归模型该框架将视觉,语言信号和动作与离散令牌相结合,并与视觉效果相互关联以实现本地统一建模。在训练范式中,使用自回归方法进行研究不仅是好且稳定的,而且有可能进行大量扩展。由于这次是多模式的表示,该模型自然支持统一的负担,包括视觉理解,文献视频,动作预言等,以及出色的数据扩展和数据扩展功能。 - 语言 - 模型体系结构模型有助于在这个统一框架下的上游决策,世界模型的培训可显着提高决策绩效,而不必依靠大量的动作数据,并且可以基于大量视频来学习良好。比较训练的范式语言生成的图像,定时信息已被证明很重要,并且与纯视频建模相比,还需要需要多模式的语义对准。它为机器人打开了新的途径,可以从大型视频中找出真实世界知识,从而显示了世界模型在MU IntegrationLtimodal感知和决策中的巨大潜力。我将刷新多个仿真基准记录。该方法比当前的主要基准测试表现出强大的性能优势,这些基准是模拟基准的宝石(包括Calvin,Libero和SimpleerEnv),所有这些基准都完全损害了许多任务记录。加尔文的远程任务评估评估评估SimperEreNV一般测试的一般概括的一般综述被更广泛地使用:真正的双臂控制和端到端的驾驶和双臂合作,以探索与本文相比的新的VLA技术,以探索未来前景的新技术,并显示出更大的技术途径,显示出更大的潜力,显示出更大的潜力。空间。一方面,我们构建了VLA体系结构视频的一个版本,该版本允许模型在视频中捕获时空的动态属性,并在构想过程中使用整个信息历史;同时,即使缺乏动作标签,该模型仍然仅通过大型视频数据培训就显示出显着的优势。另一方面,我们引入了完全离散的自回归训练范式,该训练范式可显着提高训练效率,并为大数据下的模型可伸缩性提供了坚实的基础。将来,我们将进一步探索该框架的深入整合,并研究多模式增强,并促进开放世界中理解,理解和决策技能的持续发展。