吴齐,阿德莱德大学:VLN仍然是未完成的VLA之战
作者:bat365在线平台官网 发布时间:2025-05-01 16:50
5月-Set |编辑莱·旺Xin | Chen Caixian于2018年6月,澳大利亚机器人视觉研究中心(ACRV)的博士后研究员Wu Qi和医生的学生彼得·安德森(Peter Anderson)与VL(视觉语言)以及当时第一次在机器人领域中导航的主要方向链接,并首次发表了VLN(Visualigage-Navigation)的第一次VLN(Visual-Navigation),然后,作为作家Abhishek Das将“体现”一词带到了科学研究领域。一个月后,冬季在墨尔本举行了一年一度的NLP Field ACL。在温暖的地方,吴齐,彼得·安德森(Peter Anderson)和阿比舍克·达斯(Abhishek Das)将拥有一个名为“连接语言和动作愿景”的教程,该教程实际上打开了新的vla王国(视觉语言 - 动态)。在会议上,一群NLP学者非常好奇,从他们那里学到了“ VLA”。除了谈论CNN和RNN等基本方法外,这三个还分享了他们对机器人数据的看法d环境模拟器,包括在这些任务中应用强化研究的应用。 VLN探索还意识到Wu QI,除了研究和了解多模式信息外,机器还必须与真实环境协调以在一定程度上解决实际问题。因此,他们在原始的VL中添加了“动作”,并提出了“ V3A”的概念,尤其是“视觉”,询问,回答和GAW此外,他赢得了澳大利亚科学院的罗素奖和南澳大利亚州的其余年轻科学家的奖项。 2018年的田地。七年后,VLA改为体现情报领域中最热门的话题。 Nvidia的Groot N1,图AI的螺旋,物理智能的π0和Tsinghua的RDT等机器人VLA模型出生于国内外。开放一个新领域的吴齐选择继续扎根于VLN方向,并开始专注于自去年以来的一系列实时研究。他目前是澳大利亚大学阿德莱德大学是他自己的实验室“ V3A实验室”,还曾在澳大利亚机器学习研究中心(AIML)担任视觉和语言研究实验室主任。在谈到具体的智力和VLA时,吴齐说,VLA不应仅限于上半身的活动。 “许多人认为,导航问题得到了解决,并且该操纵更好地与行业结合在一起并实施,但实际上,VLN仍然有很大的破坏空间。”以下是与AI和Wu QI技术评论之间的对话。 VLA的“七年瘙痒” AI技术评论:2018年,您提出了“ V3A”的概念,并将动作添加到了原始VL中。是什么激发了您开始VLA研究的? Wu Qi:我首先在CVPR 2018遇到了Peter and Abhishek(与VQA集合出现)。我认为每个人的论文都很有趣,所以我决定在ACL立即将教程放在一起。那时,我以为VL HAd多次谈论过,而且再次持有本教程并不重要。我们应该添加一些新东西。我们进行的导航和Abhishek进行的问答是相同的行动。因此,最好与视觉,语言和动作相结合提供演讲,这被认为是早期的VLA概念。我们在VLN的第一份工作打开了这个新领域,Nggorgeous主要建议R2R数据集和活动,这是激烈的。明年,最好的CVPR研究论文,尤其是Wang Xin,使用模仿和加强研究来解决VLN的工作,已经完全流行了这一领域。因为我喜欢VLA的概念,所以我建议“ V3A”,尤其是“愿景,询问,回答和行动”。首先,我们希望机器人或虚拟代理会根据视觉输入来回答,这意味着它将理解。然后,当时对VQG(视觉问题)的研究认为,提出比回答要困难,这意味着它具有更强的推理能力。之后我们希望该模型具有自然的语言交流能力,可以执行诸如导航之类的动作,并建议“远程旋转的视觉定义表达式”,这使机器人可以完成诸如“为我找到汤匙”之类的导航活动。 AI技术的评论:您认为,2018年左右的VLA波与现在的VLA之间有什么区别? VLA最重要的阶段是什么? VLA,操纵尚未出名。与现在相比,由于它使用的数据中的版权问题,每个人都不可能继续使用它。 VLN在VLA中起重要作用。我们的工作结合了VL和行动。此外,Wang Xin在CVPR 2019中的工作,VLN和VLA受到了极大的关注。将来,上海Jiotong University的Lu Cewu先生结合了操纵,包括情报,并建议了许多新的数据和活动集。接下来是非常关键的节点,即GPT系列的出现。尽管以前有一个很大的VL模型,但它在解决许多VQA问题方面进行了平均表现。当时,通常认为在解决VL问题之前,不太可能将动作结合起来。 GPT的出现(尤其是在引入多模式之后)解决了VL无法解决和无法正确解决的许多活动,并且Eventhat的零样本性能比当时最大的VL预先经验的模型更重要。因此,通常认为VL的某些主要任务已经解决,因此它开始引入更高级别的测量值,即使用视觉语言来预测和输出动作,而不仅仅是像VQA这样难以实施的事情。人工智能技术评论:自动驾驶行业在情报繁荣情报之前闻名。您认为,VLA的独特要求是什么?如果我们仅从导航的角度看它,那就是关于Huma的研究NOID机器人(Bifoots)具有重要意义? WU QI:从某种意义上说,自动驾驶也是VLA,V是外部场景,L是用户需求,并且是汽车进行的操作。当然,在这里的调子可以分为汽车本身的动作,例如建筑,加速,衰减等,并且还可以运行汽车计算机系统,例如在特定区域进行音乐和导航。除了无人机外,大多数机器人可能都在内部场景中。 V主要针对内部场景和物体,而A是一种具有更高准确性或导航精度的操纵,具有更高的运动精度。去年,我们实际上部署和操作了VLN,这是一种纯粹的视觉语言导航,在物理机器人中,包括四足的狗机器人,清扫机器人和轮式机器人。我认为双脚扩展的问题不是很大,因为我们的大脑和小脑的发展仍然是分开的。如果控制两个没有问题脚,我们的VLN也一样。这是为了输出机器人想要根据VL当前信息执行的线性和角度速度。据我所知,底盘和脚部风格都可以接受。用每个信息完成较低的动作级别。压纹智能导航团队的成员与机器人AI技术评论合影:经历了VLA流程从坐在板凳上到今天很受欢迎之后,您如何看到每个人对VLA今天的热情?吴齐:VLA的受欢迎程度是工业发展和学术发展的真正结果。从工业的角度来看,任何实施方案都需要处理多模式输入,并依靠高水平的模型理解来帮助完成复杂的计划和决策-Uamatika。与人脑一起工作的机制是一个常见的例子 - 通过合并多模式的感知信息,例如视觉,听力,压迫等,并在Proc之后开发特定的行动指令散发出中枢神经系统,必须晴朗的决策过程。就学术研究趋势而言,自然语言处理(NLP)和视觉领域(CV)的主要任务进行了重大发展,研究人员正在积极探索新的边界方向。值得一提的是,VLA领域的研究人员需要准确寻找应用程序情况并找出L(语言)的基本价值,以提供更简单的机器人与人类计算机联系的方法。 Inte.Inte。这种裂纹模式非常灵活和自然,用户可以支持以随机的方式发布指令,从而带来一系列新的技术挑战。与固定的传统预设活动模式不同,VLA通常面临着明显临时的任务,需要对未指定的动态需求的实时响应。 VLN到VLAAI技术评论:那么您如何看待导航的困难和重要性?如何了解VLN和VLA之间的关系? WU QI:视觉导航作为任务本身可能很简单,但是视觉语言导航(VLN)仍然有些困难。例如,食物落在桌子上后,让现有的机器人清洁。您应该选择整个房子清洁它,或将机器人移动到附近,然后将其扫到圆形,Oryou可以在应用程序中绘制餐桌区域以圈出餐桌。但是,VLN可以做的是给它一个指示,以清洁餐桌附近的食物。它可以使用此信息来查找,首先导航到厨房桌子的位置,使用视觉信息查找残留位置,然后只需清洁该区域即可。此外,与以前的导航和方法相比,VLN在处理临时事件方面更好。我们通常还使用清扫机器人实施这些功能。如果您对这项技术感兴趣,也可以与我们联系以进行讨论。当然,VLA有很多行动,VLN只是其中的一个子集,它需要方案的特定场景。有时可能不需要VLN。例如,如果机器人在诸如工厂或超市之类的呼声场景中,就足以完成诸如专注于上半身的分类或清洁货架之类的任务,它们可以移至非常固定的轨迹。但是,如果将来达到了使用房屋的实际情况,机器人仍然需要继续移动,并且导航的问题更难解决。我还讨论了北京大学的王老师,在内部场景中面临许多挑战。除了不准确的建模之外,人们也有移动或联系的影响。 AI技术评论:在移动或人类接触等动态情况下,VLN面临的最大挑战或困难是什么?当前的探索方向是什么? WU QI:实际上,动态情况的最大影响是先前基于SLAM的SL的导航AM不再适用。任务可能未完成使用地图信息的导航路线。目前,需要类似于VLN的技术来提供帮助,即使用当前的视觉信息和初始语言说明来制定短程导航计划,甚至只猜测下一个下一步。到达下一步,然后与信息结合在一起,以做出新的预测。我们最近还提出了一个名为“阻塞VLN”的新数据。这是我们考虑的问题,也就是说,当我们走路时,我们发现路径被阻塞,需要临时调整。您可以注意。 AI技术评论:Lin教师团队发表的先前的评论也在VLN中列为具有体现情报的主要Gawain。 VLN已经发展了七年。除了领导活动之外,您认为哪一个是关键?吴齐:我们统治VLN领域的许多关键节点的工作是一种荣幸。提出三个D之后ATA集,使用CNN,RNN和注意机制等程序进行研究。变压器体系结构诞生后,它是第一个基于此架构的“ VLN-BERT”的建议,该建筑可以根据变压器处理VLN活动。 CVPR在2022年发布的“离散 - 连续VLN”探讨了在离散环境和连续环境中VLN之间的第一次研究差距。去年推出的Navgpt是VLN LLM的首次介绍。今年,ICRA的开放式NAV首次意识到了对真正机器人的VLN申请。 IB The其他群体还完成了许多基本任务,例如Hao Tan在NaAcl建议的早期环境中,Chen Shizhe还提出了一些关键模型,例如二重奏,这些模型现在通常用作基线。我们的Scalvln(当前SOTA)也在基于二重奏的基础上工作。应该提到的是,Shizhe还访问了我们的V3ARAT一段时间,并且非常抵抗。 AI技术的评论:在F中体现的智力都对活动活动充满热情,但您更关心体现的导航。吴齐:也许最好在地面上。如今,在着陆场景或商业抽搐方案中有许多行业方案。在大多数情况下,机器人可以在某种固定的路径上移动,并且在某种程度上固定的情况下移动。目前,家庭场景很难实施,因此许多人无法使内部视觉导航难以获得困难。许多人认为已经解决了导航,并且内部导航只需要建造一张图片。它可以使机器人点在任何地方,都不难操作。但是实际上,如果将其放置在具体的智能领域,那肯定会花费一定时间。毕竟,机器人只有在达到相应位置时才能完成后续运动。如果您认为具体动作是与上半身有关的抓地力或操纵,那么您就可以eally不会真正考虑什么是宝石。在体现智能的众多定义中,我最喜欢的是关于CVPR 2024中具体智能的讨论,也就是说,AI代理需要具有五个基本功能:可见,聆听,婚姻,婚姻,表演和推理,然后他们可以将模拟的机器人解决方案转换为真实的机器人和真实的机器人和真实的世界。换句话说,最终只意识到,在真实机器人中,视觉信息,语言能力和特定活动(如果上半身运动)可能被称为真正体现的智能研究。 AI技术评论:那么它与自动驾驶之间有什么区别? WU QI:自动驾驶的导航是外部导航,许多可用信息(例如GPS)提供准确的定位,集成了高临界图,视觉感知(例如线路识别,路标发现)和雷达系统(以实现障碍物发现和回避)。我们所做的VLN确实是Internal导航和面对Mamany限制。由于缺乏GPS信号和广泛的环境信息(例如地标,纹理),因此不可能直接复制外部解决方案。早期技术主要取决于视觉猛击(同时定位和地图构造),以实现环境映射,并使用摄像头实时收集数据以生成本地地图以确定自己的位置。但是,该解决方案高度依赖于环境,并且通常需要进行手机进行操作(例如标记特征点和场景纹理的涂层),以提高绘画构造的准确性,从而使其难以实现整个自动化。最大的困难在于收集数据,尤其是在3D环境中大量内部数据。前提Mulator。诸如清扫机器人之类的真实数据存在隐私问题。因此,我们还完成了与室内设计相关的工作,该设计基于视觉和语言装饰风格的产生,并与装饰家庭装饰设计公司合作。他们提供的3D场景数据特别有用。 AI技术评论:尽管这些室内不受天气影响,但在诸如低光和烟雾之类的极端情况下,视觉输入也会失败。是否有必要为VLN引入多模式备份解决方案(例如超声雷达,红外传感)?如何实现实时多模式信号和语言说明?吴齐:至少在kat中,随着模拟器变得越来越好,我们可以模仿这些复杂的情况,我们还可以考虑引入其他传感器来帮助导航。我认为我们可以在这方面参考一些非管理驾驶的解决方案,以实现多模式对齐D处理。令人讨厌的数据也是闯入AI技术评论的最容易的数据:在VLN和VLA字段中,当前的前三名研究问题是什么?吴齐:我认为目前我们面临的主要挑战是数据问题。目前,缺乏质量,大型数据集来支持VLN或VLA培训,这与GPT依赖于大规模语料库形成了鲜明对比。具体而言,数据问题可以分为三个部分 - 一个是模拟器的需要。在这种情况下,结合机器人技术,模拟器是培训和试验的主要载体,其性能直接影响数据生成的质量。这里有很多事情要考虑,例如物质摩擦,摩擦系数,环境重力,甚至热接触。目前的模拟器尚未充分证明我们的常见物理定律。成为真正的世界模型(单词模型),数字双胞胎可能不是双胞胎表面,但也占据EIR自己的物理特性。第二个是缺乏3D环境的高质量结构。单独的模拟器还不够。还必须开发不同的真实场景(例如房屋,工厂,Pam Centersimili等)。这种3D环境不仅困难,而且产生了很高的成本。第三,专用应用程序数据的唯一性与传统的AI数据(例如简单的NLP文本和CV图像标签)不同。 VLA/VLN需要特定的任务数据(例如数据癫痫发作,操作,导航等),并且其数据格式需要与三种元素结合使用:模拟器,环境和应用程序情况,并且不需要。因此,开发大型复合数据集是VLA/VLN的主要发展方向。第二个挑战是将SIM到实现的过渡分开。在模拟器中训练了模型后,需要将其部署到真实的机器人和环境中,但是有很多差距在两者之间 - 包括环境差异(例如照明,物体的物理特性)和机器人差异(例如执行器精度)。这些差距如何桥接是实施技术的主要困难。 AI技术评论:在这些瓶颈中,哪一个最有可能首先破裂?吴齐:尽管数据是最大的问题,但实际上它是最容易中断的,尤其是围绕如何构建更好的数据集,模拟器和环境,并使用它们来训练更好的VLA模型。例如,我最近在思考环境的一代工作。我以前与Cool Home的伙伴关系是通过描述输入语言来产生三维房间环境,包括房间布局,家具,墙壁颜色,地板材料等。输入可能具有不同的方式,例如描述环境的语言,照片,视频,视频和现有环境的结构信息。我希望该模型可以快速产生根据用户的需求满足要求的准确环境,然后在陶扬osi Isaac Sim和其他模拟器中导入此环境,可以训练所有内容。 AI技术评论:当今最关键的数据问题的技术途径是什么? WU QI:数据构建的三个主要技术途径。首先是真实人控制的集合,该控制人员可以手动控制机器人完成诸如步行,癫痫发作,家具组件等以及动作轨迹触点数据和环境的同步,该任务直接用于模型训练。此过程取决于场景的Thosetrue操作,数据适用于实际应用,但收集成本高。第二个是SIM2REAL模拟生成,它使用高保真物理的模拟器(例如Nvidia Isaac Sim,上海AI实验室TAOYUAN系统)来生成虚拟环境,并自动生成数据的数据通过算法执行各种活动的机器人。这条路的优点是,它以低的质量人工成本进行数据 - 没有真正的硬件干预,可以在模拟环境中完成大规模培训,并且训练有素的模型直接被部署到真正的机器人。第三个是由视频数据驱动的,重点是互联网上的大量公开视频(例如导航,烹饪和其他情况),并通过审查MA Logic Logicheight的视频决策级别(例如任务计划,行动顺序)来审查模型培训。这条路径避免了传统数据收集的光芒,只着眼于“做什么”计划的高水平,而无需处理“如何执行”机器人的基本细节。 AI技术的评论:您提前启动了与VLA相关的模拟。您认为,近年来模拟的最大发展是什么?现在最紧急的障碍是什么?吴齐:实际上,当我们设计和公开时由VLN工作棚,我们基于MP3D数据创建了一个MP3D模拟器。该模拟器仅用于传递MP3D提供的环境数据和VLN的工作,这非常简单。我认为,在体现情报的发展中,人们更加关注模拟器,包括元中的栖息地1.0和2.0在第一阶段发布,然后是Nvidia最近的Issac-Sim。我认为模拟器仍然需要由大型制造商完成,因为这是一个工程问题。至于模拟器,我认为有三个重要内容。一个是场景的模拟,这意味着场景看起来真实。它涉及渲染,光主张,建模和纹理。第二个是物理模拟,它将模仿我们的物理现实,例如重力,摩擦,碰撞和其他物理奇观。我认为第三个模拟器应该是好的,而不是由于操作速度而延迟模型的训练。特别是在添加RL之后,在训练过程中与模拟器联系是必要的,因此操作模拟器的效率非常重要。 AI技术评论:因此,Anong程序可以解决两个主要的SIM2REAL差距问题和工程部署? WU QI:如果我们通常选择相信规模定律,我认为解决SIM2REAL问题肯定会解决数据问题。想象一下,如果我们有一个庞大的环境数据集,其中包含各种情况,这些情况非常现实,并且可以向模拟器进口,以便我们训练足够大的模型,因此我认为可以解决这个空间。我们目前正在Cool Home(Group Core)工作,以生成大量的环境数据,因为它们以前积累了大量的3D资产。在谈到部署时,我认为作为一家机器人公司(例如Yushu),它可以发挥更好的作用,并提供相应且相对易于使用的扩展工具。硬件公司应该期待,提供好工具,一个ND建立一个出色的生态系统来出售硬件。有关VLA和VLN的更多故事,欢迎与Anna042023与Leifeng.com交谈。 雷峰网(公众号:雷峰网)
电话
020-66888888