将链链(COT)引入体现世界,哪种路径将真正打
作者:bet356体育官方网站 发布时间:2025-06-29 10:04
【视频演示1:机器人根据手绘图形拼出对应单词】当大型模型处理复杂的问题时,它更有可能产生一系列推理。通过多个推理链接和得出结论步骤步骤,该链正陷入一个复杂的问题。支持这种推理能力的是一种重复验证的技术路径:思想链(COT)。这项技术并不新鲜,它本质上是及时项目的升级版本 - 通过指导模型“缓慢思考”并迫使其打开明确的推理过程。早期的婴儿床仍处于语言水平,尤其是“思考可视化”。在体现智力领域,其角色变化 - 不再“清楚地思考”,而是“清楚”。换句话说,COT正在从逻辑语言链中出现到提供机器人背面的主要机制。越来越多的公司试图将COT应用于设计良好的建筑设计。主要方法是使用层次结构来“驱动”身体动作h语言的实践前视觉语言(VLM)作为理解和推理的中心。一些更切割的团队,例如自变量机器人,试图通过“多模式的多模式”一代体系结构再次启动此过程:不仅让机器人“看到”和“思考”,还让他们以整体方式思考,计划,计划和行动。就像人们学习骑自行车的人一样:没有人知道在步骤中仅仅骑语言描述。初学者通常需要移动整个身体的肌肉,以一遍又一遍地犯错。真正的实践是身体在实践中产生的一组完整的相互关联运动,它将复杂的身体自由转换为腰部和腿之间的协调力。这项从理解到行动的整体研究无疑是通过分裂模态剪接实现的。此探索背后的主要提议是:可以打开机器人的“认知”和“行为”?连接思想和动作的COT“体现的COT的含义超出了简单的语言计划,这是主要的基本相关抽象思维和具体动作。”独立变量机器人的首席技术官Wang Hao告诉AI技术评论。 COT最初是一种语言模型使用的提示技术,可以在面对复杂问题的情况下用步骤进行推理,当被引入体现智力的王国时,它被采取的远远超过 - 它成为大型模型的主要桥梁,从认识世界,理解活动,理解活动并采取行动。简而言之,语言模型(COT)的传统思维是封闭的象征世界中的逻辑减少,因为机器人的行动已经在开放,动态的新闻和不确定的物理世界中进行。两者之间有一个自然的大空间。特别是:首先,体现的婴儿床是推理的一种融合,心灵的每个步骤都应结合理解的视野,空间和物理,确保逻辑从一开始就取决于物理世界;其次,这种类型的词根现实可以执行“动态前提(需要添加中文解释)”,以将模糊指示分解到继续实时与环境相互作用的子任务链中。最终,这不可避免地会导致原因所驱动的行动,即机器人的每一个动作都是由思维链中的特定心理措施直接产生的,并且每一个推理的步骤都受环境行动的实施影响。定义:“动态接地”是指机器人与抽象符号,语言或概念相关的过程,以动态变化现实世界检测到的信息(例如视觉,按下等),使机器人可以理解概念并在环境变化中组织概念和组织行为。这是实现智能接触的主要能力。目前,包括NVIDIA,Google,自变量等公司已经探索了将COT引入了体现活动,以提高物理世界中多模式模型(MLLM)的决策能力。就技术途径而言,它几乎分为两个方向:层次结构和端到端模型。以Nvidia为例。在2025年GTC会议之后,它启动了Cosmos-Reason1,该Cosmos-Reason1采用了分层架构 + COT程序。该系统基于模块化理解,推理和控制过程生成层次的物理本体论,可以通过出色的监视和验证产生明确和描述性的动作 - 遵循行动。 AI技术评论行业的专家说,这条道路“更专注于工程,更方便进行调试”。特别是对于可以清楚地完成的任务,例如折叠衣服,分层结构非常有用。但是他还指出,这条路有一个自然的上限:“当工作场景成为ES复杂,模块之间的信息的提供容易出现问题,尤其是面对环境变化,经常会捕获回应。循环,但是,当您处理复杂的推理并解决它们的困难时,显然会增加这些行业的深度。解决两个主要问题的方案:一个是找出您在做什么。例如,要倒一杯水,您必须了解“水是液态的,将倒杯,而不是机械刺痛的圆柱体成一个确定的角度。其次,您知道如何做。尝试两个神经网络正在以视觉,语言,触摸和动作等不同模式处理信息。痛苦和在同一空间中可以自由参加的动作。主要的成功是他们引入了“多模式生成”给药机制。 Wang Hao说,他们要求该模型在训练过程中学习在不公正的模式之间进行转换,例如开发语言图像并通过图像预测下一个动作。 “这种机制将采用该模型来找出模式之间的深层连接。”以前,其他公司以单态生成尝试。 Google的DeepMind RT系列实现了直接语言图;斯坦福大学团队还试图将COT与物理环境中的模拟整合在一起,以实现更自然的机器人操作计划。 Wang Hao解释说,为了使机器人从“理解”转变为“知道如何做”,一个统一的,多模式的思维链可以推动系统以显示“整体认知”:当面对未知的活动时,视觉理解,语义理解,物理预测和AC可以在表示空间中同时完成计划,并且不依赖串行模块处理。与通过模块拆卸的层次结构的工作不同,独立变量机器人的一个体系结构更多地集中于模型中思维过程的自然出现。他们启动的专用智能模型基于提名的神经网络体系结构,并在执行复杂任务时引入了COT机制。它不再依赖于manu split拆分理解,推理和控制过程,而是允许找到模型-isaisa从操作的身份中完成一个完整的闭环。这种设计带来的挑战很明显:系统不仅可以“做”,而且可以“清楚地思考,然后做”,甚至可以“思考”。这意味着该模型需要具有复杂的推理能力,连续的操作能力和多模式表达能力,以便能够EF将视觉,语言和动作以及实时思考的当前链条保持一致。在多个任务工作实验中,自变量机器人的体现模型显示了三个基本功能:第一个是符号延长的推理能力。符号的推理能力意味着机器人不仅了解符号的含义,例如抽象信息,例如文本和图形,而且还与物理空间中的对象,位置和操作建立了相应的关系,并在此基础上做出了合理的推理和操作决策。例如,当机器人看到“五角星星”模式时,有必要识别图形所代表的含义,并将其与相应的拼写字母相关联,例如“ s”,“ t”,“ a”,“ a”,“ r”。接下来,该系统将需要了解用二维平面修复这些字母的顺序,而不是语义英语单词。但这还不够。机器人需要骗将这些象征性信息传播到类似动作的指令中,例如使用构建块在三维空间中重新创建“构建”一词的拼写。它需要具有:识别图形/阴极(视觉理解)的能力以及理解语义和推理(语言和原因)的整个过程的组合,计划目标在太空中的相对儿童位置(空间操作)反映了由推理和空间操作引起的视觉理解的深层整合。 [视频演示1:机器人基于图形的图形拼写相应的单词]物理推理能力意味着,当机器人在真实环境中面对事物或任务时,它将了解空间关系和物理特性,例如重力,支撑,平衡等,并减少基于它的合理遵循的操作和结果。这种能力是真正“理解”气氛并使其成为机器人的关键ClasseDestroy决策。 [视频2演示:查看构建块的操作并构建相应的空间形状]在视频中,机器人将了解如何从块块图片中迈出每个步骤,挑选相应的构件以踩踏并正确放置。一系列动作的背后是对整个结构的机器人的空间理解和推理的原因。例如,在构建块中扮演辅助角色,这是第一个维持一般稳定性的作用,甚至猜测建筑物的建筑物结构是否将其内置成另一个合规性,是否会下降。更重要的是,机器人可以清楚地表达其用文字思考的过程,并解释为何将其放置在这种情况下以及需要注意的地方以关注重力和结构的平衡。可以根据深厚的身体理解来说NA,机器人独立完成了复杂的三二维亚官的构建NAL结构,反映了物理直觉和推理能力的有机组合。第三个将有能力独立探索推理链。独立探索推理链的能力是指一个事实,即当机器人面对未知或不确定的工作时,它不再依赖于预设政策或外部指令,而是可以独立观察环境,动员人们(例如人),并开发相关的合理过程来保证自己的官能过程。这是从“被动执行”转向“主动决策”的主要能力。 [视频演示3:以推理过程找到项目]在演示中,机器人获得指令时:“找到蓝色的杂种玩具并将其带到桌子的中心”。没有任何记忆参考的机器人开始根据说明进行探索:首先检查桌面上的物品,单独移动杯子和衣服,然后尝试找到TH娃娃然后单独打开抽屉,以找到可能的分泌区域。在整个过程中,机器人都会显示出非机械的实现,但是以目标为中心的能力,这意味着机器人将了解任务的目标,而不再是合理的行动途径,“考虑一种单独完成任务的方法”。在上三个过程中,机器人将需要在操作过程中进行外部实时识别过程,这需要模型才能实现单个体系结构的晶状体手术,视觉和语言推理的准确M-同步。 “这一概念的过程是端到端研究的自然出现。”因此,婴儿床不再是工程实践,而是一种真正驱动机器人思考和行动的基本机制。在此过程中,模型体系结构演变的每个步骤,任务反馈和培训范式的机制都教会机器人以新的方式理解世界并完全接触。此外,端到端的UnifiED体现的思维链使机器人可以从视频和合作伙伴关系中学习。在观看人物运行的视频时,机器人不仅模仿了动作的表面,而且还试图“了解人们做的事情” - 它警告了真正的Hangarin,并针对视频中人类行为背后的国家。这意味着不仅学会了如何做,而且还理解“为什么这样做”。 [视频演示4:从视频中推断动作信息并独立进行动作信息的意图]这种能力不仅仅是复制动作,而是一种复杂的能力,可以结合对视频的理解,认识到人类的意图和目的推理。这允许机器人具有初始的独立研究能力。结论在体现智能的发展之路中,COT逐渐成为与理解,推理和行动相关的基本技术。无论是分层体系结构还是端到端模型,各方都在寻找更好的方法来让RObots确实理解并适应了物理世界。独立变量机器人选择具有更高天花板的路径:促进统一端到端体系结构中多模式思维链的自然出现。他们认为,通过简单地放弃剪接的多式联运融合方法,我们可以打破视觉,语言和动作之间的障碍,让机器人看起来像一个人,思考理解以及可以立即看到思想的结果,并且可以立即看到思想的结果,而不会划分,从而形成更富裕的“认为它是一个实体的人,可以从真正的角度开始,从而开始了真正的群体。在Artikulo中可以查看:https://mp.weixin.qq.com/s/i6zmzblmxezwh7f2h6b-iw
电话
020-66888888