智元推出ACoT-VLA入选 CVPR 2026,并开源作为AGIBOT WORLD CHALLENGE基线 发布时间:2026-03-09 11:26:31

具身智能领域迎来重要进展!智元机器人(AGIBOT)联合北京航空航天大学提出的 ACoT-VLA(Action Chain-of-Thought)架构正式入选计算机视觉顶会 CVPR 2026该研究打破了传统VLA模型“语义强、动作弱”的瓶颈,首次提出在“动作空间”进行推理的思维链范式。目前,ACoT-VLA 已作为 AGIBOT WORLD CHALLENGE的官方基线模型正式开源,助力全球开发者攻克复杂机器人操控难题。


1.png


  • 论文链接:

    https://arxiv.org/abs/2601.11404

  • 代码仓库:

    https://github.com/AgibotTech/ACoT-VLA



01/

挑战:

语义信息与动作表征之间的鸿沟

2.png

图1: 不同空间下的思维链对比。

(a) 语言思维链将预测“子任务”作为中间推理步骤 ;

(b) 视觉思维链通过合成目标图像来引导动作策略生成 ;

(c) 我们提出的动作思维链直接在动作空间进行推理,提供同质化的动作引导 。


目前的视觉-语言-动作(VLA)模型虽然表现出良好的泛化能力,但通常将多模态输入直接映射为底层动作,其痛点在于:现有的或显式、或隐式的推理过程多局限于语言(如预测子任务)或视觉空间(如生成目标图像),缺乏对物理动力学的直觉。这导致高级语义与精确的运动控制之间,横亘着巨大的语义-运动鸿沟(Semantic-Kinematic Gap)。形象地说,机器人能“理解”任务,但极易在精细操作或面临干扰时,因缺乏直接的动作指引而失败。


面对物理世界的交互,推理过程应该是怎样的?想象一下人类抓取桌上的苹果,第一反应绝不是瞬间计算出手臂每时刻的精确坐标(细粒度控制),而是先在脑海中规划出一个大致的运动趋势——“抬手,伸向右前方,准备张开”(粗粒度意图)。


正如大语言模型依赖中间文本推演的“文本思维链”,世界模型依赖中间图像规划的“视觉思维链”,在机器人的动作空间里,这种“先推演出粗粒度的运动趋势,再指导精细执行”的过程,正是动作思维链(Action Chain-of-Thought, ACoT)。



02/

创新:

让机器人学会“在动作空间思考”


3.png


具体而言,ACoT-VLA 核心架构包含两个互补的推理模块:


  1. 显式动作推理 (EAR) 生成“参考草图”

    EAR 作为一个轻量化的 Transformer 模块,根据多模态输入,提前生成粗粒度(长视距且序列稀疏)参考轨迹。它为机器人提供了一个物理上可行的“动作意图”,极大地减少了从观察到执行的映射歧义,为下游策略提供直接的参考轨迹 。


  2. 隐式动作推理 (IAR) 挖掘“潜在直觉”

    IAR 通过下采样和交叉注意力机制,从 VLM 的内部特征(KV Cache)中提取潜藏的动作先验,捕捉如指令“伸出左手”所蕴含的潜在动作分布等隐式语义信息。


  3. 动作引导预测 (AGP) 实现“精准落地”

    最终的动作输出模块,不再孤立地从噪声开始预测,而是通过双重交叉注意力机制,同时融合 EAR 的显式轨迹和 IAR 的隐式信息,赋予了模型极强的动作空间先验,以增强策略生成能力。



03/

性能:全线 SOTA,无惧扰动


ACoT-VLA在多个主流具身智能benchmark上取得全面SOTA,在任务成功率、环境鲁棒性以及跨场景泛化能力上均显著领先现有VLA方法(比如

π0π0.5GR00T)。


LIBERO BenchmarkACoT-VLA在Spatial、Object、Goal与Long 四类任务上均排名第一,平均成功率达到 98.5%。


LIBERO-Plus Benchmark:在包含相机、光照、背景和噪声等多种环境扰动的设置下,ACoT-VLA 取得 84.1% 平均成功率,显著超过现有方法。特别是在 Robot 初始位姿扰动场景中达到 62.5%,领先第二名20.8%。


VLABench Benchmark:在跨类别与纹理泛化测试中,ACoT-VLA 平均达到 63.5 IS / 47.4 PS,特别是纹理泛化任务上取得了 74.6 IS / 54.6 PS,显著优于其他方法。


Genie Sim 3.0 Benchmark (Sim-to-Real):在面向真实世界迁移的  Genie Sim 3.0 评测中,ACoT-VLA 展示了良好的零样本跨域迁移能力,在仅使用仿真数据训练的前提下,在真实环境测试中取得了 82.9% 的平均成功率,显著优于π0.577.5%)。


acot_05.png
acot_06.png
acot_07.png
截屏2026-03-05 19.29.49.png

左右滑动查看更多



04/

开源:

助力AGIBOT WORLD CHALLENGE


智元机器人一直致力于建设开放的具身智能生态。为了降低广大开发者进入具身智能研究的门槛,我们宣布:ACoT-VLA已正式作为 AGIBOT WORLD CHALLENGE推理-操作赛道的官方基线模型(Baseline)开源!


关于 AGIBOT WORLD CHALLENGE:

这是由智元机器人发起的全球性具身智能挑战赛,旨在征集全球顶尖算法方案,共同攻克真实场景下的机器人通用操控难题,参赛者可以基于 ACoT-VLA 的开源代码,利用我们提供的 AgiBot World Colosseo 大规模仿真平台Genie Sim 3.0进行二次开发与算法创新。


image (3).png


我们欢迎全球开发者:

  • 积极改进:基于 ACoT-VLA 这一更具物理直觉的架构进行创新。

  • 突破极限:在复杂的现实扰动环境下,挑战更高难度的通用操控。

  • 共同定义未来:我们期待看到更多开发者利用灵感,突破具身智能的边界。


>>>  END  <<<