智元推出ACoT-智元创新（上海）科技股份有限公司

智元推出ACoT-VLA入选 CVPR 2026，并开源作为AGIBOT WORLD CHALLENGE基线 发布时间：2026-03-09 11:26:31

具身智能领域迎来重要进展！智元机器人（AGIBOT）联合北京航空航天大学提出的 ACoT-VLA（Action Chain-of-Thought）架构正式入选计算机视觉顶会 CVPR 2026。该研究打破了传统VLA模型“语义强、动作弱”的瓶颈，首次提出在“动作空间”进行推理的思维链范式。目前，ACoT-VLA 已作为 AGIBOT WORLD CHALLENGE的官方基线模型正式开源，助力全球开发者攻克复杂机器人操控难题。

论文链接：
https://arxiv.org/abs/2601.11404
代码仓库：
https://github.com/AgibotTech/ACoT-VLA

01/

挑战：

语义信息与动作表征之间的鸿沟

图1: 不同空间下的思维链对比。

(a) 语言思维链将预测“子任务”作为中间推理步骤；

(b) 视觉思维链通过合成目标图像来引导动作策略生成；

目前的视觉-语言-动作（VLA）模型虽然表现出良好的泛化能力，但通常将多模态输入直接映射为底层动作，其痛点在于：现有的或显式、或隐式的推理过程多局限于语言（如预测子任务）或视觉空间（如生成目标图像），缺乏对物理动力学的直觉。这导致高级语义与精确的运动控制之间，横亘着巨大的语义-运动鸿沟（Semantic-Kinematic Gap）。形象地说，机器人能“理解”任务，但极易在精细操作或面临干扰时，因缺乏直接的动作指引而失败。

面对物理世界的交互，推理过程应该是怎样的？想象一下人类抓取桌上的苹果，第一反应绝不是瞬间计算出手臂每时刻的精确坐标（细粒度控制），而是先在脑海中规划出一个大致的运动趋势——“抬手，伸向右前方，准备张开”（粗粒度意图）。

正如大语言模型依赖中间文本推演的“文本思维链”，世界模型依赖中间图像规划的“视觉思维链”，在机器人的动作空间里，这种“先推演出粗粒度的运动趋势，再指导精细执行”的过程，正是动作思维链（Action Chain-of-Thought, ACoT）。

02/

创新：

让机器人学会“在动作空间思考”

具体而言，ACoT-VLA 核心架构包含两个互补的推理模块：

显式动作推理 (EAR) 生成“参考草图”
EAR 作为一个轻量化的 Transformer 模块，根据多模态输入，提前生成粗粒度（长视距且序列稀疏）参考轨迹。它为机器人提供了一个物理上可行的“动作意图”，极大地减少了从观察到执行的映射歧义，为下游策略提供直接的参考轨迹。
隐式动作推理 (IAR) 挖掘“潜在直觉”
IAR 通过下采样和交叉注意力机制，从 VLM 的内部特征（KV Cache）中提取潜藏的动作先验，捕捉如指令“伸出左手”所蕴含的潜在动作分布等隐式语义信息。
动作引导预测 (AGP) 实现“精准落地”
最终的动作输出模块，不再孤立地从噪声开始预测，而是通过双重交叉注意力机制，同时融合 EAR 的显式轨迹和 IAR 的隐式信息，赋予了模型极强的动作空间先验，以增强策略生成能力。