智元发布一体化具身大小脑系统GenieReasoner 发布时间:2026-01-06 10:11:56

智元具身研究中心推出第二代一体化具身大小脑系统GenieReasoner。针对VLA模型中语义推理与动作控制的模态对齐难题,智元具身研究中心提出了一种支持统一离散化预训练的模型架构,并通过流匹配(Flow-matching)缓解了传统离散 Tokenizer 的动作精度瓶颈。同时具身研究中心开源了ERIQ-聚焦于真机操控全流程的具身推理评测基准,用以解耦量化评估VLA中具身大脑不同维度的推理能力。实验表明,GenieReasoner不仅在推理能力上达到 SOTA,更在跨本体真机实验中展现了SOTA级别的泛化性。进一步的对比实验证实:VLA模型更强的具身推理能力可显著提升其端到端动作执行表现,从而有力验证了ERIQ的评估价值。



项目主页:https://geniereasoner.github.io/GenieReasoner


2024年底,智元具身研究中心推出了AgiBot World,利用真实世界百万级轨迹数据,为机器人构建了认知的地基;2025年初,Genie Operator-1 (GO-1) 发布,作为通用具身基座大模型,实现了数据飞轮的初步闭环。


然而,在迈向极致泛化的征途中,智元具身研究中心发现了新的“关卡”: 当机器人面对复杂指令从未见过的物体时,性能仍有波动。这种不稳定性暴露出一个核心痛点:具身操作的推理能力(Embodied Reasoning)不足。


机器人不只是要“动起来”,更要“想明白”。智元具身研究中心推出一体化大小脑系统:GenieReasoner。其聚焦于如何在一个一体化模型中,兼顾高层语义推理和底层精细控制,并开源了全面的基于机器人视角的具身大脑benchmark,支持相对应解耦地评测推理性能。


💡本文旨在回答几个关键问题:

1.如何解决 VLA 模型中“脑”与“手”的梯度冲突?

2.离散架构如何在精度上实现超越?

3.具身推理能力与操作成功率之间是否存在关联?

4.如何全面量化评估具身智能中大脑推理的能力?




01/

GenieReasoner:

让推理与动作“共鸣”




GenieReasoner的设计初衷是建立一套“Action as Language”的统一表达范式,在赋予动作序列大模型级的语义泛化能力的同时,突破离散化表征在执行精度上的物理瓶颈。”改成“GenieReasoner的设计初衷是建立一套Action as Language的统一表达范式,并且在赋予动作序列大模型级的语义泛化能力的同时,突破离散化表征在执行精度上的物理瓶颈。


智元具身研究中心研究发现,现有 VLA 模型在复杂场景中的性能波动,本质上源于模型过度依赖“视觉-动作”的表面统计相关性,而缺乏深层的具身推理(Embodied Reasoning)。然而,提升推理能力与保持执行精度之间往往存在竞争关系:传统的“离散VLM主干 + 连续动作头”架构会因不同目标函数的数学冲突产生梯度干扰,导致模型在“逻辑泛化”与“执行精度”之间被迫取舍。为此,GenieReasoner架构从两个维度重建了VLA范式:通过统一离散表征消除梯度冲突,使用生成式解码技术突破重构精度上限。


1.统一离散空间的联合预训练:消除“知识隔离”




screenshot-20260106-100943.png


正如 π 团队所观察到的,离散+连续的架构容易让模型在“学会动”和“保持聪明”之间二选一,在训练中天然产生动作与推理的“知识隔离”。为了保护大脑不被动作数据“污染”,架构上往往不得不限制两者间的梯度流通,但这又切断了推理对动作的隐形帮助。因此,我们提出了GenieReasoner架构:


  • 动作即语言:GenieReasoner 摒弃了“嫁接”思维,将连续的物理轨迹映射为一套紧凑的“离散动作词表”。在模型看来,执行抓取动作与预测下一个文本 Token 具有同等的语义地位。


  • 共享梯度空间:通过将通用 VQA、具身推理数据与动作序列在同一离散空间进行联合训练,模型在单一梯度路径下实现了认知与控制的同步优化。




2. FACT:以流匹配(Flow-matching)突破精度瓶颈

背景知识

在 Vision-Language-Action (VLA) 模型中,动作的表征方式直接决定了机器人的“执行上限”。目前,学术界在离散化动作表征上主要面临以下瓶颈:


1. 精度与效率的根本性权衡

现有离散化方法难以同时满足高精度控制和高效推理的要求。简单的均匀分箱(uniform binning)需要极大的token数才能达到精细操作所需的分辨率,这不仅消耗宝贵的上下文空间,还显著增加了计算开销。


2.传统学习型量化的重构局限

传统 VQ-VAE 通常采用确定性回归解码,这种方式在重构过程中往往倾向于生成“平均化”的动作预测,可能面临高频动态细节丢失的风险


3. 自适应编码的稳定性问题

以FAST为代表的基于规则的自适应方案采用变长编码来平衡压缩率和精度,但其非确定性的序列结构在自回归解码过程中容易引发解码失败,影响系统的可靠性和鲁棒性。

既然传统离散化因“死板映射”而丧失精度,智元具身研究中心引入了新的tokenizer和生成式解码范式:


  • 生成式解码:FACT(Flow-matching Action Tokenizer)引入了一种全新的生成式编解码机制。它不只是简单的“映射”,而是在离散符号与物理连续性之间建立了一套深度解码系统。


  • 基于流(Rectified Flow)的轨迹重构:解码器采用流匹配技术,将离散Token作为条件,学习从标准高斯噪声到精准动作轨迹的概率路径。这种方法赋予了离散token极高的信息承载密度。


  • 精度的数量级跃迁:实验证明,在预测相同长度token数的情况下,FACT的重建均方误差(MSE)比目前的SOTA离散基线(如π0-FAST)降低了整整一个数量级。这确保了GenieReasoner 在保持 VLM 推理优势的同时,具备足以媲美纯连续方案的高保真操作能力。




02/

ERIQ Benchmark:衡量“具身大脑智商”

长期以来VLA 模型的评估局限于端到端成功率。这种黑盒指标无法区分Failure Case是源于上游的感知推理错误,还是下游的运动控制偏差。同时,由于推理能力和动作能力被强耦合,使得模型在预训练阶段的能力提升难以观测,更无法有效指导架构的迭代。为了解耦并精准评估具身大脑的"智商",智元具身研究中心构建并开源了基于机器人数据的具身大脑推理benchmark ——ERIQ



screenshot-20260106-101107.png


ERIQ包含6k+高质量样本,以单选题、是非题的形式呈现,且每个样本都经过人工审核校验。数据集场景覆盖家居、工业、商超等100+真实场景。其四大核心类别包括:

  • 空间感知与定位(理解“左边第二个”、“红色的”)

  • 任务规划与监测(长程任务的逻辑拆解)

  • 错误识别与恢复(意识到“手滑了”并重新尝试)

  • 人机协作(读懂人类的意图暗示)

进一步,四大核心能力被拆解成15个细分维度的子能力(或子能力的组合),例如:

  • Success Detection聚焦于“任务完成性检测”,评估模型“任务规划+事件顺序”的能力。

  • Task Grounding聚焦于“找到与任务相关目标”,评估模型“感知+任务规划+场景理解”的能力。

  • Mistake Classification聚焦于“识别发生的错误类型”,评估模型“因果关系+异常识别”的能力。

  • Human Intent Understanding聚焦于“机器人理解用户意图”,评估模型“学习与用户交互 +任务规划”


原始数据都来自于真机真实场景,超过100多种任务场景,其中家居35%,餐厅20%,商超20%,工业占15%,办公场景10%。在输入模态的设计上,ERIQ旨在全面评估模型的多模态理解与推理能力,数据构成涵盖了多种关键的输入模态:主体由约53%的静态单帧图像构成,用于测试模型的基础视觉感知能力;另有约27%的时序图像数据,以考察模型对时序动态变化的理解;剩余部分则由多帧图像与文本交错组成,评估模型对复杂场景的多步推理能力。


screenshot-20260106-101955.png
screenshot-20260106-102023.png
screenshot-20260106-102054.png




在后续实验中发现(见03.2章节): 在不同预训练的对比下,ERIQ得分更高的VLM,在VLA性能测试中展现出更强的指令跟随能力,得以论证具身VLM越强(脑子好),VLA越强(手越巧)。


03/

实验:

泛化性和指令跟随上的性能飞跃

为了验证GenieReasoner在大脑推理和小脑执行上实际表现,智元具身研究中心团队在ERIQ benchmark,仿真环境GenieSim以及多种真机本体(AgiBot G1、ARX、AgileX)上进行了全面的测试。实验不仅证明了智元具身研究中心方法架构的优越性,更揭示了大小脑联合优化的优势。


1.具身大脑推理能力评估




screenshot-20260106-102121.png


智元具身研究中心构建了海量的通识数据和具身相关的vqa数据,大大提升了VLM backbone的base模型(Qwen2.5-VL-3B)的具身推理和通识能力。在ERIQ Benchmark对模型大脑推理能力的解耦评测中显示,GenieReasoner在具备优秀的通识能力的同时,在具身榜单ERIQ 的 15 个子任务(包括空间感知、任务规划、纠错等)中刷新了性能SOTA纪录,平均推理准确率相比base模型大幅提升 25% ,并超过了顶级闭源模型。


2.从“大脑推理”到“小脑执行”的解耦与协同




图片




智元具身研究中心在GenieSim仿真环境下进行了严谨的消融实验,观察到了几个关键点:


  • 对比Exp0与Exp1可以发现,加入Embodied VQA预训练后,具身榜单推理分数从58.64提升至82.72,指令跟随随之提高,这证明了推理数据虽然不直接产出动作,却为模型建立了至关重要的空间与语义理解基础。


  • 对比Exp2与Exp3可以发现,在预训练阶段加入具身和通识推理数据,可以端到端的提升action的指令跟随和成功率。再对比Exp1与Exp3,可以发现动作对齐是将认知逻辑转化为操作轨迹的必要步骤,action和reasoning的预训练缺一不可。


  • 对比Exp3与Exp4(Post-training 阶段的策略)发现,若微调时也加入具身推理数据,模型的颜色指令跟随能力会从0.73提升至0.91,同时成功率也会进一步提升,证明了统一离散架构之后预训练和后训练均开启co-train的必要性。


3.真机的泛化性与指令跟随测试




screenshot-20260106-102223.png




智元具身研究中心在AgiBot G1上,针对五类场景(已知物体、未知物体、颜色变化、极端空间位姿、语义理解)进行了详细对比测试。


  • 对比离散基线模型 π0-FAST发现,虽然离散模型理解指令准确,但受限于量化精度,执行成功率较低,并且在测试时发现会经常出现解码失败的情况。GenieReasoner凭借流匹配解码器FACT架构,在保持同等指令跟随能力的同时,任务成功率大幅领先。


  • 对比连续基线模型(如π0.5)发现,连续模型在执行已知任务时动作流畅,但在面对复杂颜色或新物体指令时极易出错。GenieReasoner在维持高精度操作的同时,指令跟随准确率实现大幅超越,特别是在语义理解任务中表现更优。


  • 在最具挑战性的Unseen Object(指训练集中未出现的物体)任务中,GenieReasoner的成功率显著优于所有对比SOTA模型,证明了在现实不确定场景中具备了更强的泛化稳定性。





04/

结语


GenieReasoner的发布,是智元具身研究中心对具身大脑“智商”与小脑“身手”协同进化的一次初步探索。实验结果表明,在统一离散空间内进行联合训练,不仅大幅提升了模型的泛化性与指令跟随能力,更重要的是,它验证了一套天然兼容Scaling Law的具身模型架构。


然而,迈向极致通用的征途依然充满挑战。尽管智元具身研究中心看到了性能的显著飞跃,但在动作绝对精度极长程任务的稳定性上,仍有巨大的优化空间。虽然通过提升数据的多样性(Diversity)可以实现性能的量级增长,但在实际路径中,如何在高通量数据 Scaling的同时确保数据的“高质量”与“低噪声”,依然是行业待解的最优路径难题。


“下一步,智元具身研究中心将从“逻辑深度”与“执行精度”两个维度持续推进,并致力于实现具身大小脑、世界模型(World Model)与真机强化学习(Real-world RL)的闭环协同。通过在真实物理世界中的闭环交互与数据反哺,构建出真正具备常识推理与极限操作能力的通用基座模型。”




智元具身研究中心已将ERIQ Benchmark完全开源,希望能为具身智能社区提供一套可复现、可度量的技术基石。智元具身研究中心诚邀开发者与科研人员共同使用这一评测基准,反馈真实场景中的边界案例,共同完善具身推理的度量体系,加速通用具身智能的爆发。