Skip to content

2026年寒假 论文阅读

Toward Efficient Agents

Paper Info

Toward Efficient Agents: A Survey of Memory, Tool Learning, and Planning

来源: arXiv:2601.14192v1 [cs.AI] 关键词: Agents, Efficiency, Memory, Tool Learning, Planning

1. 问题定义与成本建模 (Problem Definition & Cost Modeling)

  • 核心痛点: Agent 系统引入了递归式的工作流(Memory \(\rightarrow\) Planning \(\rightarrow\) Tool \(\rightarrow\) Observation),导致 Token 消耗、推理延迟和上下文窗口占用呈指数级增长,远超传统线性 LLM 。
  • 效率定义: 在给定的成本预算下最大化任务成功率,或在同等效果下最小化资源消耗(Token、延迟、计算量)。
  • Agent 成本函数: 与纯 LLM 仅关注生成 Token 不同,Agent 的成本模型为 :
\[Cost_{agent} \approx \alpha N_{tok} + \mathbb{I}_{tool} \cdot Cost_{tool} + \mathbb{I}_{mem} \cdot Cost_{mem} + \mathbb{I}_{retry} \cdot Cost_{retry}\]

其中 \(\mathbb{I}\) 为指示变量,强调了工具调用、记忆检索和重试机制带来的额外开销。

2. 高效记忆 (Efficient Memory)

该模块旨在通过压缩历史上下文和优化检索来解决长程任务中的 Token 爆炸问题。

2.1 记忆构建 (Construction) * 潜层记忆 (Latent Memory): 不仅存储文本,而是存储压缩的 KV Cache 或 Hidden States。 * 机制: 通过在 Transformer 层中注入可训练的记忆 Token (Memory Tokens) 或使用 Activation Beacon,使模型能直接访问压缩后的全局信息,无需重复编码原始文本 。 * 代表作: MemoRAG (全局 KV 压缩) ,MemoryLLM (自更新记忆池) 。 * 图结构记忆 (Graph-based Memory): 构建动态知识图谱(KG),特别适合处理实体关系和多跳推理,与机器人的场景图(Scene Graph)高度契合。 * 机制: 将交互转化为实体-关系三元组或时间感知的子图 。 * 代表作: AriGraph (语义-情景统一图) ,Zep (时序知识图谱) 。

2.2 记忆管理与访问 (Management & Access) * 分层架构 (Hierarchical): 模仿操作系统的存储层级(L1/L2 \(\rightarrow\) Disk)。 * 机制: 如 MemGPT 使用虚拟分页管理上下文 ;MemOS 定义了 MemCubes 标准并在不同层级间迁移数据 。 * 潜层集成 (Latent Integration): 将检索到的记忆以 KV 对的形式直接注入注意力机制,而非拼接在 Prompt 中,显著降低 Input Token 开销 。

3. 高效工具学习 (Efficient Tool Learning)

针对大规模工具库(Tool Pool)和复杂调用链的优化,这对机器人与物理世界交互至关重要。

3.1 工具选择 (Tool Selection) * 基于词表 (Vocabulary-based): 将工具视为特殊的 Toolkens。 * 机制: 通过微调将工具映射为 Embedding,将工具检索转化为“下一个 Token 预测”任务,跳过繁重的 RAG 检索过程 。 * 代表作: ToolkenGPT 。 * 多标签分类 (MLC): 如 TinyAgent,利用轻量级小模型(如 DeBERTa)进行工具概率预测,适合边缘计算设备部署 。

3.2 工具调用与执行 (Tool Calling) * 并行调用 (Parallel Tool Calling): 解决顺序执行的高延迟问题。 * 机制: 基于编译器思想构建 DAG(有向无环图),识别无依赖关系的子任务并并发执行 。 * 代表作: LLMCompiler 。 * 成本感知 (Cost-Aware): 将 Token 或 API 成本作为 RL 负奖励 (Penalty)。 * 机制: 通过强化学习训练 Policy,使其在同等效果下优先选择低成本工具或减少调用次数 。

4. 高效规划 (Efficient Planning)

将推理视为资源受限的控制问题 (Resource-constrained Control Problem)。

4.1 推理时策略 (Inference-Time Strategy) * 自适应预算 (Adaptive Control): System 1 vs. System 2。 * 机制: 默认使用快速直觉策略,仅在高不确定性状态下激活慢速规划器(如 SwiftSage)。 * 结构化搜索 (Structured Search): 利用 \(A^*\) 或 MCTS 进行剪枝。 * 机制: 在搜索树中引入成本函数,提前修剪高耗费且低概率的分支(如 ToolChain*)。

4.2 学习型进化 (Learning-based Evolution) * 规划缓存 (Plan Caching): 将成功轨迹蒸馏为模板。 * 机制: 推理时通过关键词检索历史 Plan Template 并进行参数填充,替代从头规划 。

4.3 多智能体协作 (Multi-Agent Efficiency) * 拓扑稀疏化 (Topological Sparsification): 优化通信图结构。 * 机制: 从全连接图(\(O(N^2)\))转向链式或 DAG 结构(线性复杂度),如 Chain-of-Agents 。 * 协作蒸馏 (Distillation): 将多智能体的辩论或协作过程内化(Distill)为单个 Student Model 的权重,消除推理时的通信开销 。

5. 挑战与前沿方向 (Challenges & Frontiers)

  • Agentic Latent Reasoning: 探索在潜层空间(Latent Space)直接进行多步推理和规划,而非显式生成的自然语言 Token,以降低计算与通信冗余 。
  • Deployment-Aware Design: 从单纯的模型优化转向系统级优化,需考虑实际部署中的容器启动、网络 I/O 及物理环境交互的端到端延迟 。
  • 多模态效率 (MLLM Efficiency): 对于机器人应用,处理高维视觉历史数据是瓶颈,需研究如何在不重新编码每一帧的情况下维持长程视觉记忆 。

TTT-Discover

Paper Info

TTT-Discover: Test-Time Training for Scientific Discovery

(推测补充信息) 核心任务: Discovery Problems (Math, Algorithms, Biology). 技术路线: Test-Time Training + Reinforcement Learning.

1. 核心概览 (Core Overview)

  • 核心论点: 针对科学发现类问题(Discovery Problems),仅靠冻结模型(Frozen LLM)的推理搜索(Search)是不够的。该论文提出 TTT-Discover,通过在测试时(Test-Time)对单一测试实例进行强化学习(RL),动态更新模型权重,从而“内化”该问题的独特分布,以寻找极其稀疏的高回报解 。
  • 关键区别:
    • 传统 RL: 优化策略的平均期望回报(Expected Reward),关注鲁棒性 。
    • 科学发现: 只关注找到单个最佳解(Maximum Reward),不关心平均性能,且没有后续部署阶段(No Deployment Phase)。

2. 方法论: TTT-Discover (Methodology)

该框架包含两个核心组件,旨在将优化目标从“平均值”扭转为“极值”。

2.1 训练目标: 熵效用函数 (Entropic Utility Objective) 为了让策略模型 \(\pi_\Theta\) 激进地寻找高回报的离群点,而非收敛到安全的平均解,论文采用了指数倾斜的目标函数 :

\[J_{\beta}(\Theta) = \log \mathbb{E}_{\tau \sim \pi_{\Theta}(\cdot|s)} [e^{\beta R(\tau)}]\]
  • 梯度更新 (Weighted Policy Gradient): 该目标的梯度等价于加权的策略梯度,权重由指数回报决定 : $\(\nabla_{\Theta} J_{\beta}(\Theta) = \mathbb{E}_{\tau \sim \pi_{\Theta}} [w_{\beta}(\tau) \nabla_{\Theta} \log \pi_{\Theta}(\tau)], \quad w_{\beta}(\tau) = \frac{e^{\beta R(\tau)}}{\mathbb{E}[e^{\beta R(\tau)}]}\)$

  • 自适应 \(\beta\) 策略 (Adaptive \(\beta\)): 固定 \(\beta\) 会导致训练初期不稳定或后期梯度消失。算法对每个初始状态 \(s\) 动态调整 \(\beta(s)\),约束辅助分布 \(q_\beta\) 与当前策略 \(\pi_\Theta\) 的 KL 散度 : $\(KL(q_{\beta(s)} || \pi_{\Theta}) = \gamma \quad (\text{fixed } \gamma = \ln 2)\)$

2.2 搜索策略: PUCT 状态重用 (State Reuse) 为了解决长视距探索问题,算法维护一个历史解 Buffer \(\mathcal{H}\),并使用 PUCT 算法选择重用哪个旧状态作为起点 。评分公式 :

\[Score(s) = Q(s) + c \cdot P(s) \cdot \frac{\sqrt{1+T}}{1+n(s)}\]
  • 关键改进 (\(Q(s)\)): 不同于 AlphaZero 使用平均值,这里 \(Q(s)\) 定义为从 \(s\) 出发的所有子节点中的最大奖励 (Max Reward),直接服务于发现 SOTA 的目标 。
  • 先验 (\(P(s)\)): 基于 Buffer 中奖励排名的线性分布 。
  • 回溯更新: 访问计数 \(n(s)\) 会反向传播到所有祖先节点,以此惩罚整个过度探索的分支 。

2.3 实现架构 * 基座模型: gpt-oss-120b 。 * 微调方式: LoRA (Rank 32),仅更新部分参数 。 * 资源消耗: 每个问题约 50 个训练步,每步 512 个 Rollouts,成本约 $500 。

3. 实验结果 (SOTA Performance)

TTT-Discover 在四个截然不同的领域均刷新了 SOTA,且全部优于单纯的 Best-of-N 采样和进化算法(AlphaEvolve/OpenEvolve)。

3.1 GPU Kernel 优化 (机器人/AI 算子) 在 GPUMode 竞赛中优化 CUDA/Triton 代码,目标是最小化 Kernel 运行时间。 * TriMul (AlphaFold 核心算子): H100 Runtime: TTT-Discover 达到 1161 \(\mu s\),显著优于人类专家第一名的 1371 \(\mu s\) 。 * 技术细节: 模型“学会”了融合 Input LayerNorm 和 Gating 操作,并将矩阵乘法转换为 FP16 以利用 Tensor Cores,识别并解决了内存 I/O 瓶颈 。 * 泛化性: 在 H100 上训练得到的 Kernel,直接迁移到 A100、B200 和 AMD MI300X 上依然保持 SOTA 。

3.2 数学发现 * Erdős' Minimum Overlap Problem: 构造了一个 600-piece 的非对称阶梯函数,将上界从 0.380924 推进到 0.380876,打破了人类数学家和 AlphaEvolve 的记录 。 * Autocorrelation Inequalities: 在第一不等式问题上,从头开始发现了优于 ThetaEvolve(基于先前 SOTA 微调)的构造 。

3.3 算法设计与生物学 * AtCoder 竞赛: 在 AHC039 和 AHC058 两个启发式优化比赛中,TTT-Discover 生成的代码超越了当时比赛的第一名 。 * 单细胞 RNA 测序: 在 OpenProblems 去噪基准测试中,通过引入 log-space polishing 等技术,MSE 指标优于现有 SOTA 方法 MAGIC 。

4. 消融实验与分析 (Ablation & Analysis)

  • Entropic Objective 的必要性: 如果使用标准的 Expected Reward(平均回报)目标,模型改进极其缓慢;如果使用固定的 \(\beta\),后期收益递减明显 。
  • Search vs. Learning: 单纯的搜索(Best-of-N)在达到一定计算量后会饱和,而 Test-Time Training 可以通过参数更新持续挖掘长尾分布中的更优解 。
  • 局限性: 当前方法依赖于连续奖励函数 (Continuous Rewards),对于稀疏奖励或无法验证(Non-verifiable)的领域仍有挑战 。

VoroNav

Paper Info

VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

来源/时间: arXiv 2024 (v2) 核心任务: Zero-Shot Object Navigation (ZSON) 技术路线: Modular, Map-based, Training-free (Grounded-SAM + Voronoi + LLM)

1. 核心思想 (Core Idea)

论文提出了一种无需训练的模块化导航框架。其核心在于将环境建模为 降维沃罗诺伊图 (Reduced Voronoi Graph, RVG),利用图节点的拓扑特性(位于自由空间中轴线)作为导航候选点,并利用 LLM 的语义推理能力在这些节点间进行决策 。不同于传统的端到端方法,VoroNav 将几何安全性(Voronoi)与语义推理(LLM)解耦 。

2. 关键方法 (Methodology)

2.1 动态构图 (Dynamic Graph Generation) 输入: RGB-D 图像流与位姿。建图: 使用 Grounded-SAM 生成语义点云并投影为 2D 语义栅格地图 。骨架化: 对地图中的“自由空间”进行骨架化 (Skeletonization),提取中轴线作为 Voronoi 图,节点即为决策路口 。

2.2 双重语义描述 (Dual Semantic Descriptions) —— [重点参考] 为了将图结构转化为 LLM 可理解的 Prompt,论文设计了两种互补的描述视角: * 路径描述 (Path Description): 逻辑: 基于已构建的语义地图,描述从当前点到候选点的沿途物体。Prompt 示例: "You will pass by a bedroom with bed, chair and refrigerator on the way".价值: 捕捉 R2R 任务中常见的 "pass by..." 或 "through the..." 动态语义信息。 * 远视描述 (Farsight Description): 逻辑: 解决地图范围有限的问题。在决策点旋转采集全景图,利用射线检测 (Ray Casting) 截取面向候选节点方向的局部图像 (Crop),输入 BLIP 模型生成 Caption 。Prompt 示例: "There is a living room with a couch...".价值: 显式地将“路口深处的视觉信息”转化为文本,增强 LLM 对未探索区域的预测能力。

2.3 分层决策机制 (Hierarchical Decision) 采用分层奖励公式 \(W = P + C + L\) 进行决策,优先级严格排序 : * Exploration (\(P\)): 优先选择通向未知区域的节点(拓扑驱动)。 * Efficiency (\(C\)): 惩罚走回头路(历史驱动)。 * Semantic (\(L\)): LLM 输出的目标出现概率(语义驱动,仅在拓扑价值相同时起效)。

3. 实验结论 (Key Results)

  • 在 HM3D 和 HSSD 数据集上,Success Rate (SR) 和 SPL 均优于 SOTA (如 L3MVN, ESC) 。
  • 消融实验: 证明了同时结合 "Path Description" 和 "Farsight Description" 能显著提升导航成功率,缺一不可 。
  • 避障性能: 由于 Voronoi 路径天然远离障碍物,其 SCA (避障成功率) 远高于基于 Frontier 的方法 。

4. 对 End-to-End VLM 项目的启示 (Insights for VLM Project)

  • Prompt 增强策略: 论文证明了单纯给全景图是不够的。Explicit Extraction (显式提取)——即针对每个 Candidate 单独截取面向该方向的 Farsight Image 并生成描述——能大幅提升模型的推理准确性。
  • Candidate 语义化: 在 SFT 数据构造中,应尝试将几何候选点 (angle, distance) 扩充为包含语义上下文的描述(如“路过沙发通向走廊”),这与 VoroNav 的 Path Description 异曲同工。
  • 几何修正的取舍: Voronoi 修正虽然能保证绝对安全(无碰撞),但生成的路径不符合人类习惯(由中轴线构成),会导致 NDTW 指标下降。在追求拟人化导航(R2R/VLN)的任务中,不建议直接照搬其骨架化算法,但可参考其“死胡同剔除”的拓扑思想。

UrbanVLA

Paper Info

UrbanVLA: A Vision-Language-Action Model for Urban Micromobility

论文来源: arXiv:2510.23576v1 [cs.RO]

核心任务: 解决城市微出行(Urban Micromobility)中,粗糙拓扑指令与精确物理控制之间的“最后一公里”对齐问题。

1. 核心解决的问题 (Problem Statement)

  • 指令与物理世界的错位: 商业导航软件(如高德/Google Maps)提供的 API 路点仅具备拓扑连续性,几何精度极差(存在 GPS 漂移和地图滞后)。若直接将其作为 Point-Goal,机器人极易发生碰撞。
  • VLA 的长视距短板: 现有通用 VLA 模型难以处理长序列导航指令,且在复杂的城市动态环境中缺乏社会合规性(如避让行人、遵守交通规则)。

2. 核心方法论 (Methodology)

该论文提出了 Route-Conditioned VLA 框架,采用 SFT (监督微调) + RFT (强化微调) 的两阶段训练范式。

  • 模型架构 (Architecture)

    • Base Model: 基于 NavFoM (Foundation Model)。
    • Backbone: Qwen2-LLM。
    • Input:
      • Vision: 多视角 RGB(滑动窗口 k 帧),双视觉编码器:DINOv2 (几何特征) + SigLIP (语义特征)。
      • Language: 结构化“路书” (Roadbook),包含重采样后的路点序列和基于 Corner Detection 生成的转向/距离描述。
    • Output: Action Head (预测局部轨迹 \(\tau\)) + Language Head (VideoQA 辅助任务)。
  • 关键创新 A: 启发式轨迹提升 (HTL) - Data Engineering

    • 目的: 防止 SFT 阶段模型过拟合于仿真器中完美的全局规划路径。
    • 做法: 对 Ground Truth 轨迹进行平滑和分割,并在训练数据构建时,故意对路段施加高斯位置噪声
    • 效果: 迫使模型不能完全信任“导航指令”,必须结合视觉观测 (Visual Grounding) 来修正路径。Sim-to-Real 的 Route Completion 率从 42% 提升至 100%。
  • 关键创新 B: 基于 IQL 的强化微调 (RFT) - RL Strategy

    • 算法: Implicit Q-Learning (IQL),用于离线数据微调。
    • State Space 设计 (Trick): 不要用 LLM 的最后一层;要用 LLM 的中间层 (第 17 层) 的 Hidden State 作为 RL 的状态输入。
    • 理由: 顶层特征过度拟合 Action Logits,丢失了环境物理信息;中间层特征能更好地表征环境状态 \(V(s)\)
  • 关键创新 C: 多任务协同 (Co-training)

    • 同时训练 VideoQA 任务(例如描述场景)。这作为正则化项,增强了模型对红绿灯、斑马线等语义路标的理解能力。

3. 对 ETP-R1 / VLM 项目的借鉴 (Actionable Takeaways)

结合您当前的 VLM 导航项目(Online GRPO 流程),可直接迁移以下技术点:

  • 数据工程 (SFT 阶段): 在运行 generate_cot_v2.py 时,不要喂给模型完美的候选点坐标。借鉴 HTL 思想,在读取 scanvp_candview_relangles.json 时,对候选点的相对角度或距离加入随机高斯扰动,防止模型过拟合历史文本。
  • RL 训练 (Online GRPO 阶段): 在 trainer_online_grpo.py 中设计 Critic 或 Reward Model 时,修改 Value Head 的输入来源。提取 VLM Backbone 的中间层特征(而非 Last Hidden State)来计算 Value,以稳定训练收敛。
  • 辅助任务: 在 SFT 数据集中混入 Scene Captioning 任务。在模型输出 <answer>(node_X)</answer> 之前,引导其先输出一段对当前全景图的语义描述。

4. 实验结论

  • 仿真表现: 在 MetaUrban 的 SocialNav 任务中,成功率 (SR) 达到 97%,远超基于 LiDAR 的 PPO 基线 (SR 34%)。
  • 真机部署: 在 Unitree Go2 四足机器人上实现了 500 米以上的长距离导航,成功处理了立交桥、夜间光照变化及动态行人避障。

DeepThinkVLA

Paper Info

DeepThinkVLA: System 2 Reasoning for VLA 将 "System 2 Reasoning" (DeepSeek-R1, o1 风格) 引入 VLA,解决推理与实时控制的矛盾。

核心问题

传统 VLA 在引入 CoT 时面临两难——CoT 是离散序列适合 AR 生成,而 Action 是高维连续向量需要并行解码;且 SFT 学到的 CoT 往往是事后解释,非真正指导动作的因果逻辑。

创新点

  1. 混合注意力解码器 (Hybrid-Attention Decoder)
    CoT 阶段用 Causal Attention (AR),Action Chunk 阶段切换为 Bidirectional Attention (并行解码)。既保留推理的序列依赖,又降低动作推理延迟。

  2. 两阶段训练 (SFT + RL)
    - SFT:用 VLM 自动标注关键帧的 <think> 推理轨迹,蒸馏到小模型 - RL:GRPO 优化整个 \((R, A)\) 序列,仅用 Sparse Reward(成功率),迫使 CoT 真正指导动作

  3. GRPO 代替 PPO
    $\(\hat{A}_{i,j} = \frac{\mathcal{R}(\tau_i) - \text{mean}}{\text{std}}\)$
    无需 Value Network,显存友好。

Results

LIBERO 97.0% 成功率,超 \(\pi_0\)-FAST、OpenVLA;消融发现 SFT 的 CoT 主要优化表征,RL 后才真正 Causal Link。

可取之处

Attention 解耦思路 (Thought: Seq2Seq, Action: Parallel);自动化 Reasoning Trace 数据构建流程;GRPO 在具身智能的有效性验证。

注意

Sparse Reward RL 在长程任务仍有难度;CoT 增加 ~1.4x 推理延迟,嵌入式需评估;SFT 的 CoT 若有逻辑漏洞,后续 RL 难纠正语义错误。