2026年寒假论文阅读¶

Toward Efficient Agents¶

Paper Info

Toward Efficient Agents: A Survey of Memory, Tool Learning, and Planning

来源: arXiv:2601.14192v1 [cs.AI] 关键词: Agents, Efficiency, Memory, Tool Learning, Planning

1. 问题定义与成本建模 (Problem Definition & Cost Modeling)

核心痛点: Agent 系统引入了递归式的工作流（Memory $\rightarrow$ Planning $\rightarrow$ Tool $\rightarrow$ Observation），导致 Token 消耗、推理延迟和上下文窗口占用呈指数级增长，远超传统线性 LLM 。
效率定义: 在给定的成本预算下最大化任务成功率，或在同等效果下最小化资源消耗（Token、延迟、计算量）。
Agent 成本函数: 与纯 LLM 仅关注生成 Token 不同，Agent 的成本模型为：

\[Cost_{agent} \approx \alpha N_{tok} + \mathbb{I}_{tool} \cdot Cost_{tool} + \mathbb{I}_{mem} \cdot Cost_{mem} + \mathbb{I}_{retry} \cdot Cost_{retry}\]

其中 $\mathbb{I}$ 为指示变量，强调了工具调用、记忆检索和重试机制带来的额外开销。

2. 高效记忆 (Efficient Memory)

该模块旨在通过压缩历史上下文和优化检索来解决长程任务中的 Token 爆炸问题。

2.1 记忆构建 (Construction) * 潜层记忆 (Latent Memory): 不仅存储文本，而是存储压缩的 KV Cache 或 Hidden States。 * 机制: 通过在 Transformer 层中注入可训练的记忆 Token (Memory Tokens) 或使用 Activation Beacon，使模型能直接访问压缩后的全局信息，无需重复编码原始文本。 * 代表作: MemoRAG (全局 KV 压缩) ，MemoryLLM (自更新记忆池) 。 * 图结构记忆 (Graph-based Memory): 构建动态知识图谱（KG），特别适合处理实体关系和多跳推理，与机器人的场景图（Scene Graph）高度契合。 * 机制: 将交互转化为实体-关系三元组或时间感知的子图。 * 代表作: AriGraph (语义-情景统一图) ，Zep (时序知识图谱) 。

2.2 记忆管理与访问 (Management & Access) * 分层架构 (Hierarchical): 模仿操作系统的存储层级（L1/L2 $\rightarrow$ Disk）。 * 机制: 如 MemGPT 使用虚拟分页管理上下文；MemOS 定义了 MemCubes 标准并在不同层级间迁移数据。 * 潜层集成 (Latent Integration): 将检索到的记忆以 KV 对的形式直接注入注意力机制，而非拼接在 Prompt 中，显著降低 Input Token 开销。

3. 高效工具学习 (Efficient Tool Learning)

针对大规模工具库（Tool Pool）和复杂调用链的优化，这对机器人与物理世界交互至关重要。

3.1 工具选择 (Tool Selection) * 基于词表 (Vocabulary-based): 将工具视为特殊的 Toolkens。 * 机制: 通过微调将工具映射为 Embedding，将工具检索转化为“下一个 Token 预测”任务，跳过繁重的 RAG 检索过程。 * 代表作: ToolkenGPT 。 * 多标签分类 (MLC): 如 TinyAgent，利用轻量级小模型（如 DeBERTa）进行工具概率预测，适合边缘计算设备部署。

3.2 工具调用与执行 (Tool Calling) * 并行调用 (Parallel Tool Calling): 解决顺序执行的高延迟问题。 * 机制: 基于编译器思想构建 DAG（有向无环图），识别无依赖关系的子任务并并发执行。 * 代表作: LLMCompiler 。 * 成本感知 (Cost-Aware): 将 Token 或 API 成本作为 RL 负奖励 (Penalty)。 * 机制: 通过强化学习训练 Policy，使其在同等效果下优先选择低成本工具或减少调用次数。

4. 高效规划 (Efficient Planning)

将推理视为资源受限的控制问题 (Resource-constrained Control Problem)。

4.1 推理时策略 (Inference-Time Strategy) * 自适应预算 (Adaptive Control): System 1 vs. System 2。 * 机制: 默认使用快速直觉策略，仅在高不确定性状态下激活慢速规划器（如 SwiftSage）。 * 结构化搜索 (Structured Search): 利用 $A^*$ 或 MCTS 进行剪枝。 * 机制: 在搜索树中引入成本函数，提前修剪高耗费且低概率的分支（如 ToolChain*）。

4.2 学习型进化 (Learning-based Evolution) * 规划缓存 (Plan Caching): 将成功轨迹蒸馏为模板。 * 机制: 推理时通过关键词检索历史 Plan Template 并进行参数填充，替代从头规划。

4.3 多智能体协作 (Multi-Agent Efficiency) * 拓扑稀疏化 (Topological Sparsification): 优化通信图结构。 * 机制: 从全连接图（$O(N^2)$）转向链式或 DAG 结构（线性复杂度），如 Chain-of-Agents 。 * 协作蒸馏 (Distillation): 将多智能体的辩论或协作过程内化（Distill）为单个 Student Model 的权重，消除推理时的通信开销。

5. 挑战与前沿方向 (Challenges & Frontiers)

Agentic Latent Reasoning: 探索在潜层空间（Latent Space）直接进行多步推理和规划，而非显式生成的自然语言 Token，以降低计算与通信冗余。
Deployment-Aware Design: 从单纯的模型优化转向系统级优化，需考虑实际部署中的容器启动、网络 I/O 及物理环境交互的端到端延迟。
多模态效率 (MLLM Efficiency): 对于机器人应用，处理高维视觉历史数据是瓶颈，需研究如何在不重新编码每一帧的情况下维持长程视觉记忆。

TTT-Discover¶

Paper Info

TTT-Discover: Test-Time Training for Scientific Discovery

(推测补充信息) 核心任务: Discovery Problems (Math, Algorithms, Biology). 技术路线: Test-Time Training + Reinforcement Learning.

1. 核心概览 (Core Overview)

核心论点: 针对科学发现类问题（Discovery Problems），仅靠冻结模型（Frozen LLM）的推理搜索（Search）是不够的。该论文提出 TTT-Discover，通过在测试时（Test-Time）对单一测试实例进行强化学习（RL），动态更新模型权重，从而“内化”该问题的独特分布，以寻找极其稀疏的高回报解。
关键区别:
- 传统 RL: 优化策略的平均期望回报（Expected Reward），关注鲁棒性。
- 科学发现: 只关注找到单个最佳解（Maximum Reward），不关心平均性能，且没有后续部署阶段（No Deployment Phase）。

2. 方法论: TTT-Discover (Methodology)

该框架包含两个核心组件，旨在将优化目标从“平均值”扭转为“极值”。

2.1 训练目标: 熵效用函数 (Entropic Utility Objective) 为了让策略模型 $\pi_\Theta$ 激进地寻找高回报的离群点，而非收敛到安全的平均解，论文采用了指数倾斜的目标函数：

\[J_{\beta}(\Theta) = \log \mathbb{E}_{\tau \sim \pi_{\Theta}(\cdot|s)} [e^{\beta R(\tau)}]\]

梯度更新 (Weighted Policy Gradient): 该目标的梯度等价于加权的策略梯度，权重由指数回报决定： $$\nabla_{\Theta} J_{\beta}(\Theta) = \mathbb{E}_{\tau \sim \pi_{\Theta}} [w_{\beta}(\tau) \nabla_{\Theta} \log \pi_{\Theta}(\tau)], \quad w_{\beta}(\tau) = \frac{e^{\beta R(\tau)}}{\mathbb{E}[e^{\beta R(\tau)}]}$$
自适应 $\beta$ 策略 (Adaptive $\beta$): 固定 $\beta$ 会导致训练初期不稳定或后期梯度消失。算法对每个初始状态 $s$ 动态调整 $\beta(s)$，约束辅助分布 $q_\beta$ 与当前策略 $\pi_\Theta$ 的 KL 散度： $$KL(q_{\beta(s)} || \pi_{\Theta}) = \gamma \quad (\text{fixed } \gamma = \ln 2)$$

2.2 搜索策略: PUCT 状态重用 (State Reuse) 为了解决长视距探索问题，算法维护一个历史解 Buffer $\mathcal{H}$，并使用 PUCT 算法选择重用哪个旧状态作为起点。评分公式：

\[Score(s) = Q(s) + c \cdot P(s) \cdot \frac{\sqrt{1+T}}{1+n(s)}\]

关键改进 ($Q(s)$): 不同于 AlphaZero 使用平均值，这里 $Q(s)$ 定义为从 $s$ 出发的所有子节点中的最大奖励 (Max Reward)，直接服务于发现 SOTA 的目标。
先验 ($P(s)$): 基于 Buffer 中奖励排名的线性分布。
回溯更新: 访问计数 $n(s)$ 会反向传播到所有祖先节点，以此惩罚整个过度探索的分支。

2.3 实现架构 * 基座模型: gpt-oss-120b 。 * 微调方式: LoRA (Rank 32)，仅更新部分参数。 * 资源消耗: 每个问题约 50 个训练步，每步 512 个 Rollouts，成本约 $500 。

3. 实验结果 (SOTA Performance)

TTT-Discover 在四个截然不同的领域均刷新了 SOTA，且全部优于单纯的 Best-of-N 采样和进化算法（AlphaEvolve/OpenEvolve）。

3.1 GPU Kernel 优化 (机器人/AI 算子) 在 GPUMode 竞赛中优化 CUDA/Triton 代码，目标是最小化 Kernel 运行时间。 * TriMul (AlphaFold 核心算子): H100 Runtime: TTT-Discover 达到 1161 $\mu s$，显著优于人类专家第一名的 1371 $\mu s$ 。 * 技术细节: 模型“学会”了融合 Input LayerNorm 和 Gating 操作，并将矩阵乘法转换为 FP16 以利用 Tensor Cores，识别并解决了内存 I/O 瓶颈。 * 泛化性: 在 H100 上训练得到的 Kernel，直接迁移到 A100、B200 和 AMD MI300X 上依然保持 SOTA 。

3.2 数学发现 * Erdős' Minimum Overlap Problem: 构造了一个 600-piece 的非对称阶梯函数，将上界从 0.380924 推进到 0.380876，打破了人类数学家和 AlphaEvolve 的记录。 * Autocorrelation Inequalities: 在第一不等式问题上，从头开始发现了优于 ThetaEvolve（基于先前 SOTA 微调）的构造。

3.3 算法设计与生物学 * AtCoder 竞赛: 在 AHC039 和 AHC058 两个启发式优化比赛中，TTT-Discover 生成的代码超越了当时比赛的第一名。 * 单细胞 RNA 测序: 在 OpenProblems 去噪基准测试中，通过引入 log-space polishing 等技术，MSE 指标优于现有 SOTA 方法 MAGIC 。

4. 消融实验与分析 (Ablation & Analysis)

Entropic Objective 的必要性: 如果使用标准的 Expected Reward（平均回报）目标，模型改进极其缓慢；如果使用固定的 $\beta$，后期收益递减明显。
Search vs. Learning: 单纯的搜索（Best-of-N）在达到一定计算量后会饱和，而 Test-Time Training 可以通过参数更新持续挖掘长尾分布中的更优解。
局限性: 当前方法依赖于连续奖励函数 (Continuous Rewards)，对于稀疏奖励或无法验证（Non-verifiable）的领域仍有挑战。

VoroNav¶

Paper Info

VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model

来源/时间: arXiv 2024 (v2) 核心任务: Zero-Shot Object Navigation (ZSON) 技术路线: Modular, Map-based, Training-free (Grounded-SAM + Voronoi + LLM)

1. 核心思想 (Core Idea)

论文提出了一种无需训练的模块化导航框架。其核心在于将环境建模为 降维沃罗诺伊图 (Reduced Voronoi Graph, RVG)，利用图节点的拓扑特性（位于自由空间中轴线）作为导航候选点，并利用 LLM 的语义推理能力在这些节点间进行决策。不同于传统的端到端方法，VoroNav 将几何安全性（Voronoi）与语义推理（LLM）解耦。

2. 关键方法 (Methodology)

2.1 动态构图 (Dynamic Graph Generation) 输入: RGB-D 图像流与位姿。建图: 使用 Grounded-SAM 生成语义点云并投影为 2D 语义栅格地图。骨架化: 对地图中的“自由空间”进行骨架化 (Skeletonization)，提取中轴线作为 Voronoi 图，节点即为决策路口。

2.2 双重语义描述 (Dual Semantic Descriptions) —— [重点参考] 为了将图结构转化为 LLM 可理解的 Prompt，论文设计了两种互补的描述视角： * 路径描述 (Path Description): 逻辑: 基于已构建的语义地图，描述从当前点到候选点的沿途物体。Prompt 示例: "You will pass by a bedroom with bed, chair and refrigerator on the way".价值: 捕捉 R2R 任务中常见的 "pass by..." 或 "through the..." 动态语义信息。 * 远视描述 (Farsight Description): 逻辑: 解决地图范围有限的问题。在决策点旋转采集全景图，利用射线检测 (Ray Casting) 截取面向候选节点方向的局部图像 (Crop)，输入 BLIP 模型生成 Caption 。Prompt 示例: "There is a living room with a couch...".价值: 显式地将“路口深处的视觉信息”转化为文本，增强 LLM 对未探索区域的预测能力。

2.3 分层决策机制 (Hierarchical Decision) 采用分层奖励公式 $W = P + C + L$ 进行决策，优先级严格排序： * Exploration ($P$): 优先选择通向未知区域的节点（拓扑驱动）。 * Efficiency ($C$): 惩罚走回头路（历史驱动）。 * Semantic ($L$): LLM 输出的目标出现概率（语义驱动，仅在拓扑价值相同时起效）。

3. 实验结论 (Key Results)

在 HM3D 和 HSSD 数据集上，Success Rate (SR) 和 SPL 均优于 SOTA (如 L3MVN, ESC) 。
消融实验: 证明了同时结合 "Path Description" 和 "Farsight Description" 能显著提升导航成功率，缺一不可。
避障性能: 由于 Voronoi 路径天然远离障碍物，其 SCA (避障成功率) 远高于基于 Frontier 的方法。

4. 对 End-to-End VLM 项目的启示 (Insights for VLM Project)

Prompt 增强策略: 论文证明了单纯给全景图是不够的。Explicit Extraction (显式提取)——即针对每个 Candidate 单独截取面向该方向的 Farsight Image 并生成描述——能大幅提升模型的推理准确性。
Candidate 语义化: 在 SFT 数据构造中，应尝试将几何候选点 (angle, distance) 扩充为包含语义上下文的描述（如“路过沙发通向走廊”），这与 VoroNav 的 Path Description 异曲同工。
几何修正的取舍: Voronoi 修正虽然能保证绝对安全（无碰撞），但生成的路径不符合人类习惯（由中轴线构成），会导致 NDTW 指标下降。在追求拟人化导航（R2R/VLN）的任务中，不建议直接照搬其骨架化算法，但可参考其“死胡同剔除”的拓扑思想。

UrbanVLA¶

Paper Info

UrbanVLA: A Vision-Language-Action Model for Urban Micromobility

论文来源: arXiv:2510.23576v1 [cs.RO]

核心任务: 解决城市微出行（Urban Micromobility）中，粗糙拓扑指令与精确物理控制之间的“最后一公里”对齐问题。

1. 核心解决的问题 (Problem Statement)

指令与物理世界的错位: 商业导航软件（如高德/Google Maps）提供的 API 路点仅具备拓扑连续性，几何精度极差（存在 GPS 漂移和地图滞后）。若直接将其作为 Point-Goal，机器人极易发生碰撞。
VLA 的长视距短板: 现有通用 VLA 模型难以处理长序列导航指令，且在复杂的城市动态环境中缺乏社会合规性（如避让行人、遵守交通规则）。

2. 核心方法论 (Methodology)

该论文提出了 Route-Conditioned VLA 框架，采用 SFT (监督微调) + RFT (强化微调) 的两阶段训练范式。

模型架构 (Architecture)
- Base Model: 基于 NavFoM (Foundation Model)。
- Backbone: Qwen2-LLM。
- Input:
  - Vision: 多视角 RGB（滑动窗口 k 帧），双视觉编码器：DINOv2 (几何特征) + SigLIP (语义特征)。
  - Language: 结构化“路书” (Roadbook)，包含重采样后的路点序列和基于 Corner Detection 生成的转向/距离描述。
- Output: Action Head (预测局部轨迹 $\tau$) + Language Head (VideoQA 辅助任务)。
关键创新 A: 启发式轨迹提升 (HTL) - Data Engineering
- 目的: 防止 SFT 阶段模型过拟合于仿真器中完美的全局规划路径。
- 做法: 对 Ground Truth 轨迹进行平滑和分割，并在训练数据构建时，故意对路段施加高斯位置噪声。
- 效果: 迫使模型不能完全信任“导航指令”，必须结合视觉观测 (Visual Grounding) 来修正路径。Sim-to-Real 的 Route Completion 率从 42% 提升至 100%。
关键创新 B: 基于 IQL 的强化微调 (RFT) - RL Strategy
- 算法: Implicit Q-Learning (IQL)，用于离线数据微调。
- State Space 设计 (Trick): 不要用 LLM 的最后一层；要用 LLM 的中间层 (第 17 层) 的 Hidden State 作为 RL 的状态输入。
- 理由: 顶层特征过度拟合 Action Logits，丢失了环境物理信息；中间层特征能更好地表征环境状态 $V(s)$。
关键创新 C: 多任务协同 (Co-training)
- 同时训练 VideoQA 任务（例如描述场景）。这作为正则化项，增强了模型对红绿灯、斑马线等语义路标的理解能力。

3. 对 ETP-R1 / VLM 项目的借鉴 (Actionable Takeaways)

结合您当前的 VLM 导航项目（Online GRPO 流程），可直接迁移以下技术点：

数据工程 (SFT 阶段): 在运行 generate_cot_v2.py 时，不要喂给模型完美的候选点坐标。借鉴 HTL 思想，在读取 scanvp_candview_relangles.json 时，对候选点的相对角度或距离加入随机高斯扰动，防止模型过拟合历史文本。
RL 训练 (Online GRPO 阶段): 在 trainer_online_grpo.py 中设计 Critic 或 Reward Model 时，修改 Value Head 的输入来源。提取 VLM Backbone 的中间层特征（而非 Last Hidden State）来计算 Value，以稳定训练收敛。
辅助任务: 在 SFT 数据集中混入 Scene Captioning 任务。在模型输出 <answer>(node_X)</answer> 之前，引导其先输出一段对当前全景图的语义描述。

4. 实验结论

仿真表现: 在 MetaUrban 的 SocialNav 任务中，成功率 (SR) 达到 97%，远超基于 LiDAR 的 PPO 基线 (SR 34%)。
真机部署: 在 Unitree Go2 四足机器人上实现了 500 米以上的长距离导航，成功处理了立交桥、夜间光照变化及动态行人避障。

DeepThinkVLA¶

Paper Info

DeepThinkVLA: System 2 Reasoning for VLA 将 "System 2 Reasoning" (DeepSeek-R1, o1 风格) 引入 VLA，解决推理与实时控制的矛盾。

核心问题

传统 VLA 在引入 CoT 时面临两难——CoT 是离散序列适合 AR 生成，而 Action 是高维连续向量需要并行解码；且 SFT 学到的 CoT 往往是事后解释，非真正指导动作的因果逻辑。

创新点

混合注意力解码器 (Hybrid-Attention Decoder)
CoT 阶段用 Causal Attention (AR)，Action Chunk 阶段切换为 Bidirectional Attention (并行解码)。既保留推理的序列依赖，又降低动作推理延迟。
两阶段训练 (SFT + RL)
- SFT：用 VLM 自动标注关键帧的 <think> 推理轨迹，蒸馏到小模型 - RL：GRPO 优化整个 $(R, A)$ 序列，仅用 Sparse Reward（成功率），迫使 CoT 真正指导动作
GRPO 代替 PPO
$$\hat{A}_{i,j} = \frac{\mathcal{R}(\tau_i) - \text{mean}}{\text{std}}$$
无需 Value Network，显存友好。

Results

LIBERO 97.0% 成功率，超 $\pi_0$-FAST、OpenVLA；消融发现 SFT 的 CoT 主要优化表征，RL 后才真正 Causal Link。

可取之处

Attention 解耦思路 (Thought: Seq2Seq, Action: Parallel)；自动化 Reasoning Trace 数据构建流程；GRPO 在具身智能的有效性验证。

注意

Sparse Reward RL 在长程任务仍有难度；CoT 增加 ~1.4x 推理延迟，嵌入式需评估；SFT 的 CoT 若有逻辑漏洞，后续 RL 难纠正语义错误。

2026年寒假 论文阅读¶

Toward Efficient Agents¶

TTT-Discover¶

VoroNav¶

UrbanVLA¶

DeepThinkVLA¶

2026年寒假论文阅读¶