LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners

LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners

测试LLM In-context Learning能力的评估框架,而非真正的Lifelong能力

LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners

日期: 2025-9-26
链接: ArXiv
标签: 命名超前 评估框架 工具调用

核心观点

评估框架:测试LLM In-context Learning能力,而非真正的Lifelong能力

技术栈与架构

测试环境

  • 3个交互环境: Database, OS, Knowledge Graph
  • 1306个DB任务: 22个SQL技能
  • 500个OS任务: 29个Bash技能
  • 396个KG任务: 7个SPARQL技能

核心创新点

1. 技能导向的任务设计

通过atomic skills构建任务间的依赖关系,使用调和平均数量化任务相关性。

2. Experience Replay机制

将历史成功轨迹作为context提供给当前任务,测试知识迁移能力。

3. Group Self-Consistency

将历史经验分组并通过投票策略聚合预测,缓解memory和推理复杂度问题。

实验结果

关键发现

  • Experience Replay效果: DB环境从19%提升至78%
  • 模型差异: Qwen系列模型replay收益较小,Llama系列持续受益
  • 推理模型问题: DeepSeek-R1等推理模型容易OOM

技术局限分析

✅ 贡献价值

  • 首个系统性的LLM Agent持续交互评估框架
  • 技能导向的任务构建方法学
  • Group self-consistency的技术贡献

⚠️ 主要问题

  • 命名过度夸大: 非真正终身学习
  • 实质是In-Context Learning
  • 缺乏遗忘机制和长期记忆

方法论价值

虽然命名夸大,但提供了: - 系统性的Agent能力评估框架 - 技能分解的任务设计思路 - Experience Replay的实现方案

未来方向

  • 引入真正的参数更新机制
  • 添加遗忘和记忆管理模块
  • 扩展到更多领域和技能类型

Thanks for Reading

If this article was helpful to you, feel free to connect with me!