LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners
日期: 2025-9-26
链接: ArXiv
标签: 命名超前
评估框架
工具调用
核心观点
评估框架:测试LLM In-context Learning能力,而非真正的Lifelong能力
技术栈与架构
测试环境
- 3个交互环境: Database, OS, Knowledge Graph
- 1306个DB任务: 22个SQL技能
- 500个OS任务: 29个Bash技能
- 396个KG任务: 7个SPARQL技能
核心创新点
1. 技能导向的任务设计
通过atomic skills构建任务间的依赖关系,使用调和平均数量化任务相关性。
2. Experience Replay机制
将历史成功轨迹作为context提供给当前任务,测试知识迁移能力。
3. Group Self-Consistency
将历史经验分组并通过投票策略聚合预测,缓解memory和推理复杂度问题。
实验结果
关键发现
- Experience Replay效果: DB环境从19%提升至78%
- 模型差异: Qwen系列模型replay收益较小,Llama系列持续受益
- 推理模型问题: DeepSeek-R1等推理模型容易OOM
技术局限分析
✅ 贡献价值
- 首个系统性的LLM Agent持续交互评估框架
- 技能导向的任务构建方法学
- Group self-consistency的技术贡献
⚠️ 主要问题
- 命名过度夸大: 非真正终身学习
- 实质是In-Context Learning
- 缺乏遗忘机制和长期记忆
方法论价值
虽然命名夸大,但提供了: - 系统性的Agent能力评估框架 - 技能分解的任务设计思路 - Experience Replay的实现方案
未来方向
- 引入真正的参数更新机制
- 添加遗忘和记忆管理模块
- 扩展到更多领域和技能类型