LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners

Published: 2025-09-26

Author: Cialtion

命名夸大评估框架工具调用In-Context LearningAgent

测试LLM In-context Learning能力的评估框架，而非真正的Lifelong能力

LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners

日期： 2025-9-26
链接： ArXiv
标签： 命名超前 评估框架 工具调用

核心观点

评估框架：测试LLM In-context Learning能力，而非真正的Lifelong能力

技术栈与架构

测试环境

3个交互环境： Database, OS, Knowledge Graph
1306个DB任务： 22个SQL技能
500个OS任务： 29个Bash技能
396个KG任务： 7个SPARQL技能

核心创新点

1. 技能导向的任务设计

通过atomic skills构建任务间的依赖关系，使用调和平均数量化任务相关性。

2. Experience Replay机制

将历史成功轨迹作为context提供给当前任务，测试知识迁移能力。

3. Group Self-Consistency

将历史经验分组并通过投票策略聚合预测，缓解memory和推理复杂度问题。

实验结果

关键发现

Experience Replay效果： DB环境从19%提升至78%
模型差异： Qwen系列模型replay收益较小，Llama系列持续受益
推理模型问题： DeepSeek-R1等推理模型容易OOM

技术局限分析

✅ 贡献价值

首个系统性的LLM Agent持续交互评估框架
技能导向的任务构建方法学
Group self-consistency的技术贡献

⚠️ 主要问题

命名过度夸大： 非真正终身学习
实质是In-Context Learning
缺乏遗忘机制和长期记忆

方法论价值

虽然命名夸大，但提供了： - 系统性的Agent能力评估框架 - 技能分解的任务设计思路 - Experience Replay的实现方案

未来方向

引入真正的参数更新机制
添加遗忘和记忆管理模块
扩展到更多领域和技能类型

Thanks for Reading

If this article was helpful to you, feel free to connect with me!

GitHub Email