FunReason 核心技术深度剖析
2025-10-22

FunReason 核心技术深度剖析

--- - 用GPT-4o生成的CoT可能包含策略痕迹 - 需要验证生成数据的可执行性 - 需要确保格式统一性 --- --- 目标:区分function call和普通对话 技术实现: 示例: --- 目标:验证查询是否可用给定工具解决 核心逻辑: 典型Case: Case 1: 通过 Case ...

Read More
FunReason 核心技术深度剖析
2025-10-22

FunReason 核心技术深度剖析

--- - 用GPT-4o生成的CoT可能包含策略痕迹 - 需要验证生成数据的可执行性 - 需要确保格式统一性 --- --- 目标:区分function call和普通对话 技术实现: 示例: --- 目标:验证查询是否可用给定工具解决 核心逻辑: 典型Case: Case 1: 通过 Case ...

Read More
论文笔记: Your LLM Knows the Future
2025-10-11

论文笔记: Your LLM Knows the Future

一份关于通过掩码标记(Mask Tokens)解锁LLM多词元并行预测潜力的论文笔记,着重分析了其实现机制与关键创新。

LLM Inference Acceleration Speculative Decoding LoRA
Read More
WISE: 基于侧记忆的终身模型编辑方法
2025-10-11

WISE: 基于侧记忆的终身模型编辑方法

在特定FNN层中,编辑双参数层,类似分离lora结果层和原层,实现对记忆机制(主记忆+侧记忆)和激活驱动路由

Model Editing Memory Architecture LLM Parameter Isolation
Read More
K-ON Stacking Knowledge On the Head Layer of Large Language Model
2025-10-09

K-ON Stacking Knowledge On the Head Layer of Large Language Model

K-ON仅适用于封闭实体集的benchmark评测,实际应用价值远不如GraphRAG等动态方案

KG Completion Critical Review LM_HEAD Add Specific Area CJB
Read More
H2HTALK 论文精要笔记
2025-10-09

H2HTALK 论文精要笔记

对论文《H2HTALK: Evaluating Large Language Models as Emotional Companion》的核心内容提炼,着重解析其创建的H2HTALK基准数据集,用于快速回顾和掌握关键创新。

Benchmark LLM Evaluation Emotional Intelligence AI Companion
Read More
MemLLM: Finetuning LLMs to Use Explicit Read-Write Memory
2025-10-08

MemLLM: Finetuning LLMs to Use Explicit Read-Write Memory

对MemLLM论文的精炼分析报告,该工作通过微调教会LLM使用一个可读写的外部结构化记忆库,以解决知识更新、幻觉等核心问题。

LLM Memory Finetuning Read-Write LLM Mode Learning
Read More
GKG-LLM 论文解析报告
2025-10-08

GKG-LLM 论文解析报告

GKG-LLM 通过在大量 文本-三元组 数据集上(不同推理关系的三元组)微调,让LLM学会从文本中output出三元组的能力。

LLM KG finetune LLM Mode Leaning
Read More
MemOS: 参数化记忆管理的系统级创新
2025-10-05

MemOS: 参数化记忆管理的系统级创新

深度解读MemOS中参数化记忆的管理策略,涵盖轻量级更新、编辑技术、跨类型转换及应用场景

LLM Memory Management Parameter Memory MemOS
Read More
GL-Fusion: Rethinking GNN-LLM Integration
2025-10-03

GL-Fusion: Rethinking GNN-LLM Integration

深度融合GNN和LLM的创新架构,通过Structure-Aware Transformers、Graph-Text Cross-Attention和Twin Predictor实现图结构与文本语义的协同建模

GNN LLM Graph-Learning
Read More
HippoRAG 2: Baselines & Benchmarks 深度解析
2025-10-03

HippoRAG 2: Baselines & Benchmarks 深度解析

对 NeurIPS 2025 论文 HippoRAG 2 的 baselines 和 benchmarks 进行深度解析,揭示现有 RAG 系统在三类记忆任务上的表现差异

RAG Benchmark Baseline Memory NeurIPS2025
Read More
MemoryLLM Towards Self-Updatable Large Language Models
2025-10-03

MemoryLLM Towards Self-Updatable Large Language Models

在input进入transformer块之前,添加一个memory pool,将input tensor维度增加,作为记忆,每次推理对这个memory pool随机增加和删减,实现记忆的动态注入和遗忘

LLM Memory Memory Continuous Learning Parametric Memory Infer update memory
Read More
Memory Decoder: 参数化检索的领域适应新范式
2025-10-02

Memory Decoder: 参数化检索的领域适应新范式

将检索知识蒸馏到小型模型中,实现跨模型的即插即用领域适应

LLM Domain Adaptation RAG kNN-LM Memory
Read More
LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners
2025-09-26

LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners

测试LLM In-context Learning能力的评估框架,而非真正的Lifelong能力

命名夸大 评估框架 工具调用 In-Context Learning Agent
Read More
RAISE Agent: From LLM to Conversational Agent
2025-09-26

RAISE Agent: From LLM to Conversational Agent

ReAct + Context工程的记忆增强架构,展示微调在Agent领域的蒸馏学习价值

传统方法 上下文工程 蒸馏学习 ReAct 对话系统
Read More
Continual Fine-Tuning for Multilingual LLMs
2025-09-26

Continual Fine-Tuning for Multilingual LLMs

日期: 2025-9-26 链接: ArXiv keywords: 指标创新 多语言 方法过时 方法论价值:相似度度量指标和层冻结实验的参考价值 当Phase 1和Phase 2数据集编码相似任务时,任务能力不退化 - Heuristic Layer Freezing: 冻结Base→Phase1变...

Continual Learning LLM Multilingual fine-tune
Read More
LifeSpan Cognitive Systems(LSCS)
2025-09-26

LifeSpan Cognitive Systems(LSCS)

对LLM记忆研究作了深入浅出的分析报告,提出一个LifeSpan

Review Memory Excellent
Read More
SELF-PARAM: Self-Updatable Large Language Models
2025-09-26

SELF-PARAM: Self-Updatable Large Language Models

基于KL散度的知识注入方案,让LLM不需要上文即可给出对应答案,但存在过拟合风险

参数化记忆 KL散度 过拟合风险 知识污染 微调 蒸馏学习
Read More
Large Scale Knowledge Washing: 大规模语言模型知识清洗
2025-01-15

Large Scale Knowledge Washing: 大规模语言模型知识清洗

通过修改Transformer MLP层权重实现大规模敏感知识删除,同时保持模型推理能力

LLM 知识遗忘 模型编辑 隐私保护 机器学习安全 MLP层操作
Read More
Qwen3架构深度解析:从Base模型到Instruct模型
2025-01-01

Qwen3架构深度解析:从Base模型到Instruct模型

全面解析Qwen3模型架构、参数配置、动态序列处理和后训练数据格式

LLM Qwen3 Transformer Architecture Fine-tuning SFT
Read More