Continual Fine-Tuning for Multilingual LLMs

Continual Fine-Tuning for Multilingual LLMs

日期: 2025-9-26 链接: ArXiv keywords: 指标创新 多语言 方法过时 方法论价值:相似度度量指标和层冻结实验的参考价值 当Phase 1和Phase 2数据集编码相似任务时,任务能力不退化 - Heuristic Layer Freezing: 冻结Base→Phase1变...

日期: 2025-9-26
链接: ArXiv
keywords: 指标创新 多语言 方法过时

核心观点

方法论价值:相似度度量指标和层冻结实验的参考价值

核心发现

关键观察

当Phase 1和Phase 2数据集编码相似任务时,任务能力不退化

对比案例

• Alpaca→MultiAlpaca:任务能力保持甚至提升
• Instruct→MultiAlpaca:任务能力显著退化(0.529→0.390)

相似度量化工具(核心贡献)

DES (Dataset Embedding Similarity)

# DES(D1, D2) = ⟨E_Θ(D1), E_Θ(D2)⟩
# 使用LaBSE计算归一化平均嵌入点积
# 示例结果:
# Alpaca-MultiAlpaca: 0.924 (高相似)
# Alpaca-mOpenOrca: 0.792 (低相似)

MPD (Model Parameter Difference)

# MPD(Θ1, Θ2) = 1/n Σ ||w(Θ1,i) - w(Θ2,i)||_2
# 量化参数空间的表示漂移
# 越小表示模型在参数空间越接近

缓解策略对比

方法对比

  • Heuristic Layer Freezing: 冻结Base→Phase1变化最大的层
  • Generative Replay: 用Phase 1模型生成对应数据,混合比例5%-10%

技术评估

✅ 方法论价值

  • 提供了量化数据集相似性的工具
  • 验证了任务相似性与遗忘关系的假设
  • 层冻结实验具有参考价值

⚠️ 主要局限

  • 缓解方法相对简单
  • 缺乏系统性的理论框架
  • 实验规模有限

应用价值

实用工具

  • DES指标可用于评估数据集兼容性
  • MPD指标可监控模型训练漂移
  • 为持续学习提供量化基准

设计指导

  • 数据集选择的相似性考量
  • 渐进式训练策略的设计参考
  • 多语言模型训练的最佳实践

后续研究方向

  • 扩展到更大规模模型
  • 探索更复杂的相似度度量
  • 结合其他持续学习技术

Thanks for Reading

If this article was helpful to you, feel free to connect with me!