在策略蒸馏的几何结构研究
本文分析了在策略蒸馏(OPD)用于大语言模型的训练动力学。OPD更新在松弛的非主模式状态下运行,影响较少的权重并避开主方向,与监督微调(SFT)不同。该方法通过训练早期进入狭窄的低维通道表现出子空间锁定;保留此更新子空间可维持OPD性能,而SFT则会显著下降。稀疏化更新token并将rollout生成移至策略外不会破坏秩动态,但混入强化学习会改变更新几何。这些发现确立了OPD作为一种几何上截然不同的训练范式。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
4 条内容
本文分析了在策略蒸馏(OPD)用于大语言模型的训练动力学。OPD更新在松弛的非主模式状态下运行,影响较少的权重并避开主方向,与监督微调(SFT)不同。该方法通过训练早期进入狭窄的低维通道表现出子空间锁定;保留此更新子空间可维持OPD性能,而SFT则会显著下降。稀疏化更新token并将rollout生成移至策略外不会破坏秩动态,但混入强化学习会改变更新几何。这些发现确立了OPD作为一种几何上截然不同的训练范式。
Code2LoRA是一个基于Qwen2.5-Coder-32B-Instruct的超网络框架,能为代码语言模型生成特定仓库的LoRA适配器,且推理时不增加token开销。该框架支持静态代码库的静态适配和活跃变化代码库的演进适配,可注入导入、API及项目约定等仓库上下文。在包含604个Python仓库的RepoPeftBench基准上,其静态与演进两个任务均取得高准确率,优于传统微调方法。代码、模型检查点及数据集均已公开。
本文提出一种强化学习方法,通过让大语言模型利用上下文语言知识而非记忆来翻译未见过语言。此前的方法如持续预训练或注入语法书易过拟合且迁移能力差。以表面翻译质量指标为奖励,强化学习训练的模型表现优于上下文学习和监督微调。这表明强化学习能培养低资源翻译的元学习能力,将其应用从推理扩展到语言翻译。
提出信任区域在策略蒸馏(TrOPD),针对大语言模型在策略蒸馏中因师生分布差异导致的策略梯度不稳定问题。TrOPD引入信任区域约束、离群点估计进行令牌级信用分配,并结合离策略指导增强优化稳定性。在数学推理、代码生成和通用领域基准测试中,TrOPD均显著超越现有在策略蒸馏基线方法。