论文来源: ARXIV重要度: 4/5
本文提出检索增强的强化微调(RA-RFT),一种教授语言模型通过类比进行推理的后训练框架。它首先通过金标准相关性蒸馏训练一个推理感知的检索器,使上下文按预期推理收益而非语义相似度排序。然后使用检索到的类比演示,在可验证的结果奖励下对策略模型进行强化学习微调,使其学会利用推理轨迹。分析表明,推理感知检索能挖掘互补的解题策略,为不同问题提供独特的推理支架。在AIME 2025基准上,RA-RFT在平均@32准确率上较GRPO为Qwen3-1.7B和Qwen3-4B分别提升了7.1和2.8个百分点,表明推理感知检索是与奖励设计或训练课程正交的改进维度。
论文来源: ARXIV重要度: 3/5
该论文分析了结合同策略学生轨迹与密集教师监督的后训练方法——同策略蒸馏(OPD)。研究发现OPD式更新幅度小且坐标稀疏,分布在各层且以前馈网络(FFN)为主;仅训练发现的稀疏子网络即可几乎恢复完整OPD的性能。但诱导稀疏性的SGD优化器表现不及AdamW,因为密集监督保留了异质的坐标级梯度尺度,而AdamW的自适应缩放仍有用。几何上,更新在数值上满秩但谱集中于少数方向,且远离源权重的主奇异子空间,更多地落在源权重接近零的坐标上。结果表明OPD保留了同策略后训练的几何特征,而非普通密集参数重写。
论文来源: ARXIV重要度: 4/5
本文提出SkMTEB,首个斯洛伐克语综合性MTEB风格文本嵌入基准,包含31个数据集和7种任务类型。对31个嵌入模型的评测表明,大型指令微调多语言模型表现最佳,而现有的斯洛伐克语NLU模型在嵌入任务上迁移效果差。作者通过词汇裁剪和微调Multilingual E5模型,开发了e5-sk-small(45M参数)和e5-sk-large(365M参数)。尽管模型尺寸减少高达62%,但开源模型性能可媲美商业API,并适用于语义搜索和RAG的本地部署。研究公开了基准、模型、数据及代码,为其他资源匮乏语言提供了可复现的路径。
论文来源: ARXIV重要度: 3/5
本文提出RACES框架,将可验证环境视为可组合的构建块,当输入输出类型匹配时自动融合为新的训练环境。基于300个基础环境和一组组合算子(顺序、并行、排序、选择),在复合环境上的强化学习训练可稳定提升推理泛化能力。在六个未见过的基准上,DeepSeek-R1-Distill-Qwen-14B平均提升3.1分(48.2→51.3),Qwen3-14B提升2.3分(58.8→61.1)。仅用50个基础环境就达到了与使用全部300个相当的性能,展示了高效的环境扩展。
论文来源: ARXIV重要度: 4/5
该论文提出一种数据中心的后训练流程,利用可解释性协议分析偏好数据集,揭示区分喜欢与不喜欢输出的潜在概念,并使之显式化以供用户反馈。该方法能诊断出过度风格化、迎合等不良信号,并通过概念层面的干预减轻非目标学习。它统一了多种基于可解释性的训练协议,将其视为通过特征或数据干预塑造奖励的方式。实验表明,该方法能增强安全保护、模型个性等期望属性,将不透明的标量奖励优化转变为可审计的训练信号雕刻过程。
论文来源: ARXIV