Infogap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

第 1 / 3 页

筛选

论文来源: ARXIV2026年6月12日重要度: 4/5

本文提出检索增强的强化微调（RA-RFT），一种教授语言模型通过类比进行推理的后训练框架。它首先通过金标准相关性蒸馏训练一个推理感知的检索器，使上下文按预期推理收益而非语义相似度排序。然后使用检索到的类比演示，在可验证的结果奖励下对策略模型进行强化学习微调，使其学会利用推理轨迹。分析表明，推理感知检索能挖掘互补的解题策略，为不同问题提供独特的推理支架。在AIME 2025基准上，RA-RFT在平均@32准确率上较GRPO为Qwen3-1.7B和Qwen3-4B分别提升了7.1和2.8个百分点，表明推理感知检索是与奖励设计或训练课程正交的改进维度。

论文来源: ARXIV2026年6月12日重要度: 3/5

该论文分析了结合同策略学生轨迹与密集教师监督的后训练方法——同策略蒸馏（OPD）。研究发现OPD式更新幅度小且坐标稀疏，分布在各层且以前馈网络（FFN）为主；仅训练发现的稀疏子网络即可几乎恢复完整OPD的性能。但诱导稀疏性的SGD优化器表现不及AdamW，因为密集监督保留了异质的坐标级梯度尺度，而AdamW的自适应缩放仍有用。几何上，更新在数值上满秩但谱集中于少数方向，且远离源权重的主奇异子空间，更多地落在源权重接近零的坐标上。结果表明OPD保留了同策略后训练的几何特征，而非普通密集参数重写。

论文来源: ARXIV2026年6月12日重要度: 4/5

本文提出SkMTEB，首个斯洛伐克语综合性MTEB风格文本嵌入基准，包含31个数据集和7种任务类型。对31个嵌入模型的评测表明，大型指令微调多语言模型表现最佳，而现有的斯洛伐克语NLU模型在嵌入任务上迁移效果差。作者通过词汇裁剪和微调Multilingual E5模型，开发了e5-sk-small（45M参数）和e5-sk-large（365M参数）。尽管模型尺寸减少高达62%，但开源模型性能可媲美商业API，并适用于语义搜索和RAG的本地部署。研究公开了基准、模型、数据及代码，为其他资源匮乏语言提供了可复现的路径。

论文来源: ARXIV2026年6月11日重要度: 3/5

本文提出RACES框架，将可验证环境视为可组合的构建块，当输入输出类型匹配时自动融合为新的训练环境。基于300个基础环境和一组组合算子（顺序、并行、排序、选择），在复合环境上的强化学习训练可稳定提升推理泛化能力。在六个未见过的基准上，DeepSeek-R1-Distill-Qwen-14B平均提升3.1分（48.2→51.3），Qwen3-14B提升2.3分（58.8→61.1）。仅用50个基础环境就达到了与使用全部300个相当的性能，展示了高效的环境扩展。

论文来源: ARXIV2026年6月11日重要度: 4/5

该论文提出一种数据中心的后训练流程，利用可解释性协议分析偏好数据集，揭示区分喜欢与不喜欢输出的潜在概念，并使之显式化以供用户反馈。该方法能诊断出过度风格化、迎合等不良信号，并通过概念层面的干预减轻非目标学习。它统一了多种基于可解释性的训练协议，将其视为通过特征或数据干预塑造奖励的方式。实验表明，该方法能增强安全保护、模型个性等期望属性，将不透明的标量奖励优化转变为可审计的训练信号雕刻过程。

论文来源: ARXIV

过滤噪音，保留 AI 信号。

筛选

A Unifying Lens on Supervised Fine-Tuning Through Target Distribution Design