ARXIV · 2026年6月16日 · 重点
该论文提出VERITAS框架,一种用于通用机器人策略的生成器-验证器架构。它将预训练的机器人策略(生成器)与无需梯度的视觉验证器配对,在推理时评估动作,无需额外训练即可引导策略行为。验证后的运行轨迹随后用于离线微调,带来稳定的性能提升。该方法达到了与专家演示相当的效率,但无需人工干预,凸显推理时验证是真实部署中可扩展的自主改进手段。
ARXIV · 2026年6月16日 · 重点
本文提出最近发展区策略优化(ZPPO),将强教师置于提示而非策略梯度中,避免学生采样全部失败时注入教师响应导致的偏离。针对难题,ZPPO构造两种重述提示:二元候选包含式问句(BCQ)将一条正确教师回答与一条错误学生回答匿名配对供学生判别,负面候选包含式问句(NCQ)聚合学生的错误采样以暴露共性失败模式。提示重放缓冲区循环推送每道难题,直至学生平均准确率达到0.5或被淘汰,聚焦当前最近发展区。在Qwen3.5系列四个规模(0.8B–9B)的学生模型上,以27B教师进行多模态后训练,并在31个基准(16项VLM、10项LLM、5项视频)上评估,ZPPO全面超越离/在线蒸馏和GRPO,最小规模增益最为显著。
X · 2026年6月16日 · 重点
DecagonAI 通过从闭源模型转向在 Together AI 上微调的开源模型,将语音智能体单轮成本降低近 6 倍。他们通过自定义推测解码、提示缓存和在 NVIDIA Blackwell GPU 上的优化服务,将每轮端到端模型延迟(p95)控制在 400 毫秒以内,足以支撑实时语音交互。该公司每周甚至每天部署新模型,展现出快速的迭代能力和对技术栈的完全掌控,摆脱了专有 API 的锁定。
ARXIV · 2026年6月16日 · 重点
该论文提出d-OPSD,首个专为扩散大语言模型(dLLM)设计的在线策略自蒸馏框架。它将自回归式的前缀条件替换为后缀条件,让学生模型从“自我未来经验”中学习;并将监督信号从token级提升到步级,对齐dLLM的迭代去噪过程。在四项推理基准上,d-OPSD始终优于RLVR和SFT基线,且仅需RLVR约10%的优化步数,展现出优异的样本效率。代码已在GitHub开源。
ARXIV · 2026年6月16日
该论文发布了一个新数据集,整合了系统、网络和浏览器日志,包含870个会话(70个攻击,800个正常)约230万条事件。所有恶意事件均标注了MITRE ATT&CK技术ID,覆盖12类战术、53项技术,攻击数据使用真实的远程访问木马、C2隧道和云外泄工具生成。作者用LoRA微调了三个小语言模型(Qwen2.5-1.5B、Llama-3.2-3B、Phi-4-Mini),并在日志块分类和ATT&CK技术识别任务上评估。微调使块分类准确率从基线的约8%升至90–97%;技术识别仍具挑战,最佳精确匹配仅42%,但高部分匹配分数表明模型捕获了大部分推理过程。
LEIPHONE · 2026年6月16日
腾讯犀牛鸟精英人才计划发布了三篇被ICML 2026录用的论文。第一篇《Hybrid Policy Distillation for LLMs》提出融合正向与反向KL散度及在/离策略数据的混合策略蒸馏(HPD),在数学推理、对话和代码生成等任务上一致提升了LLM蒸馏的优化稳定性、计算效率与最终性能。第二篇《Many-Shot CoT-ICL》研究推理任务中大量思维链示例的上下文学习,发现基于相似度的检索失效,并提出按概念递进排序示例的CDS方法,使数学和叙事推理平均提升3.81%。第三篇《CamGeo》通过关键帧轨迹蒸馏和跨帧一致性蒸馏将3D几何先验注入扩散主干,并采用三阶段课程学习,在稀疏相机约束的图像到视频生成中取得了稳定的性能提升。