AI 信息流

ARXIV2026年6月16日重点

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

该论文提出VERITAS框架，一种用于通用机器人策略的生成器-验证器架构。它将预训练的机器人策略（生成器）与无需梯度的视觉验证器配对，在推理时评估动作，无需额外训练即可引导策略行为。验证后的运行轨迹随后用于离线微调，带来稳定的性能提升。该方法达到了与专家演示相当的效率，但无需人工干预，凸显推理时验证是真实部署中可扩展的自主改进手段。

ARXIV2026年6月16日重点

Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

本文提出最近发展区策略优化（ZPPO），将强教师置于提示而非策略梯度中，避免学生采样全部失败时注入教师响应导致的偏离。针对难题，ZPPO构造两种重述提示：二元候选包含式问句（BCQ）将一条正确教师回答与一条错误学生回答匿名配对供学生判别，负面候选包含式问句（NCQ）聚合学生的错误采样以暴露共性失败模式。提示重放缓冲区循环推送每道难题，直至学生平均准确率达到0.5或被淘汰，聚焦当前最近发展区。在Qwen3.5系列四个规模（0.8B–9B）的学生模型上，以27B教师进行多模态后训练，并在31个基准（16项VLM、10项LLM、5项视频）上评估，ZPPO全面超越离/在线蒸馏和GRPO，最小规模增益最为显著。

X2026年6月16日重点

DecagonAI 借助 Together AI 微调开源模型，将语音智能体单轮成本降低近 6 倍

DecagonAI 通过从闭源模型转向在 Together AI 上微调的开源模型，将语音智能体单轮成本降低近 6 倍。他们通过自定义推测解码、提示缓存和在 NVIDIA Blackwell GPU 上的优化服务，将每轮端到端模型延迟（p95）控制在 400 毫秒以内，足以支撑实时语音交互。该公司每周甚至每天部署新模型，展现出快速的迭代能力和对技术栈的完全掌控，摆脱了专有 API 的锁定。

ARXIV2026年6月16日重点

Learning from the Self-future: On-policy Self-distillation for dLLMs

该论文提出d-OPSD，首个专为扩散大语言模型（dLLM）设计的在线策略自蒸馏框架。它将自回归式的前缀条件替换为后缀条件，让学生模型从“自我未来经验”中学习；并将监督信号从token级提升到步级，对齐dLLM的迭代去噪过程。在四项推理基准上，d-OPSD始终优于RLVR和SFT基线，且仅需RLVR约10%的优化步数，展现出优异的样本效率。代码已在GitHub开源。

ARXIV2026年6月16日

Multi-Source Cybersecurity Logs: An ATT&CK-Labeled Dataset and SLM Evaluation

该论文发布了一个新数据集，整合了系统、网络和浏览器日志，包含870个会话（70个攻击，800个正常）约230万条事件。所有恶意事件均标注了MITRE ATT&CK技术ID，覆盖12类战术、53项技术，攻击数据使用真实的远程访问木马、C2隧道和云外泄工具生成。作者用LoRA微调了三个小语言模型（Qwen2.5-1.5B、Llama-3.2-3B、Phi-4-Mini），并在日志块分类和ATT&CK技术识别任务上评估。微调使块分类准确率从基线的约8%升至90–97%；技术识别仍具挑战，最佳精确匹配仅42%，但高部分匹配分数表明模型捕获了大部分推理过程。

LEIPHONE2026年6月16日

腾讯犀牛鸟精英人才计划发布三篇ICML 2026入选论文：高效蒸馏、长上下文推理与稀疏视角视频生成

腾讯犀牛鸟精英人才计划发布了三篇被ICML 2026录用的论文。第一篇《Hybrid Policy Distillation for LLMs》提出融合正向与反向KL散度及在/离策略数据的混合策略蒸馏（HPD），在数学推理、对话和代码生成等任务上一致提升了LLM蒸馏的优化稳定性、计算效率与最终性能。第二篇《Many-Shot CoT-ICL》研究推理任务中大量思维链示例的上下文学习，发现基于相似度的检索失效，并提出按概念递进排序示例的CDS方法，使数学和叙事推理平均提升3.81%。第三篇《CamGeo》通过关键帧轨迹蒸馏和跨帧一致性蒸馏将3D几何先验注入扩散主干，并采用三阶段课程学习，在稀疏相机约束的图像到视频生成中取得了稳定的性能提升。

过滤噪音，保留 AI 信号。

Visual Verification Enables Inference-time Steering and Autonomous Policy Improvement

Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

DecagonAI 借助 Together AI 微调开源模型，将语音智能体单轮成本降低近 6 倍

Learning from the Self-future: On-policy Self-distillation for dLLMs

Multi-Source Cybersecurity Logs: An ATT&CK-Labeled Dataset and SLM Evaluation

腾讯犀牛鸟精英人才计划发布三篇ICML 2026入选论文：高效蒸馏、长上下文推理与稀疏视角视频生成