ARXIV··重点
该论文推导了线性高斯逆问题在一般高斯插值下的闭式精确后验评分,将后验采样简化为在算子相关偏移锚点及各向异性噪声协方差下的去噪问题。精确后验评分(EPS)方法定义了一个与标准预训练结构一致的去噪训练目标,支持从头训练或微调预训练去噪器。推理时,EPS直接使用骨干采样器,无需似然梯度或投影。在FFHQ和ImageNet上的五种线性逆任务评估中,EPS在保真度、感知和分布指标上均优于无训练和基于训练的基线,同时去噪器评估次数比基于梯度的后验采样器减少约一个数量级。
ARXIV··重点
KVEraser 是一种学习型方法,用于长上下文大模型的后验上下文擦除,避免全量重计算。它仅将被擦除片段对应的 KV 状态替换为学习到的引导值,其余缓存保持不变。该方法采用两阶段训练:先通过通用跨度邻域抑制预训练,再针对下游任务微调。在 1K 至 32K 上下文长度的域内任务上,KVEraser 的擦除后性能几乎与全量重计算持平,但延迟仅增加 24%,而全量重计算增加 17.6 倍。该方法还可泛化到未见过的长文档问答任务(含误导性事实干扰项),在近似基线中表现最佳,且比全量重计算快 3–4 倍。
ARXIV··重点
本文提出TokenPilot,一个面向长时LLM智能体的双粒度上下文管理框架,在保持提示缓存连续性的同时降低token占用。它包含一套全局的摄入感知压缩机制以稳定前缀并滤除环境噪声,以及一套局部的生命周期感知驱逐策略,仅在任务相关性失效时清理内容段。在PinchBench和Claw-Eval基准上,TokenPilot在隔离模式下分别将成本降低了61%和56%,在连续模式下降低61%和87%,且性能与先前系统相当。该方法已集成至开源库LightMem2。
ARXIV··重点
ActiveSAM 是一个无需训练、零样本的推理框架,通过低分辨率存在预览将 SAM 3 的全量词汇剪枝为图像条件的活跃子集,仅对保留类别进行高分辨率解码,利用冻结的 SAM 3 解码器完成开放词汇语义分割。在八个 OVSS 基准上,ActiveSAM 平均 mIoU 超过先前领先的 SegEarth-OV3 约 1.4 分,同时在大词汇数据集上速度提升高达 5.5 倍。该方法无需目标数据集训练、权重更新或真实类别标签,并在模拟真实分布偏移的图像损坏下表现出最强鲁棒性,适合自动驾驶等噪声输入场景。代码已开源。
ARXIV··重点
研究人员在视觉语言模型中发现了名为“gaze heads”的机制:语言模型主干中的一小部分注意力头,其注意力模式会精确跟踪模型正在描述的图像区域。他们以连环画作为受控测试场景,通过少量前向传递的简单相关性得分识别出这些头。对前100个gaze heads(不到总头数的9%)施加单次注意力掩码干预,可以迫使模型以83.1%的准确率描述选定的漫画面板,而随机头的同类干预无效,干预全部头则破坏生成。此控制效果可泛化到自然COCO图像,在2B到32B参数规模的多个模型架构上均成立,但某些冻结编码器类的模型则无类似头组。研究表明,基于机制分析的目标编辑无需重新训练即可作为实用的推理时控制杠杆,项目已开源代码、演示和数据集。
ARXIV··重点
论文提出了AdaSR自适应流式推理框架,使大语言模型能在连续输入流中推理,并在流结束后进行最终深思,学会何时思考及分配多少计算量。为优化这一分层过程,作者引入了分层相对策略优化(HRPO),将策略优化分解为流式推理与深度推理两个阶段,提供细粒度优势分配,并融合格式、准确性与自适应思考奖励。实验表明,相较于监督微调基线,AdaSR在推理准确性、计算效率和流式延迟之间取得了更好的平衡。相关代码已公开。