Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

11 条内容

ARXIV2026年6月15日重点

TuneJury: An Open Metric for Improving Music Generation Preference Alignment

研究人员提出了TuneJury，一个开源的实例级成对奖励模型，用于文本到音乐生成，根据文本提示和音频片段预测音乐偏好评分。模型使用公开的人类偏好数据训练，包括竞技场式投票、度量对齐偏好对、众包成对比较和专家美学评分。在留出测试集上得分差值校准良好，可通过简单阈值进行数据过滤，并能泛化至分布外基准。针对训练后新发布的生成器，论文提出锚定校准，一种无需重新训练即可高效恢复一致性的后验Bradley-Terry校准方法。使用该固定的奖励模型，TuneJury在三个下游任务中带来稳定收益：推理时best-of-N选择、DITTO风格潜在优化和专家迭代后训练。模型已在GitHub上开源。

ARXIV2026年6月15日重点

ActiveSAM: Image-Conditional Class Pruning for Fast and Accurate Open-Vocabulary Segmentation

ActiveSAM 是一个无需训练、零样本的推理框架，通过低分辨率存在预览将 SAM 3 的全量词汇剪枝为图像条件的活跃子集，仅对保留类别进行高分辨率解码，利用冻结的 SAM 3 解码器完成开放词汇语义分割。在八个 OVSS 基准上，ActiveSAM 平均 mIoU 超过先前领先的 SegEarth-OV3 约 1.4 分，同时在大词汇数据集上速度提升高达 5.5 倍。该方法无需目标数据集训练、权重更新或真实类别标签，并在模拟真实分布偏移的图像损坏下表现出最强鲁棒性，适合自动驾驶等噪声输入场景。代码已开源。

ARXIV2026年6月15日重点

A Multi-Center Benchmark for Abdominal Disease Diagnosis and Report Generation from Non-Contrast CT

该论文提出一个多中心基准，仅利用平扫CT进行多器官腹部疾病诊断和自动化放射报告生成，旨在避免造影剂相关风险。研究收集了来自两个中心的配对平扫-增强CT数据集及相应报告，划分为内部和外部验证队列。在统一评估协议下，对五种当代深度学习架构（涵盖胸部专用、腹部专用和通用多模态模型）进行了基准测试。基于平扫CT的模型在内部队列上平均多器官AUC为69.1%，外部队列为63.1%，表明平扫CT保留了诊断信号。作者公开了数据集、代码和基准，以促进安全、资源高效的无造影腹部影像研究。

ARXIV2026年6月12日重点

AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

论文提出了AdaSR自适应流式推理框架，使大语言模型能在连续输入流中推理，并在流结束后进行最终深思，学会何时思考及分配多少计算量。为优化这一分层过程，作者引入了分层相对策略优化（HRPO），将策略优化分解为流式推理与深度推理两个阶段，提供细粒度优势分配，并融合格式、准确性与自适应思考奖励。实验表明，相较于监督微调基线，AdaSR在推理准确性、计算效率和流式延迟之间取得了更好的平衡。相关代码已公开。

ARXIV2026年6月11日重点

EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery

本文提出EurekAgent，一个面向指标驱动的自主科学发现的环境工程化智能体系统。作者指出，关键瓶颈正从设计智能体工作流转向工程化智能体所处的环境，以放大有益行为（如开放式探索、系统化物件管理、智能体协作）并抑制有害行为（如奖励作弊、高摩擦人工监督）。EurekAgent从四个维度进行环境工程：权限工程实现有界执行与隔离评估，工件工程实现文件系统与Git协作，预算工程实现预算感知探索，以及人在回路工程便于人类监督与干预。该系统在多个数学、内核工程和机器学习任务上取得新的最先进结果，包括以不到11美元总API成本发现的一个新的26圆堆叠结果。作者已将代码与结果开源，并倡议将环境工程作为可靠自主科研智能体的核心研究方向。

ARXIV2026年6月11日重点

SkMTEB: Slovak Massive Text Embedding Benchmark and Model Adaptation

本文提出SkMTEB，首个斯洛伐克语综合性MTEB风格文本嵌入基准，包含31个数据集和7种任务类型。对31个嵌入模型的评测表明，大型指令微调多语言模型表现最佳，而现有的斯洛伐克语NLU模型在嵌入任务上迁移效果差。作者通过词汇裁剪和微调Multilingual E5模型，开发了e5-sk-small（45M参数）和e5-sk-large（365M参数）。尽管模型尺寸减少高达62%，但开源模型性能可媲美商业API，并适用于语义搜索和RAG的本地部署。研究公开了基准、模型、数据及代码，为其他资源匮乏语言提供了可复现的路径。