ARXIV··重点
研究人员提出了TuneJury,一个开源的实例级成对奖励模型,用于文本到音乐生成,根据文本提示和音频片段预测音乐偏好评分。模型使用公开的人类偏好数据训练,包括竞技场式投票、度量对齐偏好对、众包成对比较和专家美学评分。在留出测试集上得分差值校准良好,可通过简单阈值进行数据过滤,并能泛化至分布外基准。针对训练后新发布的生成器,论文提出锚定校准,一种无需重新训练即可高效恢复一致性的后验Bradley-Terry校准方法。使用该固定的奖励模型,TuneJury在三个下游任务中带来稳定收益:推理时best-of-N选择、DITTO风格潜在优化和专家迭代后训练。模型已在GitHub上开源。
ARXIV··重点
ActiveSAM 是一个无需训练、零样本的推理框架,通过低分辨率存在预览将 SAM 3 的全量词汇剪枝为图像条件的活跃子集,仅对保留类别进行高分辨率解码,利用冻结的 SAM 3 解码器完成开放词汇语义分割。在八个 OVSS 基准上,ActiveSAM 平均 mIoU 超过先前领先的 SegEarth-OV3 约 1.4 分,同时在大词汇数据集上速度提升高达 5.5 倍。该方法无需目标数据集训练、权重更新或真实类别标签,并在模拟真实分布偏移的图像损坏下表现出最强鲁棒性,适合自动驾驶等噪声输入场景。代码已开源。
ARXIV··重点
该论文提出一个多中心基准,仅利用平扫CT进行多器官腹部疾病诊断和自动化放射报告生成,旨在避免造影剂相关风险。研究收集了来自两个中心的配对平扫-增强CT数据集及相应报告,划分为内部和外部验证队列。在统一评估协议下,对五种当代深度学习架构(涵盖胸部专用、腹部专用和通用多模态模型)进行了基准测试。基于平扫CT的模型在内部队列上平均多器官AUC为69.1%,外部队列为63.1%,表明平扫CT保留了诊断信号。作者公开了数据集、代码和基准,以促进安全、资源高效的无造影腹部影像研究。
ARXIV··重点
论文提出了AdaSR自适应流式推理框架,使大语言模型能在连续输入流中推理,并在流结束后进行最终深思,学会何时思考及分配多少计算量。为优化这一分层过程,作者引入了分层相对策略优化(HRPO),将策略优化分解为流式推理与深度推理两个阶段,提供细粒度优势分配,并融合格式、准确性与自适应思考奖励。实验表明,相较于监督微调基线,AdaSR在推理准确性、计算效率和流式延迟之间取得了更好的平衡。相关代码已公开。
ARXIV··重点
本文提出EurekAgent,一个面向指标驱动的自主科学发现的环境工程化智能体系统。作者指出,关键瓶颈正从设计智能体工作流转向工程化智能体所处的环境,以放大有益行为(如开放式探索、系统化物件管理、智能体协作)并抑制有害行为(如奖励作弊、高摩擦人工监督)。EurekAgent从四个维度进行环境工程:权限工程实现有界执行与隔离评估,工件工程实现文件系统与Git协作,预算工程实现预算感知探索,以及人在回路工程便于人类监督与干预。该系统在多个数学、内核工程和机器学习任务上取得新的最先进结果,包括以不到11美元总API成本发现的一个新的26圆堆叠结果。作者已将代码与结果开源,并倡议将环境工程作为可靠自主科研智能体的核心研究方向。
ARXIV··重点
本文提出SkMTEB,首个斯洛伐克语综合性MTEB风格文本嵌入基准,包含31个数据集和7种任务类型。对31个嵌入模型的评测表明,大型指令微调多语言模型表现最佳,而现有的斯洛伐克语NLU模型在嵌入任务上迁移效果差。作者通过词汇裁剪和微调Multilingual E5模型,开发了e5-sk-small(45M参数)和e5-sk-large(365M参数)。尽管模型尺寸减少高达62%,但开源模型性能可媲美商业API,并适用于语义搜索和RAG的本地部署。研究公开了基准、模型、数据及代码,为其他资源匮乏语言提供了可复现的路径。