该论文提出了一个统计框架,用于在科学研究中使用合成数据,并提供可证明的有效性保证。关键思路是引入了一个新的技术条件——任务可交换性,要求当前任务与有真实数据的历史任务在适当的数学意义下可交换。作者发展了在任务可交换性下的有效推断方法,并提供了超出可交换性的扩展保证。该框架在基于大语言模型生成硅样本的民意调查和基于自动评分器的AI评估上进行了演示,解决了合成数据中偏差、噪声和误设的根本担忧。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 3 页
该论文提出了一个统计框架,用于在科学研究中使用合成数据,并提供可证明的有效性保证。关键思路是引入了一个新的技术条件——任务可交换性,要求当前任务与有真实数据的历史任务在适当的数学意义下可交换。作者发展了在任务可交换性下的有效推断方法,并提供了超出可交换性的扩展保证。该框架在基于大语言模型生成硅样本的民意调查和基于自动评分器的AI评估上进行了演示,解决了合成数据中偏差、噪声和误设的根本担忧。
论文从非对称令牌视角研究时间序列语言模型中的令牌效率,发现时间序列令牌存在高度冗余的频率模式,仅少数令牌保留关键时序信息,且提示令牌的影响随模型深度衰减。作者提出一种自适应令牌预算框架,通过频域结构压缩时间序列令牌,并逐层渐进减少提示令牌。在预测、分类、插补和异常检测任务上,该方法实现最高7.68倍推理加速,并在78%的评估场景中带来性能提升,验证了非对称令牌压缩对可扩展时间序列基础模型的有效性。
本文探究大型推理模型中思维链推理步骤的因果影响,识别出一个“承诺边界”——从短暂猜测到稳定高置信度答案的急剧转变,常发生在单个步骤内,远早于推理块结束。边界之后的步骤是附带现象,不改变最终答案概率。研究者利用注意力探针从中间步骤中线性解码出答案形成阶段,精度高且能泛化至未见过任务。通过此信号在承诺边界处提前退出推理块,可在几乎不影响性能的情况下平均减少高达55%的思维链长度。
本文提出上下文驱动增量压缩方法(C-DIC),将对话历史组织为交错上下文线程,并在紧凑对话记忆中维护可修正的每线程压缩状态。每轮通过检索-修正-回写循环跨轮共享信息并更新过时记忆。同时适配截断时间反向传播(TBPTT)以学习跨轮依赖,无需全历史反向传播。在长对话基准测试中,C-DIC在数百轮对话上保持稳定的推理延迟和困惑度,优于现有上下文压缩方法。
DIRECT 是一种路由框架,通过分析多模态场景上下文在具身视觉语言模型规划器中动态地为每个提示分配测试时计算。它考察了思维链深度、模型大小和记忆历史三个缩放轴,揭示盲目增加测试时计算会带来不均且常递减的收益。在 VLABench 和 RoboMME 上的实验表明,DIRECT 相较固定模型选择显著改善了成功-成本帕累托前沿。在物理 Franka 机械臂上的验证中,该路由器以最高降低 65% 的平均延迟达到与更强模型相当甚至更高的成功率,证明智能计算分配能以极低成本实现前沿水平的具身规划。
研究人员提出Doc-to-Atom(Doc2Atom)参数化记忆框架,将长文档压缩为语义类型化的知识原子。每个原子被编译为一个独立的微型LoRA适配器和一个溯源检索键。推理时,轻量级查询路由器将相关原子组装成查询特定适配器,注入冻结的基座模型。整个系统通过多目标蒸馏端到端训练。在六个问答基准上,Doc2Atom性能优于Doc-to-LoRA基线,同时降低了文档内化的内存成本。