ARXIV··重点
该论文提出VERITAS框架,一种用于通用机器人策略的生成器-验证器架构。它将预训练的机器人策略(生成器)与无需梯度的视觉验证器配对,在推理时评估动作,无需额外训练即可引导策略行为。验证后的运行轨迹随后用于离线微调,带来稳定的性能提升。该方法达到了与专家演示相当的效率,但无需人工干预,凸显推理时验证是真实部署中可扩展的自主改进手段。
ARXIV··重点
本文提出 > <former 架构,在Transformer中采用宽早期层、宽晚期层和窄中间层的非均匀宽度分配,并通过无参数的残差尺寸调整机制连接不同宽度的层。在200M至2B稠密参数和3B混合专家(MoE)参数的自回归语言模型上,> <former 在语言建模损失上持续优于均匀宽度的基线模型。在损失匹配的缩放规律下,该架构总FLOPs减少22%,KV缓存内存和I/O成本降低15%。分析表明瓶颈结构导致残差流中的表征发生质性变化,证明非均匀宽度分配可实现更优的资源缩放。
ARXIV··重点
该论文提出ReproRepo,一个可扩展的框架,利用人类在GitHub上提出的issue作为自然监督信号来评估LLM智能体在研究复现中的表现。框架在1149篇近期顶级会议机器学习论文上实例化,测试了四种前沿模型-智能体配置。最佳配置Codex搭配GPT-5.5能够在约90%的论文中至少发现一个与人类报告语义相关的复现障碍。进一步分析显示,智能体擅长发现可见错误和定位正确的语义区域,但在精确定位问题上仍显不足。代码已开源。
ARXIV·
本文研究了学习理论中二元概念类的三个复杂度度量:符号秩、Z₂-指标和列表可复现数。证明了Z₂-指标不超过列表可复现数的线性函数,说明列表可复现性是这两个下界中更强的一个。基于这一关系,作者得到了符号秩与Z₂-指标的强分离,解决了Frick、Hosseini和Vasileuski提出的问题。此外,还通过高度和最小星数这两个组合度量给出了列表可复现数的上界,并证明了一个组合定理:两个概念类的乘积的列表可复现数不超过各自列表可复现数之和。
ARXIV··重点
EvolveNav是一种自演化的零样本目标导航框架,可在测试时通过从过往轨迹中提炼可执行规则构建智能规则记忆,实现持续改进。基于上置信界的检索策略在语义相关性与历史成功率之间取得平衡,选出有效规则。记忆引导的预反思模块在行动前预测潜在结果,减少低效探索。实验表明,该方法优于现有零样本基线,将成功率提升10.1%,且减少了不必要的步数。
ARXIV·
论文提出AdaVoMP,一种为输入3D物体预测密集空间变化的杨氏模量、泊松比和密度的方法。它引入稀疏自适应体素结构(SAV)高效表示形状和材料场,并采用新颖的稀疏Transformer编码器-解码器,为每个输入自回归生成唯一的SAV。AdaVoMP的分辨率比先前最优方法VoMP高出16³倍,且以更低的测试计算量实现了更高精度,支持将高分辨率复杂3D物体转化为可供真实变形模拟的资产。