论文来源: ARXIV重要度: 4/5
SpatialClaw是一个无需训练的框架,采用代码执行作为动作接口,通过维护一个有状态的Python内核,预加载输入帧以及感知与几何原语,让基于VLM的智能体根据过往输出逐步编写可执行单元。在20个涵盖静态与动态的3D/4D空间推理基准上,平均准确率达到59.9%,较此前的最佳空间智能体提升11.2个百分点。在六个来自两个模型家族的VLM骨干上均获一致增益,无需针对基准或模型进行特化调整。结果表明,灵活的迭代式代码接口在开放式空间任务上显著优于单次执行或结构化工具调用的设计。
论文来源: ARXIV重要度: 4/5
本文提出Agents-K1,一条端到端管线,可将原始文档转化为智能体原生的科学知识图谱。该管线整合了三个组件:一个多模态解析器,采用五模块模式从全文捕获实体、多模态证据、引用及带类型的实体间关系;一个4B参数的信息抽取骨干网络,通过GRPO和基于规则的奖励训练;一个GraphAnything命令行界面,统一网络搜索、多模态图检索和跨文档遍历。作者处理了六个学科领域的246万篇科学论文,构建了Scholar-KG,并发布了其中100万篇论文的子集。实验表明,Agents-K1在科学信息抽取、知识图谱构建和多跳科学推理上均取得优越性能。该管线可扩展至通用领域语料和符合模式的数据合成。
论文来源: ARXIV重要度: 3/5
该论文分析了结合同策略学生轨迹与密集教师监督的后训练方法——同策略蒸馏(OPD)。研究发现OPD式更新幅度小且坐标稀疏,分布在各层且以前馈网络(FFN)为主;仅训练发现的稀疏子网络即可几乎恢复完整OPD的性能。但诱导稀疏性的SGD优化器表现不及AdamW,因为密集监督保留了异质的坐标级梯度尺度,而AdamW的自适应缩放仍有用。几何上,更新在数值上满秩但谱集中于少数方向,且远离源权重的主奇异子空间,更多地落在源权重接近零的坐标上。结果表明OPD保留了同策略后训练的几何特征,而非普通密集参数重写。
论文来源: ARXIV重要度: 3/5
该论文评估了四类语音表征在语音驱动3D面部动画中的应用,通过客观指标和感性评估,在两种面部解码器上比较了面部重建质量。论文还进行了探测分析,将离散化表征与语音单元及发音形变关联起来。研究发现,编码语音类别有助于提升面部动画预测的准确性,且语义表征与标签表征的性能相当。基于标签表征,作者提出了一个视听文语转换(AVTTS)流水线,利用离散表征作为共享空间来解码语音和3D面部运动。
论文来源: ARXIV重要度: 4/5
DIRECT 是一种路由框架,通过分析多模态场景上下文在具身视觉语言模型规划器中动态地为每个提示分配测试时计算。它考察了思维链深度、模型大小和记忆历史三个缩放轴,揭示盲目增加测试时计算会带来不均且常递减的收益。在 VLABench 和 RoboMME 上的实验表明,DIRECT 相较固定模型选择显著改善了成功-成本帕累托前沿。在物理 Franka 机械臂上的验证中,该路由器以最高降低 65% 的平均延迟达到与更强模型相当甚至更高的成功率,证明智能计算分配能以极低成本实现前沿水平的具身规划。
论文来源: ARXIV