MARKTECHPOST··重点
Qwen 团队发布了 Qwen-RobotSuite,包含三款独立的具身 AI 基础模型。Qwen-RobotManip 基于 Qwen3.5-4B 构建,是一个视觉-语言-动作模型,可将异构操作数据对齐到统一的 80 维动作向量,在 RoboChallenge Table30-v1 上排名第一,并展现出强大的跨具身迁移能力。Qwen-RobotWorld 是一个语言条件的视频世界模型,采用 60 层双流 MMDiT 和冻结的 Qwen2.5-VL 编码器,在 EWMBench 和 DreamGen Bench 上均获总体第一。Qwen-RobotNav 是基于 Qwen3-VL 的可扩展导航模型,具有参数化观察接口,在 VLN-CE RxR 上达到 76.5% 成功率,并支持智能体规划。RobotManip 和 RobotNav 已在 GitHub 开源;RobotWorld 以论文形式发布。
MARKTECHPOST·
Nous Research 的开源个人代理 Hermes Agent 现在提供非阻塞的 async_delegation 工具集(GitHub issue #5586)。原先的 delegate_task 会让父聊天冻结直至所有子代理完成,现在补充了异步版本:delegate_task_async 立即返回 task_id,而 check_task、steer_task、collect_task、cancel_task 和 list_task 可管理后台运行。子代理依然严格隔离,各自拥有全新对话,仅最终摘要返回父级以保持上下文窗口精简。后台代理以进程内线程运行,复用相同的 AIAgent 机制、模型路由和凭证池;用户执行 `hermes update` 即可启用。
MARKTECHPOST··重点
谷歌云发布了开放知识格式(OKF)v0.1,这是一个开放的、供应商中立的规范,将LLM-wiki模式形式化为带有YAML前置内容的Markdown文件目录。OKF并非服务或平台,无需SDK、运行时或注册中心,一个包可在GitHub上渲染、作为tar包分发或挂载到任意文件系统。每个概念为一个Markdown文件,以路径为标识,前置内容中仅需一个必填字段(type);文件间的交叉链接形成知识图谱,代理可直接导航而无需转换。谷歌同时发布了参考工具:一个BigQuery增强代理、一个静态HTML可视化器和示例包。该格式针对分散的内部知识问题,让代理直接读取和编辑已管理的、版本化的上下文,有别于检索增强生成(RAG)。
MARKTECHPOST·
本教程展示了使用 Docling Parse 构建完整解析流水线的方法,从包含多元素(分栏、表格、矢量图形、嵌入图像)的测试 PDF 中提取词、字符、行及其页面坐标。包括环境配置、PDF 生成、结构化 JSON/CSV 导出、基于坐标重建布局感知阅读顺序、渲染单元覆盖图以及多线程解析性能测试。该流水线可支撑版面分析、表格提取及为检索增强生成(RAG)做数据准备等文档智能任务。
MARKTECHPOST·
本教程流式处理了FineWeb sample-10BT的3,000篇文档,无需下载完整的多TB语料。复现了Gopher、C4及自定义质量过滤器,由于数据已预过滤,大部分文档通过检测。使用128个哈希排列和0.7阈值的MinHash去重仅发现极少数近似重复对,证实了每次爬取已去重。通过与存储字段对比验证GPT-2分词数,平均绝对差接近0,高度一致。分析涵盖token分布、语言得分、每字符token数和顶级域名,为大规模语料预处理管线提供了可操作的参考。
MARKTECHPOST··重点
Databricks 发布了 Omnigent,一个 Apache 2.0 开源元编排器,它统一了命令行编程代理(Claude Code、Codex、Pi)和代理 SDK 的接口,使其成为可互换的组件。它在这些代理之上增加了一个共享层,支持组合(通过一行代码切换代理)、上下文控制(如在花费达限时暂停、在安装 npm 包后要求人工批准 git 推送)和协作(通过 URL 共享实时代理会话)。架构包含一个沙盒化运行器(提供统一 API)和策略服务器,会话在终端、Web UI 和移动端同步。操作系统沙盒 Omnibox 仅在批准的代理请求中注入凭据以保护安全。两个内置示例代理展示了编排和多模型模式,交互式概念演示展示了并行代理委托和策略执行。