Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

3 条内容

MARKTECHPOST2026年6月16日

使用 Docling Parse 构建完整的文档布局感知解析流水线

本教程展示了使用 Docling Parse 构建完整解析流水线的方法，从包含多元素（分栏、表格、矢量图形、嵌入图像）的测试 PDF 中提取词、字符、行及其页面坐标。包括环境配置、PDF 生成、结构化 JSON/CSV 导出、基于坐标重建布局感知阅读顺序、渲染单元覆盖图以及多线程解析性能测试。该流水线可支撑版面分析、表格提取及为检索增强生成（RAG）做数据准备等文档智能任务。

MARKTECHPOST2026年6月8日重点

谷歌研究在Gemini企业代理平台中添加Agentic RAG，并提供用于多跳查询的充分上下文代理

谷歌研究团队推出了一款集成在Gemini企业代理平台中的新型Agentic RAG框架。该框架包含一个“充分上下文代理”，能够反复迭代搜索，直到收集到完整的上下文后再生成响应。这种多代理架构将复杂查询分解为子任务，与标准RAG相比，在事实性数据集上准确率最高提升34%。在FramesQA基准测试中，该系统在跨语料检索中达到90.1%的准确率，同时保持低延迟。该功能名为“跨语料检索”，现已进入公开预览阶段。

MARKTECHPOST2026年6月7日重点

Harness-1：在状态化搜索框架内通过强化学习训练的200亿参数检索子代理

Harness-1是一个200亿参数的检索子代理，通过有状态框架将搜索决策与簿记分离。它在八个基准测试中平均达到0.730的策划召回率，超越其他开放模型，接近前沿性能。该模型通过监督微调学习接口操作，通过强化学习优化搜索策略，使用有限工具集和工作记忆。权重和框架代码已在Hugging Face和GitHub上公开发布。