本教程流式处理了FineWeb sample-10BT的3,000篇文档,无需下载完整的多TB语料。复现了Gopher、C4及自定义质量过滤器,由于数据已预过滤,大部分文档通过检测。使用128个哈希排列和0.7阈值的MinHash去重仅发现极少数近似重复对,证实了每次爬取已去重。通过与存储字段对比验证GPT-2分词数,平均绝对差接近0,高度一致。分析涵盖token分布、语言得分、每字符token数和顶级域名,为大规模语料预处理管线提供了可操作的参考。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 12 页
本教程流式处理了FineWeb sample-10BT的3,000篇文档,无需下载完整的多TB语料。复现了Gopher、C4及自定义质量过滤器,由于数据已预过滤,大部分文档通过检测。使用128个哈希排列和0.7阈值的MinHash去重仅发现极少数近似重复对,证实了每次爬取已去重。通过与存储字段对比验证GPT-2分词数,平均绝对差接近0,高度一致。分析涵盖token分布、语言得分、每字符token数和顶级域名,为大规模语料预处理管线提供了可操作的参考。
这篇教程文章概述了当模型版本号从4.8升至4.9时,可能使其表现更好的三种不同杠杆,并提醒读者不要将它们混淆。文中未涉及具体模型、基准或技术细节。
作者审计了500次代码提交,发现无需水印即可识别AI生成的代码。检测方法利用提交图、差异解析器,并需处理不规则的边缘情况。该方法表明,AI作者的痕迹会体现在代码变更和提交历史的结构模式中。文章将此描述为一套实用的代码审查流水线,用于标记版本控制中的AI编写贡献。
李飞飞和杨立昆各自筹集了10亿美元,用于支持面向物理AI的世界模型,标志着从以语言为中心的方法转向。文章详细介绍了世界模型如何决定物理AI系统何时能有效与现实世界互动。这笔资金突显了对仅靠大语言模型通往通用智能的重大赌注。
文章指出,常见的纸牌游戏蜘蛛纸牌尽管看来简单,实则构成一个严肃的搜索难题。它将游戏视为一个搜索问题,暗示了规划步数的计算困难。简短的内容没有给出具体方法或结果,仅强调该游戏潜在的复杂性常被低估。
Anthropic 发布了一项大型公众调查的结果,该调查涉及人们对 AI 的信任、依赖、治理和采纳态度。调查衡量了公众在这些维度上的看法。结果通过 Medium 发布,提供了当前公众情绪的见解。