REDDIT LOCALLLAMA·
DeepSeek v4 Pro 在 SWE-bench Verified 上获得 80.6%,在 LiveCodeBench 上获得 93.5% 的顶级编程得分。但 CAISI 跨领域评估显示其大约落后于美国前沿模型 8 个月,而 DeepSeek 官方声称落后 2 个月。差异源于编码基准测试的局限性,而 CAISI 测试涵盖了网络安全和抽象推理等更广领域。前沿模型也在进步,如封闭模型 Fable 5 已发布。对于本地用户,量化后的版本在执行工具调用时可能表现不同于 1.6T 参数的完整 Pro 配置。
REDDIT LOCALLLAMA·
一名用户尝试对谷歌新发布的设备端听写应用Eloquent进行基准测试,发现约一半的听写内容会被丢弃,返回的文本严重缺失。在50次测试中,仅15次获得完整转录,词错误率约24%,与Qwen3-ASR的21%相近。多数情况下,一段20多词的音频仅转录出5-10个词。用户怀疑底层的对话式AI模型有时会拒绝转录并回复道歉,这一现象在直接使用Gemma 3n模型时同样出现,表明基于对话模型的听写方式存在根本性可用性问题。
REDDIT LOCALLLAMA·
一位长期使用本地LLM的用户指出,LocalLLaMA社区常常高估本地模型与前沿闭源模型的接近程度。虽然DeepSeek、MiniMax等推出的大型开放模型存在,但可家用运行的中等规模模型在严肃的代理任务上无法替代Claude等系统。基准测试具有误导性,真实编程或多步骤任务暴露出巨大差距,需要大量干预和修正。该用户质疑是否有人真的相信本地模型能替代前沿模型处理严肃代理工作,还是社区热情主要源于隐私、爱好或角色扮演。
REDDIT LOCALLLAMA·
一位 Reddit 用户利用人工标注的摘要和 LLM 裁判对模型进行基准测试。在约 30B 参数规模中,Qwen 3 得分最高,优于排名第二的 Gemma 4。该用户推测新版 Qwen 可能更偏向智能体任务优化,从而影响纯粹摘要能力,但在此次真实标注评测中 Qwen 3 仍居榜首。
REDDIT LOCALLLAMA··重点
论文《可预测的压缩失败》(ICML 2026)针对证据根基问答中的幻觉问题,将证据顺序敏感性建模为排列分散,推导出期望级解压缩定律(EDFL)。据此定义了一个固定的 ISR=1 回答/弃权门控,无需阈值调参,在预注册的留出审计中达到 0.0–0.7% 的幻觉率,同时弃权约 24%,尝试回答的准确率为 80.5%。今日发布的 ntkMirror 以免训练方式为本地开源模型实现了该门控,采用多证据排列下的顺序边缘验证。融合核能将排列前向计算加速 2.6–10 倍,fp32 下结果逐比特一致。在 Qwen2.5 和 Gemma 等小模型上的新幻觉检测基准显示,SciFact 上 AUROC 最高达 0.96,门控将基于事实的声明比例从 50% 提升至 75–90%,代价是舍弃 10–20% 的有效声明。
REDDIT LOCALLLAMA·
一名Reddit用户在一台Mac M5 Pro上使用MLX对Gemma 4 26B IT进行了MMLU_PRO和HumanEval基准测试,对比了常规4-bit、6-bit以及QAT 8-bit量化模型的性能。QAT 8-bit模型在HumanEval上的得分为90%,显著低于常规6-bit模型的98%,而MMLU_PRO上的差异无统计学意义。结果表明,未量化的QAT模型性能不及未量化的原始模型,因此用QAT量化版本来替代5-bit、6-bit等更高位宽的常规量化可能并不合理。该测试样本量有限(50和100道题目),结论未必适用于31B、12B或E2/4B等其他Gemma 4型号。