中文LLM审查过滤器因“六月四日”日期阻断代码调试
用户通过litellm使用glm-5.1调试代码时发现,模型因调试日志中包含“6月4日”日期而拒绝处理,抛出的AnthropicException提示检测到潜在不安全或敏感内容。该日志只是历史错误记录,但日期触发了审查过滤器。这表明中文LLM的安全过滤器在遇到与敏感事件关联的日期时,可能意外干扰日常技术工作。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
55 条内容
用户通过litellm使用glm-5.1调试代码时发现,模型因调试日志中包含“6月4日”日期而拒绝处理,抛出的AnthropicException提示检测到潜在不安全或敏感内容。该日志只是历史错误记录,但日期触发了审查过滤器。这表明中文LLM的安全过滤器在遇到与敏感事件关联的日期时,可能意外干扰日常技术工作。
一位印度学生发布了首篇论文,提出名为 Silia 的新型 Transformer 架构,专为 500 万参数以下的微型模型设计。Silia 将前馈网络(FFN)中的静态线性矩阵替换为注意力机制,将动态信息混合与强非线性统一为单个操作以节省参数。实验中,0.8M 参数的 Silia 模型在相同训练条件下达到了与 GPT-2(nanoGPT)基线相近的损失,但使用的参数显著更少。受限于老旧硬件(4M 模型在个人电脑上训练需 3-4 天),论文仅给出了亚 10M 参数规模的初步结果。作者将该研究视为想法的引入而非最终结论,代码尚未公开。
Google DeepMind的DiffusionGemma 26B A4B IT是一个开放权重的多模态模型,使用离散扩散从文本、图像和视频输入生成文本。该模型总参数25.2B,激活参数3.8B(MoE),支持256K上下文窗口,在NVIDIA H100 GPU上生成速度超过1100 tokens/秒。NVIDIA通过Model Optimizer将其量化为NVFP4精度,并发布在Hugging Face上,可用于商业和非商业用途。该模型还具备可配置的思考模式、原生函数调用和35+语言的多语言推理能力。
DeepSeek v4 Pro 在 SWE-bench Verified 上获得 80.6%,在 LiveCodeBench 上获得 93.5% 的顶级编程得分。但 CAISI 跨领域评估显示其大约落后于美国前沿模型 8 个月,而 DeepSeek 官方声称落后 2 个月。差异源于编码基准测试的局限性,而 CAISI 测试涵盖了网络安全和抽象推理等更广领域。前沿模型也在进步,如封闭模型 Fable 5 已发布。对于本地用户,量化后的版本在执行工具调用时可能表现不同于 1.6T 参数的完整 Pro 配置。
内容加工暂时不可用。请通过原文链接查看该条目的完整信息。此降级结果用于保持加工契约兼容。
AMD 强调其统一内存架构(UMA)将影响未来芯片路线图,并具体提到了锐龙 AI MAX 400 系列(即此前的 Gorgon Halo 系统)作为采用 UMA 的产品。该 Reddit 帖子链接了一篇 Wccftech 文章以及社区早前关于 UMA 在本地 AI 应用的讨论。帖子未提供具体技术参数或发布日期。