Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

5 条内容

REDDIT LOCALLLAMA2026年6月11日重点

NVIDIA发布NVFP4量化版DiffusionGemma 26B A4B IT模型

Google DeepMind的DiffusionGemma 26B A4B IT是一个开放权重的多模态模型，使用离散扩散从文本、图像和视频输入生成文本。该模型总参数25.2B，激活参数3.8B（MoE），支持256K上下文窗口，在NVIDIA H100 GPU上生成速度超过1100 tokens/秒。NVIDIA通过Model Optimizer将其量化为NVFP4精度，并发布在Hugging Face上，可用于商业和非商业用途。该模型还具备可配置的思考模式、原生函数调用和35+语言的多语言推理能力。

REDDIT LOCALLLAMA2026年6月10日

Reddit用户寻求本地LLM进行手写OCR的建议

一位Reddit用户表示，通过Ollama使用Qwen3-VL 8B对手写信件进行OCR取得了不错的效果，并询问社区是否有更适合手写OCR的本地模型。

REDDIT LOCALLLAMA2026年6月10日

Lemonade v10.7 版本发布及项目组织更新

Lemonade v10.7 推出本机全模态聊天，通过组合多个后端和模型支持图像生成与编辑，其 LMX-Omni 虚拟模型现已兼容 Open WebUI 及其他 OpenAI 客户端。该版本新增 lemonade bench 命令行工具，可在 llama.cpp、FastFlowLM 和 vLLM 之间收集标准化的 LLM 性能数据。跨厂商支持得到扩展，为 llama.cpp 和 stable-diffusion.cpp 添加 CUDA 后端，为 sd-cpp 添加 Vulkan 后端，实现在 AMD、Apple Silicon、Nvidia 和 Intel 系统上的 GPU 加速。项目现已划分为六个工作组，其中四个由非 AMD 贡献者领导，本版共有 19 位贡献者参与。

REDDIT LOCALLLAMA2026年6月9日

SCAIL-2：支持跨身份替换与动物驱动的开源端到端角色动画模型发布

SCAIL-2是一个开源端到端可控角色动画模型，去除了对中间姿态表示的依赖。它利用多个教师模型（SCAIL-Preview、Wan-Animate、MoCha）合成的6万组运动对，通过统一运动传递接口进行训练。该模型能够通过驱动视频为参考角色生成动画，支持跨身份角色替换、多角色场景以及动物驱动，并具备对SAM3D-Body网格渲染等高级控制中间件的零样本支持。

REDDIT LOCALLLAMA2026年6月9日重点

Omi Med STT v1：基于微调 Parakeet 0.6B 的开放权重本地医疗语音识别模型发布

Omi Health 创始人发布 Omi Med STT v1，基于 NVIDIA Parakeet TDT 0.6B v2 微调、专为医疗语音设计的开放权重模型（CC-BY-4.0），并提供本地运行环境，可自动适配不同后端（Apple Silicon 用 MLX，CUDA 用 NeMo，CPU 用 GGUF）。在 1513 个医疗片段（7.18 小时）的独立评测中，医疗词错误率 M-WER 为 2.37%，整体 WER 8.30%，在 A10 上达到 145 倍实时速度，大幅超过基础模型和大多数本地开源方案。该模型 M-WER 仅落后于 VibeVoice-ASR 9B，但 WER 和速度更优，且能与 ElevenLabs Scribe v2（M-WER 1.39%）和 AssemblyAI（1.81%）等云端医疗转录服务抗衡，并具备本地处理的延迟优势。训练使用了 127 小时音频（71% 真实 + 29% 合成），评测集与训练无重合；主要弱项药品名称错误率 4.75% 计划在 v2 中改进。