REDDIT LOCALLLAMA··重点
Google DeepMind的DiffusionGemma 26B A4B IT是一个开放权重的多模态模型,使用离散扩散从文本、图像和视频输入生成文本。该模型总参数25.2B,激活参数3.8B(MoE),支持256K上下文窗口,在NVIDIA H100 GPU上生成速度超过1100 tokens/秒。NVIDIA通过Model Optimizer将其量化为NVFP4精度,并发布在Hugging Face上,可用于商业和非商业用途。该模型还具备可配置的思考模式、原生函数调用和35+语言的多语言推理能力。
REDDIT LOCALLLAMA·
一位Reddit用户表示,通过Ollama使用Qwen3-VL 8B对手写信件进行OCR取得了不错的效果,并询问社区是否有更适合手写OCR的本地模型。
REDDIT LOCALLLAMA·
Lemonade v10.7 推出本机全模态聊天,通过组合多个后端和模型支持图像生成与编辑,其 LMX-Omni 虚拟模型现已兼容 Open WebUI 及其他 OpenAI 客户端。该版本新增 lemonade bench 命令行工具,可在 llama.cpp、FastFlowLM 和 vLLM 之间收集标准化的 LLM 性能数据。跨厂商支持得到扩展,为 llama.cpp 和 stable-diffusion.cpp 添加 CUDA 后端,为 sd-cpp 添加 Vulkan 后端,实现在 AMD、Apple Silicon、Nvidia 和 Intel 系统上的 GPU 加速。项目现已划分为六个工作组,其中四个由非 AMD 贡献者领导,本版共有 19 位贡献者参与。
REDDIT LOCALLLAMA·
SCAIL-2是一个开源端到端可控角色动画模型,去除了对中间姿态表示的依赖。它利用多个教师模型(SCAIL-Preview、Wan-Animate、MoCha)合成的6万组运动对,通过统一运动传递接口进行训练。该模型能够通过驱动视频为参考角色生成动画,支持跨身份角色替换、多角色场景以及动物驱动,并具备对SAM3D-Body网格渲染等高级控制中间件的零样本支持。
REDDIT LOCALLLAMA··重点
Omi Health 创始人发布 Omi Med STT v1,基于 NVIDIA Parakeet TDT 0.6B v2 微调、专为医疗语音设计的开放权重模型(CC-BY-4.0),并提供本地运行环境,可自动适配不同后端(Apple Silicon 用 MLX,CUDA 用 NeMo,CPU 用 GGUF)。在 1513 个医疗片段(7.18 小时)的独立评测中,医疗词错误率 M-WER 为 2.37%,整体 WER 8.30%,在 A10 上达到 145 倍实时速度,大幅超过基础模型和大多数本地开源方案。该模型 M-WER 仅落后于 VibeVoice-ASR 9B,但 WER 和速度更优,且能与 ElevenLabs Scribe v2(M-WER 1.39%)和 AssemblyAI(1.81%)等云端医疗转录服务抗衡,并具备本地处理的延迟优势。训练使用了 127 小时音频(71% 真实 + 29% 合成),评测集与训练无重合;主要弱项药品名称错误率 4.75% 计划在 v2 中改进。