ollama/ollama: v0.30.4
English summary
Ollama v0.30.4 introduces support for NVIDIA Nemotron 3 Ultra model optimized for high-throughput reasoning and long-running agent workflows. It fixes multimodal models not using GPU on llama.cpp backend, now utilizing Metal GPU offload on Apple Silicon for improved performance. The update also includes new experimental flags for model creation, cleanup scripts for Codex and Pi configurations, and a known issue where gemma4:12b crashes with a floating point exception.
Chinese summary
Ollama v0.30.4 新增了对 NVIDIA Nemotron 3 Ultra 模型的支持,该模型针对高吞吐量推理和长时间运行的 Agent 工作流进行了优化。修复了多模态模型在 llama.cpp 后端未使用 GPU 的问题,现在可在 Apple Silicon 上利用 Metal GPU 加速,提升多模态性能。更新还包含了模型创建的实验性标志改进、Codex 和 Pi 配置的清理脚本,以及已知问题:gemma4:12b 因浮点异常崩溃。
Key points
Added support for NVIDIA Nemotron 3 Ultra model for high-throughput reasoning and agent workflows.
新增对 NVIDIA Nemotron 3 Ultra 模型的支持,用于高吞吐量推理和 Agent 工作流。
Fixed multimodal models not using GPU; now supports Metal GPU offload on Apple Silicon.
修复多模态模型未使用 GPU 的问题;现在支持 Apple Silicon 上的 Metal GPU 加速。
ollama create --experimental now respects REQUIRES in Modelfiles for MLX-based models.
ollama create --experimental 现在遵循 Modelfiles 中针对 MLX 模型的 REQUIRES 指令。
Updated launch commands for Codex and Pi with cleanup and migration improvements.
更新了 Codex 和 Pi 的启动命令,改进了清理和迁移功能。
Known issue: gemma4:12b crashes with a floating point exception.
已知问题:gemma4:12b 因浮点异常崩溃。