开源项目来源: GITHUB重要度: 4/5
vLLM v0.23.0 版本包含 200 位贡献者的 408 次提交,强化了对新近模型的支持。DeepSeek-V4 经过大规模优化,包括稀疏 MLA 解耦、TRTLLM-gen 注意力、EPLB 超级混合专家及滑动窗口 KV 缓存保留。Model Runner V2 现默认用于 Llama 和 Mistral 稠密模型,新增 FlashInfer 采样、可中断 CUDA 图及流水线并行气泡消除。Rust 前端新增流式生成、动态 LoRA 接口、/version 和 /server_info,以及面向 InternLM2、Phi-4-mini 和 Gemma4 的工具解析器。新支持的模型包括 Gemma 4 Unified(无编码器)、MiMo-V2.5、Step-3.7-Flash、Cosmos3 Reasoner 和 Cohere Mini Code。该版本还弃用了 Transformers v4,统一了推理与工具调用解析,并引入了带对象存储二级层的多层 KV 缓存卸载框架。
开源项目来源: GITHUB重要度: 3/5
MoneyPrinterTurbo 是一个开源工具,利用AI大语言模型一键自动生成高清短视频。它将整个视频制作流程自动化,用户无需手动剪辑或撰写脚本即可快速产出内容。该项目面向内容创作者和营销人员,提供了简洁的一键操作界面。代码托管于GitHub的harry0703仓库下。
开源项目来源: GITHUB重要度: 3/5
Ollama v0.30.4 新增了对 NVIDIA Nemotron 3 Ultra 模型的支持,该模型针对高吞吐量推理和长时间运行的 Agent 工作流进行了优化。修复了多模态模型在 llama.cpp 后端未使用 GPU 的问题,现在可在 Apple Silicon 上利用 Metal GPU 加速,提升多模态性能。更新还包含了模型创建的实验性标志改进、Codex 和 Pi 配置的清理脚本,以及已知问题:gemma4:12b 因浮点异常崩溃。
开源项目来源: GITHUB重要度: 3/5
此版本将ollama更新至v0.30.5-rc0,将底层llama.cpp版本提升至b9509。主要修复了Gemma 4 12B多模态投影仪的除以零崩溃问题,该问题在x86、CUDA、Linux和Windows系统上出现。此次更新解决了多个已报告的问题(如#16479、#16489)。运行Gemma 4模型的用户应升级以避免此崩溃。
开源项目来源: GITHUB重要度: 5/5
本次 Hugging Face Transformers 版本引入了多个新模型,包括 Gemma4 Unified(无编码器的多模态模型)、Sapiens2(用于人类中心视觉任务的高分辨率视觉 Transformer)、DeepSeek-OCR-2(专注于 OCR 的视觉语言模型)以及 Mellum(JetBrains 开发的代码专用混合专家语言模型)。包含破坏性变更,如修复 Gemma4 视觉池化器的 float16 溢出问题,并为音频语言模型新增了基类。大量错误修复和改进涉及模型并行、缓存、量化和分布式训练。社区贡献包括罗马尼亚语文档翻译和关键合并请求。