llama.cpp 发布 b9637 版本,为 Cohere2MoE 模型架构(North Code)引入了专用对话解析器。解析器通过 PR #24615 实现,确保 Cohere 混合专家模型的对话格式正确。该版本提供适用于 macOS、Linux、Windows 和 Android 的预编译二进制文件,支持 CPU、CUDA、Vulkan、ROCm、SYCL 等多种后端。发布说明中除该解析器和一些内部重命名外,无其他功能性变更。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 12 页
llama.cpp 发布 b9637 版本,为 Cohere2MoE 模型架构(North Code)引入了专用对话解析器。解析器通过 PR #24615 实现,确保 Cohere 混合专家模型的对话格式正确。该版本提供适用于 macOS、Linux、Windows 和 Android 的预编译二进制文件,支持 CPU、CUDA、Vulkan、ROCm、SYCL 等多种后端。发布说明中除该解析器和一些内部重命名外,无其他功能性变更。
llama.cpp 项目版本 b9632 发布。主要改动为通过 PR #24606 为 Jinja 模板引擎增加了 count、d 和 e 过滤器别名。该版本提供了大量平台的预编译二进制包,包括 macOS arm64(可选 KleidiAI)、Linux(CPU、Vulkan、ROCm 7.2、OpenVINO、SYCL FP32/FP16)、Android arm64 以及 Windows(CPU、CUDA 12/13、Vulkan、SYCL、HIP)。macOS Intel、iOS XCFramework 和 openEuler 310p/910b 等配置在本次发布中处于禁用状态。
本次 llama.cpp 发布将 cohere2moe 分词器添加到 llama-vocab 中,从而支持 TINY_AYA 模型的推理。该变动通过 PR #24601 贡献,同时提供了面向 macOS、Linux、Windows 和 Android 多个计算后端的构建产物。
Andrew Ng 发布了新的开源仓库 aisuite,为多个生成式AI服务商提供了简单统一的接口。该工具抽象了不同服务商API的差异,让开发者能更轻松地在不同AI服务之间切换。仓库描述中未列出具体支持的服务商名单。项目旨在简化不同AI模型的集成与实验。
llama.cpp b9627 是一个小幅维护版本,仅包含一项针对 llama-ui-embed 工具的错误修复。该修复解决了在未指定资源目录时启动工具导致崩溃的问题,对应 issue #24597。此版本不包含新功能、模型支持或性能改进,持续提供 macOS、Linux、Android、Windows 及 openEuler 等平台的预编译二进制文件,覆盖多种 GPU 后端。
llama.cpp 的 b9626 版本新增了对 Cohere2 混合专家(MoE)架构的支持,架构名称为“cohere2moe”。该版本修复了滑动窗口注意力模式问题,通过改用 iSWA 解决了 MTP 失败问题,并将共享专家的组合方式调整为 (routed+shared)*0.5。同时移除了冗余的门控函数检查、lm_head 张量检查及 tokenizer 类型定义,tokenizer 保持为 tiny_aya。构建版本覆盖 macOS(Apple Silicon/Intel)、Linux(x64/arm64,支持 Vulkan、ROCm、OpenVINO、SYCL)、Android 以及 Windows(CPU/CUDA/Vulkan/SYCL/HIP),并提供 UI 支持。