里约热内卢市发布了一个名为Rio 3.5 Open的大语言模型,参数规模达397B。该模型基于Qwen(具体为Qwen 7/2变体)进行后训练,并集成了SwiGLU激活和旋转位置嵌入。模型以开放形式提供,是公共部门贡献大规模开源LLM的罕见案例。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 3 页
里约热内卢市发布了一个名为Rio 3.5 Open的大语言模型,参数规模达397B。该模型基于Qwen(具体为Qwen 7/2变体)进行后训练,并集成了SwiGLU激活和旋转位置嵌入。模型以开放形式提供,是公共部门贡献大规模开源LLM的罕见案例。
刷屏研究测试了医疗AI产品UpToDate和OpenEvidence(非底层模型),在MedQA、HealthBench等有限基准上表现不如前沿通用模型。作者指出这并不证明领域专用模型天生劣势;其自有综合基准显示将前沿模型针对医学微调可获得显著提升。当前领域专用模型常因基于较旧或较弱的开源模型而落后,并非专精失效。例如百川智能的Baichuan-M4声称医疗专用模型性能超越前沿模型。关键结论是:若能快速将强大的前沿模型适配为医学工具,将诞生更优的领域专用系统,但开源基座模型进步和适配速度仍是瓶颈。
轨迹实验室宣布他们使用一个开放模型,在不到24小时的后训练中实现了前沿模型性能。训练算力由Together Compute和NVIDIA提供。社交媒体公告中未披露具体模型名称、基准指标或数据集细节。该公告突显了开放模型与高效训练基础设施结合的潜力。
Pyrecall 是一款全新的开源工具,旨在填补持续学习研究中实用工具的空白。它会在微调前后记录技能评分,标记性能退化,并支持按名称回滚 LoRA 适配器。该工具完全本地运行,采用 MIT 许可证发布 v0.1.0 版本,可通过 pip 安装。开发者正在就基准设计征求社区反馈。
初始模型部署通常不难,但实际用户会使用内部术语、提出不完整问题并上传杂乱文档,这些基准测试无法覆盖。多数生产系统并未将推理日志、数据集整理、微调和评估整合为一个循环,每次模型改进都成为一个孤立项目。核心瓶颈是模型迭代——能否将生产流量转化为失败模式、整理数据集、重新训练或微调并稳定地重新部署。作者通过保险聊天机器人用例展示了一个从生产日志到后训练与重新部署的连续反馈回路,并指出 Data Lab 等平台将日志、数据集、后训练和部署视为同一迭代环节。
在 NVIDIA AI 播客中,Mistral AI 首席技术官兼联合创始人 Timothée Lacroix 讨论了公司的开放模型理念、Forge 定制化框架,以及通过 Nemotron 联盟与 NVIDIA 的合作。对话聚焦于如何将开放模型引入企业。Lacroix 阐述了 Mistral 在开放性与模型适配上的做法。Nemotron 联盟是一项旨在提升 AI 能力的合作关系。