里约热内卢市发布了一个名为Rio 3.5 Open的大语言模型,参数规模达397B。该模型基于Qwen(具体为Qwen 7/2变体)进行后训练,并集成了SwiGLU激活和旋转位置嵌入。模型以开放形式提供,是公共部门贡献大规模开源LLM的罕见案例。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 7 页
里约热内卢市发布了一个名为Rio 3.5 Open的大语言模型,参数规模达397B。该模型基于Qwen(具体为Qwen 7/2变体)进行后训练,并集成了SwiGLU激活和旋转位置嵌入。模型以开放形式提供,是公共部门贡献大规模开源LLM的罕见案例。
本文展示了一项利用小型开源语言模型为内部威胁检测生成安全运营中心(SOC)叙事文本的实操研究。实验基于 CERT R4.2 数据集和 Qwen3 模型,对比了四种方法:零样本提示、少样本提示、基于 LoRA 的有监督微调(SFT LoRA)以及组相对策略优化(GRPO)。该研究给出了使用小型大语言模型解读内部威胁的实用流程,突显了开源模型微调的易用性。
刷屏研究测试了医疗AI产品UpToDate和OpenEvidence(非底层模型),在MedQA、HealthBench等有限基准上表现不如前沿通用模型。作者指出这并不证明领域专用模型天生劣势;其自有综合基准显示将前沿模型针对医学微调可获得显著提升。当前领域专用模型常因基于较旧或较弱的开源模型而落后,并非专精失效。例如百川智能的Baichuan-M4声称医疗专用模型性能超越前沿模型。关键结论是:若能快速将强大的前沿模型适配为医学工具,将诞生更优的领域专用系统,但开源基座模型进步和适配速度仍是瓶颈。
本教程为机器学习工程师提供了LLM核心概念的实用概述。从标记、Transformer架构和嵌入等基础元素开始,然后涵盖提示工程、检索增强生成(RAG)和微调等高级技术。该指南强调培养合理的工程判断力,以超越试错式的盲目提示。未涉及新研究或产品发布,仅作为教育资源。
轨迹实验室宣布他们使用一个开放模型,在不到24小时的后训练中实现了前沿模型性能。训练算力由Together Compute和NVIDIA提供。社交媒体公告中未披露具体模型名称、基准指标或数据集细节。该公告突显了开放模型与高效训练基础设施结合的潜力。
本文提出检索增强的强化微调(RA-RFT),一种教授语言模型通过类比进行推理的后训练框架。它首先通过金标准相关性蒸馏训练一个推理感知的检索器,使上下文按预期推理收益而非语义相似度排序。然后使用检索到的类比演示,在可验证的结果奖励下对策略模型进行强化学习微调,使其学会利用推理轨迹。分析表明,推理感知检索能挖掘互补的解题策略,为不同问题提供独特的推理支架。在AIME 2025基准上,RA-RFT在平均@32准确率上较GRPO为Qwen3-1.7B和Qwen3-4B分别提升了7.1和2.8个百分点,表明推理感知检索是与奖励设计或训练课程正交的改进维度。