Ethan Mollick 分享了一条方法学讨论串,剖析一篇新论文的争议。该论文提出通用AI模型在医疗任务上优于专用医疗AI。讨论串还概述了医学AI基准测试面临的挑战。未提供论文、模型或基准的具体细节。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 14 页
Ethan Mollick 分享了一条方法学讨论串,剖析一篇新论文的争议。该论文提出通用AI模型在医疗任务上优于专用医疗AI。讨论串还概述了医学AI基准测试面临的挑战。未提供论文、模型或基准的具体细节。
一项基准测试比较了七个前沿模型在两类自动研究任务上的表现:机器学习工程和 harness/prompt 工程。该推文未透露具体模型及性能结果。未提供更多细节。
Together AI 针对 DeepSeek V4 Pro 的推理服务进行了优化,在 Artificial Analysis 基准测试中实现了输出速度(每秒 token 数)和延迟的双料第一。优化涉及 KV 缓存管理、前缀复用、定制化内核以及端点配置文件。这使得开发者通过 Together AI 调用 DeepSeek V4 Pro 可获得当前最快的 API 响应体验。该公司通过链接文章详细拆解了系统工程优化细节。
WeaveBench 是一个专为评估跨混合接口操作的计算机使用智能体(CUA)而设计的全面基准,要求同时进行 GUI 和 CLI/代码操作。它包含 114 个长周期任务,覆盖 8 个真实工作领域,并在真实的 Ubuntu 桌面上进行评估。该基准引入了一种轨迹感知评判器,用于检查智能体的交付成果并检测走捷径行为,弥补了传统评估方法的不足。在测试的模型-运行时组合中,通过率仅为 41.2%,暴露了在长周期任务编排方面的显著性能差距。
OpenEvidence对近期一项LLM基准研究表示不满,呼应了需要更好基准的呼声。作者赞同这一观点,并建议使用公开透明的Medmarks基准套件来评估OpenEvidence。
刷屏研究测试了医疗AI产品UpToDate和OpenEvidence(非底层模型),在MedQA、HealthBench等有限基准上表现不如前沿通用模型。作者指出这并不证明领域专用模型天生劣势;其自有综合基准显示将前沿模型针对医学微调可获得显著提升。当前领域专用模型常因基于较旧或较弱的开源模型而落后,并非专精失效。例如百川智能的Baichuan-M4声称医疗专用模型性能超越前沿模型。关键结论是:若能快速将强大的前沿模型适配为医学工具,将诞生更优的领域专用系统,但开源基座模型进步和适配速度仍是瓶颈。