PyTorch 主干代码已为 Intel XPU 后端启用对称通信操作,使计算与通信可重叠执行,以降低 Intel 客户端 GPU 上的张量并行开销。这些对称操作旨在实现异步张量并行(async TP)。实现包括在 intel/torch-xpu-ops#2041 中完成的后端更改,以及本 PR 中启用的 Python 操作。操作正确性已通过 intel/torch-xpu-ops#3747 的测试验证,该 PR 已获多位审核者批准。
Loading / 加载中
AI 论文、发布、工具与金融信号
Loading / 加载中
Infogap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
第 1 / 2 页
PyTorch 主干代码已为 Intel XPU 后端启用对称通信操作,使计算与通信可重叠执行,以降低 Intel 客户端 GPU 上的张量并行开销。这些对称操作旨在实现异步张量并行(async TP)。实现包括在 intel/torch-xpu-ops#2041 中完成的后端更改,以及本 PR 中启用的 Python 操作。操作正确性已通过 intel/torch-xpu-ops#3747 的测试验证,该 PR 已获多位审核者批准。
hexo-ai/sia 仓库发布了 SIA 自我改进 AI 框架。该框架旨在自动提升任意 AI 模型或智能体在指定基准任务上的表现,无需人工调参或重新训练。项目已开源,但简介未透露具体实现细节。
PyTorch 的 DTensor 组件更新了操作注册系统。变更前,有 158 个直接 op_strategy 注册和 1013 个 single_dim_strategy 注册,总计 1164 个已注册操作。迁移后,op_strategy 降至 114 个,single_dim_strategy 增至 1068 个,总计 1176 个。这相当于将 44 个 op_strategy 条目重新分配至统一的单维度策略框架,并净增 12 个新操作。该重构简化了 DTensor 操作注册的维护。测试通过 pytest 在 test/distributed/tensor/test_tensor_ops.py 中进行。
该仓库提供用于医疗AI应用的开源工具。旨在使医疗AI模型的访问民主化。项目包括模型训练和部署的资源。适合医疗领域的研究人员和开发者。
该发布说明记录了一项提交,将分解后的GELU操作重新融合回原生的CUTLASS GELU实现中。此更改是PyTorch的inductor和cutlass后端的一部分。旨在通过减少分解带来的开销来提升性能。这一更新可能会提高使用GELU激活函数的模型的效率。
这是一个AI代理技能,旨在跨多个平台(包括Reddit、X、YouTube、Hacker News、Polymarket和网络)研究任何话题。该技能从这些多样化来源收集信息,并综合生成一个有依据的摘要。它提供了一种快速获取任何主题全面见解的强大方式。