ARXIV · 2026年6月15日 · 重点
本文挑战了差分隐私(DP)在联邦学习中固有增强后门鲁棒性的主流观点,揭示了DP可掩盖恶意更新统计特征的隐蔽效应,使现有防御失效。作者提出RING攻击,蓄意利用DP作掩护,多个恶意客户端通过协作构造对抗扰动,在聚合阶段重建强力后门信号而不触发异常检测。RING与具体后门技术解耦,可与已有攻击组合,威胁显著放大。在四个图像和文本数据集非独立同分布场景下,中等隐私预算时,RING对六种先进防御的平均攻击成功率达90.3%,较基线策略提升最高26.08倍。可能的缓解手段均伴随严重效用损失,暴露出差分隐私联邦学习部署中的根本性安全缺陷。
ARXIV · 2026年6月12日
ClinHallu 是一个用于分阶段诊断医学多模态大语言模型推理中幻觉的基准。它包含 7,031 个经过验证的样本,每个样本都配有结构化的推理轨迹,将推理过程分解为视觉识别、知识回忆和推理整合三个阶段。通过阶段替换干预来测量纠正特定阶段对最终答案的影响。论文还表明,基于推理轨迹的监督微调可以减少各阶段的幻觉。该基准已在 GitHub 上公开。
ARXIV · 2026年6月12日
该论文研究了利用可听频率(<20 kHz)对基于AI的计算机视觉系统进行声学对抗攻击。与以往受限于短距离的超声波攻击不同,本工作表明更低频率的声音可以引起商用摄像头的共振,从而产生物理运动并引入伪影。在现成的目标检测模型(YOLO11)上进行的物理实验导致误分类、漏检和物体幻觉。研究分析了不同图像和物体特征如何影响攻击效果,并提供了关于易受攻击因素的见解,以指导未来的缓解策略。
ARXIV · 2026年6月12日
提出了一种新方法,通过识别区分不同国籍故事的词汇标记并测量移除这些标记后叙事的相似性,来量化AI生成故事中模板化文化本地化与整体文化本地化的程度。对5个模型在125个主题和193个国籍下生成的故事进行评估,发现仅9%至17%的词汇决定了跨国差异,剩余文本包含重复的多词序列,表明存在一个共享的文化无涉叙事模板。研究进一步分析了所识别文化标记的刻板印象性和冒犯性,发现来自19个国家的标记(主要位于全球南方)平均具有冒犯性。
ARXIV · 2026年6月11日 · 重点
Ion Matei等人提出了一个空中野火抑制规划框架,整合了混合神经-元胞自动机火灾蔓延模型与基于梯度的优化方法。该模型根据地形、燃料和风输入预测空间变化的火灾行为,干预模块决定具有连续位置和方向参数的二元投放动作。水和阻燃剂被分别表示为立即减少活跃燃烧和持续降低未来蔓延的不同抑制效果。偶然不确定性通过每日火情状态的蒙特卡洛采样量化,认知不确定性通过空间相关的预测误差扰动量化。基于2020年熊火的案例研究表明,该框架能生成连贯的空中抑制时间表,并支持对干预策略进行不确定性分析。
ARXIV · 2026年6月11日
该论文将强化学习中的盾牌合成从运行时安全机制重新阐述为一种用于评估网络防御性的设计时分析工具。它通过一个受约束的双玩家安全博弈来实例化网络防御,产出防御性判定(拓扑-规约对是否可防御)、获胜区域、盾牌以及从吸引子计算中导出的拓扑级指标。这些形式化度量与对抗多智能体强化学习收敛后的行为相结合,形成防御性指纹。假设分析表明,形式防御性和运行有效性捕捉了安全的不同方面:微小的体系结构变化会导致运行结果的巨大变化,而形式安全余量几乎不变。研究认为,盾牌合成的最大价值在于回答关于系统是否、何处以及如何能防御的体系结构问题,而非仅仅产出安全策略。