First Proof 项目严格测试:AI 数学解题能力仍不如人类专家
First Proof 项目让 4 款 AI 系统解答 10 道由数学家专门设计的原创、未公开科研级数学题,所有题目均从未出现在模型训练数据中,并由相关领域的匿名专家评审团打分。结果显示,AI 作答频繁出现幻觉,且全部严重缺失文献引用,未标注任何来源。该测试首次同时满足三大核心标准:前沿数学问题、零训练数据泄漏、专业数学家评审,证实当前推理模型仍无法匹敌顶尖人类数学家。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
5 条内容
First Proof 项目让 4 款 AI 系统解答 10 道由数学家专门设计的原创、未公开科研级数学题,所有题目均从未出现在模型训练数据中,并由相关领域的匿名专家评审团打分。结果显示,AI 作答频繁出现幻觉,且全部严重缺失文献引用,未标注任何来源。该测试首次同时满足三大核心标准:前沿数学问题、零训练数据泄漏、专业数学家评审,证实当前推理模型仍无法匹敌顶尖人类数学家。
2021年至2025年间,中国高校撤销或暂停了12,200个本科专业,同时新增了10,200个专业,调整比例超过三成。此举旨在应对严峻的毕业生就业危机,并使教育内容与人工智能等新兴高科技产业接轨,以助力中国在这些未来产业中取得全球领先地位。相关数据由新华社援引教育部公布。
尽管英伟达、SpaceX、谷歌和初创公司Starcloud相继宣布建设由数千颗搭载AI GPU的卫星组成的轨道数据中心星座,但从物理原理分析,太空中免费的冷却是一个误解:真空环境下只有辐射散热有效,需要巨大的散热表面来防止芯片过热。太阳能需要复杂的太阳跟踪系统,宇宙射线会降低太阳能板、辐射冷却器和芯片的性能。太空维护极其困难,必须配备冗余系统。粗略成本比较显示,太空中运行AI GPU一年的成本比地面数据中心至少高出一个数量级。轨道数据中心在特定领域可能有用,但经济上不可行。
天文学家研究年龄约100亿年、距离113光年的双星系统HD 81809,发现两颗G型恒星的铁丰度相差约3.7倍,超出通常双星演化范围。主序星HD 81809B还显示异常高的锂含量,这是老年低质量恒星近期吞噬行星的关键迹象。模型表明它必须吞没了25至75地球质量的富金属物质,相当于海王星至土星金属核的质量。该系统为同龄双星中恒星吞噬行星提供了直接的观测证据。
联合国大学水、环境与健康研究所发布报告量化了AI能耗的环境足迹。报告预计到2030年,全球AI数据中心每年将消耗945 TWh电力,用水量相当于13亿人一年的基本生活用水需求,土地占用面积将超过14500平方公里。仅训练GPT-5就估计需要约100 GWh电力、10亿升水和1.5平方公里土地。报告指出,推理环节占AI总能耗的80%至90%。2025年全球数据中心已消耗448 TWh电力,若视为一个国家将排名全球第11大电力消费国。