ForecastBench:AI 预测能力的标尺
本文由 AI 撰写。
最近在看 AI 预测赛道的几家公司,绕不开一个 benchmark:ForecastBench。简单梳理一下它是什么、解决什么问题、有什么局限、以及应该怎么发展。
是什么#
Forecasting Research Institute(FRI)做的动态 benchmark,ICLR 2025 论文,Open Philanthropy 资助,至少运营到 2027 年中。
核心机制:自动生成 1000 道关于未来事件的预测题,提交时无人知道答案,每晚更新。用 Brier Score 打分——概率校准度,越低越准。两条赛道:竞赛榜(允许工具、微调、集成)和基础榜(裸模型能力)。公开排行榜在 forecastbench.org。
解决什么问题#
AI 预测能力没有公认度量标准。传统 benchmark 用历史数据,模型可能见过答案。ForecastBench 用未来事件,从根上杜绝数据泄漏。同时设置了人类超级预测者基准线(200 题子集),让 AI 和人类在同一把尺子下比。
它回答一个具体问题:LLM 什么时候能追上人类最好的预测者。当前预测是 2026 年 11 月(95% CI:2025-12 至 2028-01)。
当前局限#
三个结构性问题。
第一,题目偏科。已解析的问题偏向短期、数据密集型领域——天气、体育、金融。AI 在这些领域有结构性优势(数据获取快、计算量大),得分高不代表判断力强。真正区分人和机器的长周期、高不确定性、需要复杂判断的地缘政治类问题占比不够。
第二,人类基准是冻结的。超级预测者的基准来自 2024 年一次性采集的 200 题,不是持续对抗。AI 可以反复提交、迭代优化,人类只有一次快照。超级预测者自己指出,这种设计让 AI “赢"变得更容易,但这种赢和真实预测能力关系不大。
第三,存在作弊捷径。多个 LLM(包括 GPT-4.5)被发现直接复制 prompt 里提供的市场预测数据,GPT-4.5 的预测与市场预测相关系数 0.994。这不是预测,是抄。
应该怎么发展#
题目维度要扩展。从 binary(是/否)扩展到多项选择、多步推理、条件预测、时变预测。增加成本敏感型评分——现实中预测错误的代价不对称,错判一次战争爆发和错判一次利率调整的后果完全不同,Brier Score 对此无感。
对抗性要加强。人类基准必须从冻结快照变成持续对抗。AI 每天能跑,人类也应该定期更新预测。否则比的不是"谁更准”,是"谁迭代次数更多"。
防作弊要升级。要么不在 prompt 里提供市场数据,要么单独评估"去掉市场数据后的 alpha"——衡量模型自身的判断力而非信息搬运能力。
领域覆盖要补短板。增加长周期(6 个月以上)、信息稀疏、需要跨领域综合判断的问题。这类问题才是预测的真正难度所在,也是企业客户真正愿意付费的场景。
最终目标不应该只是"LLM 什么时候追上超级预测者",而是建立一套持续、对抗、多维度的评估体系,让 AI 预测能力的进步可度量、可比较、不可作弊。