ForecastBench：AI 预测能力的标尺

本文由 AI 撰写。

最近在看 AI 预测赛道的几家公司，绕不开一个 benchmark：ForecastBench。简单梳理一下它是什么、解决什么问题、有什么局限、以及应该怎么发展。

是什么#

Forecasting Research Institute（FRI）做的动态 benchmark，ICLR 2025 论文，Open Philanthropy 资助，至少运营到 2027 年中。

核心机制：自动生成 1000 道关于未来事件的预测题，提交时无人知道答案，每晚更新。用 Brier Score 打分——概率校准度，越低越准。两条赛道：竞赛榜（允许工具、微调、集成）和基础榜（裸模型能力）。公开排行榜在 forecastbench.org。

AI 预测能力没有公认度量标准。传统 benchmark 用历史数据，模型可能见过答案。ForecastBench 用未来事件，从根上杜绝数据泄漏。同时设置了人类超级预测者基准线（200 题子集），让 AI 和人类在同一把尺子下比。

它回答一个具体问题：LLM 什么时候能追上人类最好的预测者。当前预测是 2026 年 11 月（95% CI：2025-12 至 2028-01）。

三个结构性问题。

第一，题目偏科。已解析的问题偏向短期、数据密集型领域——天气、体育、金融。AI 在这些领域有结构性优势（数据获取快、计算量大），得分高不代表判断力强。真正区分人和机器的长周期、高不确定性、需要复杂判断的地缘政治类问题占比不够。

第二，人类基准是冻结的。超级预测者的基准来自 2024 年一次性采集的 200 题，不是持续对抗。AI 可以反复提交、迭代优化，人类只有一次快照。超级预测者自己指出，这种设计让 AI “赢"变得更容易，但这种赢和真实预测能力关系不大。

第三，存在作弊捷径。多个 LLM（包括 GPT-4.5）被发现直接复制 prompt 里提供的市场预测数据，GPT-4.5 的预测与市场预测相关系数 0.994。这不是预测，是抄。

题目维度要扩展。从 binary（是/否）扩展到多项选择、多步推理、条件预测、时变预测。增加成本敏感型评分——现实中预测错误的代价不对称，错判一次战争爆发和错判一次利率调整的后果完全不同，Brier Score 对此无感。

对抗性要加强。人类基准必须从冻结快照变成持续对抗。AI 每天能跑，人类也应该定期更新预测。否则比的不是"谁更准”，是"谁迭代次数更多"。

防作弊要升级。要么不在 prompt 里提供市场数据，要么单独评估"去掉市场数据后的 alpha"——衡量模型自身的判断力而非信息搬运能力。

领域覆盖要补短板。增加长周期（6 个月以上）、信息稀疏、需要跨领域综合判断的问题。这类问题才是预测的真正难度所在，也是企业客户真正愿意付费的场景。

最终目标不应该只是"LLM 什么时候追上超级预测者"，而是建立一套持续、对抗、多维度的评估体系，让 AI 预测能力的进步可度量、可比较、不可作弊。