历史表现
模型有多准确?
任何人都能说一支球队有 70% 的机会。真正的考验是之后会发生什么:被赋予 70% 概率的球队是否真的大约十次赢七次?以下是回答这个问题的核心数字——然后是你可以检验我们工作的所有方式。
以你已知的结果来评分
当这个模型说一支球队有 70% 的概率时,结果大致如此。我们在 24 个过往锦标赛(2014–2024)的全部 987 场比赛上进行了测试——每一场都由开球前一天重建的模型进行评分,因此它从未看到结果——其声明的概率与实际发生的情况偏差约 5.6 个百分点。
用一个数字概括:平均而言,它对实际发生的结果给出的概率比盲猜三选一高出约 35%。
对于统计专业人士而言,这是 0.572 的 ,对比盲猜的 0.667——越低越好。这是 2026 年的诚实标尺,而非事后美化的数字。
检验工作
模型接受问责的五种方式——证据、失败记录以及每个数字背后的版本化记录。
实时 + 样本外
校准计分板
按锦标赛和置信区间拆分的完整样本外回测,加上实时追踪器,逐场为 2026 年的每场比赛评分。一个被标为 70% 的结果应当约 70% 的时间发生——在此验证。
论证 · 免费
为何信任这些数字
概率背后的纪律——预注册的验收门控、按层级诚实报告,以及模型中置信度确实较低的部分,逐一点名。
已发布的失败
未通过的实验
每一个未通过发布门控的模型变体,连同完整判决一并发布。未通过的结果与成功的一样可见——如果只展示成功者,模型会显得比实际更不可避免。
版本化记录
每个版本的 Brier
模型的版本化历史——每次重新训练都标注了发布时的 Brier,使得任何页面上的数字都可追溯到一条有日期的记录。
如何构建
方法论
组件模型、训练流程、数据来源和回测设计——全部可从公开数据复现。
预测完整性
开球前锁定
每场比赛的预测在开球前几小时锁定。锁定的概率是模型评估所依据的最终预测。一旦冻结,数字就无法更改,因此本页面的校准分数反映了每场比赛前实际发布的内容。