关于
体育数据、模型和人工智能应当属于每一个人
过去十年,职业俱乐部和国家足协不断加大在数据分析领域的投入——专有追踪数据源、内部模型架构、专职数据科学团队,以及公众无法接触的工具。OnThePitch 致力于将这一切大众化——数据、模型及其背后的人工智能——从 2026 FIFA 世界杯开始。
OnThePitch
我们发布什么
一个经过校准的世界杯统计模型——每场比赛的胜负概率、每支球队的预测首发 XI、夺冠概率、各球员进球概率、预期进球数,以及所有方法论。基于公开数据源构建,每次运行后刷新,文档全部公开。
详见 /docs/methodology/ 获取完整方法论,/posts/ 查阅短篇研究笔记,/data/ 获取数据导出接口。
如何理解概率
本站上的每个数字都是概率——一种长期频率,而非对必然结果的预测。当模型给一支球队 18% 的获胜概率时,意味着在许多类似比赛中,这样的结果大约每五次出现一次。低概率事件经常发生;这正是 18% 的含义。
因为这些数字是频率,我们也用同样的方式验证——将模型的预测与实际结果逐场对比。方法论详细说明了概率如何构建和校准,您在使用过程中遇到的每个术语或数据列都有对应的定义。
我们面向谁
希望获得概率支持视角的幻想联赛玩家,想要可引用模型输出而非直觉判断的足球记者,想要通过 API 获取整洁逐场数据的体育分析爱好者和开发者,研究锦标赛动态的学者,以及所有希望获得与职业人士同等统计视角的球迷。
我们为什么这样做
一家现代 Premier League 俱乐部每月在数据合同上花费五位数,雇佣专职分析师拟合 Dixon-Coles 模型变体,生成球迷永远看不到的战术报告。他们产出的大部分内容并非机密——无非是 Elo 重新拟合、Poisson 进球模型、Bayesian 层次模型——但整合的成本很高,而成本正在于整合本身。
我们想要论证的是,这种整合应当成为公共产品。如果任何拥有浏览器的人都能阅读一份经过校准的锦标赛预测,那么关于一场比赛的讨论就不再是电视评论员怎么看,而是模型的观点是什么、它在哪里有信心、又在哪里没有。这是更好的对话,也是本项目试图促成的对话。
我们的工作方式
公开数据源
模型读取的所有数据均公开可得——FIFA 赛程、Wikipedia 阵容页面、通过 worldfootballR 生态获取的 FBref 数据、公开的俱乐部赛季数据。完整数据源列表在方法论页面,任何读者都可以从同样的公开档案中复现输入。
方法论完全公开
本站上的每一个概率都来自一个模型,其架构、特征、训练流程和局限性全部记录在 /docs/。如果页面上的某个数字令您意外,方法论应当能解释它的来源。
免费基础访问
核心预测——锦标赛冠军、小组排名、淘汰赛路径——对所有读者免费开放,同时提供预测首发 XI、大名单、球员综合评分和完整方法论。更深层的数据在一次性 Pass 后解锁,用以资助研究工作。
编辑范畴
OnThePitch 在结构上是一个统计出版物——与 FiveThirtyEight 或 FBref 属于同一传统。产品是模型的校准概率、背后的方法论,以及由此衍生的球队和球员分析。收入用于资助研究。
联系我们
发现了错误、想要建议新功能,或者有研究问题?最快的方式是使用 反馈表单。
运营团队
OnThePitch 是一个独立的体育数据分析项目。