リサーチ
ネガティブリザルト
8×90日ウォークフォワード Brier + ECE ゲートに対してテストされ、出荷アンサンブルを改善しなかったモデルバリアントと特徴量追加の一覧。不採用の決定は採用の決定と同じキャリブレーション物語であるため、全文を公開しています。各エントリは仮説、テスト、テストの判定理由を記録しています。
コーパス 23 ノート中 11 件が不採用。 採用されたバリアントを含む完全なノートインデックスは /research/notes/.
なぜ不採用を公開するのか
- チェリーピッキングの防止。 ゲートを改善したバリアントだけを公開すると、出荷アンサンブルは実際よりも必然的に見えてしまいます。不採用はコーパスとゲートが区別できないものの証拠であり、出荷されたモデル変更の周囲のネガティブスペースです。
- 意図しない再テストの防止。 6ヶ月前の失敗したアブレーションは、そのレポートが発見可能でなければ新しい協力者には見えません。ネガティブリザルトをポジティブと同じ場所に置くことで、「誰かこれを試したことがあるか?」という問いにコミットログを読まずに答えられます。
- モデルの天井の限界を示す。 同じコーパスで容量の大きいバリアントが連続して失敗することは、それ自体が測定です。現在のデータではゲートを突破するのが難しいことを示しています。このシグナルは、成功だけを見る読者よりも、失敗を見られる読者にとって有用です。
- 不採用3 June 2026
A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't
The feasibility probe found that, after controlling for team strength, only
ノートを読む →
- 不採用29 May 2026
Is composite *coverage* the lever for the player-strength offset? (No)
player-composite's match coverage — whether honestly (point-in-time WC
ノートを読む →
- 不採用29 May 2026
Does a player-form (momentum) offset improve match forecasts? (No)
player-form differential offset `Δ = α·(form_home − form_away)` does
ノートを読む →
- 不採用29 May 2026
Can we fit the player-strength coefficient instead of hand-setting it? (No)
α = 0.05 offset (Model 16) beats a per-fold fitted α on median Brier.
ノートを読む →
- 不採用27 May 2026
Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)
Model 5 (`scripts/build_anytime_scorer.py`) produces `P(player scores ≥ 1 across the WC tournament)`. The headline depends on `E[minutes]`, which is derived from `start_prob` (the per-match starter likelihood). The v1 chain was:
ノートを読む →
- 不採用27 May 2026
Do teams try harder in must-win games? (No, actually)
Football economics literature (Brams & Ismail 2018; Apesteguia & Palacios-Huerta 2010 on tournament-incentive distortions) reports that match outcomes in the final round of group-stage tournaments deviate from baseline expectations when the
ノートを読む →
- 不採用27 May 2026
Letting team ratings drift over time (didn't improve predictions)
Per the design note (variant a, "EMA on (α_t, β_t)"): each team's attack/defence parameters should EVOLVE through time rather than absorb every era's matches into a single stationary compromise. Refit DC at K snapshot timestamps (= the 8 qu
ノートを読む →
- 不採用24 May 2026
Do some playing styles beat others? (Not enough to measure)
- `scripts/build_style_matchup_training.py` (per-match training join)
ノートを読む →
- 不採用23 May 2026
Retuning the models for tournament football — what changed
PR #310 documented that all four models in the ensemble are ~7% worse on tournament matches than on the all-matches average. The natural follow-up is to refit the predict-time knobs on a tournament-only training slice and serve tournament-v
ノートを読む →
- 不採用21 May 2026
Does extra rest between matches help? (Not measurably)
Sports-science literature reports a measurable effect of recovery time on football performance: better-rested teams score slightly more goals than fatigued ones. The expected magnitude is small but consistent across studies (Mohr et al. 201
ノートを読む →
- 不採用
Can international-tournament StatsBomb signals beat the club-derived baseline?
PR #525 + PR #532 produced two new per-team signals extracted from StatsBomb open event data across WC 2018/2022, Euro 2020/2024, Copa America 2024, AFCON 2023:
ノートを読む →