Forschung
Negative Ergebnisse
Die Modellvarianten und Feature-Ergänzungen, die getestet, gegen das 8×90-Tage Walk-Forward Brier- + ECE-Gate bewertet und das versendete Ensemble nicht verbessert haben. Vollständig veröffentlicht, weil die Entscheidung, nicht zu veröffentlichen, dieselbe Kalibrierungsgeschichte ist wie die Entscheidung zu veröffentlichen: Jeder Eintrag unten dokumentiert eine Hypothese, die jemand hätte formulieren können, den Test, der sie bewertet hat, und den Grund, warum der Test Nein gesagt hat.
11 von 23 Notizen im Korpus sind Nicht-Veröffentlichungen. Der vollständige Notizen-Index, einschliesslich der Varianten, die veröffentlicht wurden, befindet sich unter /research/notes/.
Warum die Nicht-Veröffentlichungen publizieren
- Kein Rosinenpicken. Wenn nur die Varianten veröffentlicht würden, die das Gate verbessert haben, würde das versendete Ensemble unvermeidlicher wirken, als es ist. Die Nicht-Veröffentlichungen sind der Beweis für das, was Korpus und Gate nicht unterscheiden können: der Negativraum um jede veröffentlichte Modelländerung.
- Verhindert erneutes Testen aus Versehen. Eine sechs Monate alte gescheiterte Ablation ist für einen neuen Mitarbeiter unsichtbar, wenn ihr Bericht nicht auffindbar ist. Negative Ergebnisse auf derselben Oberfläche wie positive zu halten bedeutet, dass "Hat das schon jemand versucht?" eine Antwort hat, die nicht das Lesen des Commit-Logs erfordert.
- Begrenzt die Obergrenze des Modells. Eine Reihe gescheiterter kapazitätsintensiver Varianten auf demselben Korpus ist selbst eine Messung: Das Gate ist mit den derzeit verfügbaren Daten schwer zu schlagen. Dieses Signal ist für einen Leser nützlicher, der die Fehlschläge sehen kann, als für einen, der nur die Erfolge sieht.
- Nicht veröffentlicht3 June 2026
A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't
The feasibility probe found that, after controlling for team strength, only
Notiz lesen →
- Nicht veröffentlicht29 May 2026
Is composite *coverage* the lever for the player-strength offset? (No)
player-composite's match coverage — whether honestly (point-in-time WC
Notiz lesen →
- Nicht veröffentlicht29 May 2026
Does a player-form (momentum) offset improve match forecasts? (No)
player-form differential offset `Δ = α·(form_home − form_away)` does
Notiz lesen →
- Nicht veröffentlicht29 May 2026
Can we fit the player-strength coefficient instead of hand-setting it? (No)
α = 0.05 offset (Model 16) beats a per-fold fitted α on median Brier.
Notiz lesen →
- Nicht veröffentlicht27 May 2026
Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)
Model 5 (`scripts/build_anytime_scorer.py`) produces `P(player scores ≥ 1 across the WC tournament)`. The headline depends on `E[minutes]`, which is derived from `start_prob` (the per-match starter likelihood). The v1 chain was:
Notiz lesen →
- Nicht veröffentlicht27 May 2026
Do teams try harder in must-win games? (No, actually)
Football economics literature (Brams & Ismail 2018; Apesteguia & Palacios-Huerta 2010 on tournament-incentive distortions) reports that match outcomes in the final round of group-stage tournaments deviate from baseline expectations when the
Notiz lesen →
- Nicht veröffentlicht27 May 2026
Letting team ratings drift over time (didn't improve predictions)
Per the design note (variant a, "EMA on (α_t, β_t)"): each team's attack/defence parameters should EVOLVE through time rather than absorb every era's matches into a single stationary compromise. Refit DC at K snapshot timestamps (= the 8 qu
Notiz lesen →
- Nicht veröffentlicht24 May 2026
Do some playing styles beat others? (Not enough to measure)
- `scripts/build_style_matchup_training.py` (per-match training join)
Notiz lesen →
- Nicht veröffentlicht23 May 2026
Retuning the models for tournament football — what changed
PR #310 documented that all four models in the ensemble are ~7% worse on tournament matches than on the all-matches average. The natural follow-up is to refit the predict-time knobs on a tournament-only training slice and serve tournament-v
Notiz lesen →
- Nicht veröffentlicht21 May 2026
Does extra rest between matches help? (Not measurably)
Sports-science literature reports a measurable effect of recovery time on football performance: better-rested teams score slightly more goals than fatigued ones. The expected magnitude is small but consistent across studies (Mohr et al. 201
Notiz lesen →
- Nicht veröffentlicht
Can international-tournament StatsBomb signals beat the club-derived baseline?
PR #525 + PR #532 produced two new per-team signals extracted from StatsBomb open event data across WC 2018/2022, Euro 2020/2024, Copa America 2024, AFCON 2023:
Notiz lesen →