Onderzoek
Negatieve resultaten
De modelvarianten en featuretoevoegingen die zijn getest, beoordeeld aan de hand van de 8×90-dagen walk-forward Brier + ECE-gate, en het verschepende ensemble niet verbeterden. Volledig gepubliceerd omdat het besluit om niet te verschepen hetzelfde kalibratieverhaal is als het besluit om wel te verschepen: elk item hieronder documenteert een hypothese die iemand had kunnen formuleren, de test die haar beoordeelde, en de reden waarom de test nee zei.
11 van de 23 notities in het corpus zijn afwijzingen. De volledige notitie-index, inclusief de varianten die wel zijn verscheept, staat op /research/notes/.
Waarom de afwijzingen publiceren
- Geen selectief kiezen. Als alleen de varianten die de gate verbeterden zouden worden gepubliceerd, zou het verschepende ensemble onvermijdelijker lijken dan het is. De afwijzingen zijn het bewijs van wat het corpus en de gate niet kunnen onderscheiden: ze vormen de negatieve ruimte rond elke verscheepte modelwijziging.
- Voorkomt opnieuw testen per ongeluk. Een zes maanden oude mislukte ablatie is onzichtbaar voor een nieuwe medewerker tenzij de beschrijving vindbaar is. Negatieve resultaten op hetzelfde oppervlak houden als positieve betekent dat "heeft iemand dit al geprobeerd?" een antwoord heeft dat niet vereist dat je de commitlog leest.
- Geeft het plafond van het model aan. Een reeks mislukte capaciteitsintensieve varianten op hetzelfde corpus is zelf een meting: de gate is moeilijk te verslaan met de momenteel beschikbare data. Dat signaal is nuttiger voor een lezer die de mislukkingen kan zien dan voor iemand die alleen de successen ziet.
- Niet verscheept3 June 2026
A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't
The feasibility probe found that, after controlling for team strength, only
Lees notitie →
- Niet verscheept29 May 2026
Is composite *coverage* the lever for the player-strength offset? (No)
player-composite's match coverage — whether honestly (point-in-time WC
Lees notitie →
- Niet verscheept29 May 2026
Does a player-form (momentum) offset improve match forecasts? (No)
player-form differential offset `Δ = α·(form_home − form_away)` does
Lees notitie →
- Niet verscheept29 May 2026
Can we fit the player-strength coefficient instead of hand-setting it? (No)
α = 0.05 offset (Model 16) beats a per-fold fitted α on median Brier.
Lees notitie →
- Niet verscheept27 May 2026
Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)
Model 5 (`scripts/build_anytime_scorer.py`) produces `P(player scores ≥ 1 across the WC tournament)`. The headline depends on `E[minutes]`, which is derived from `start_prob` (the per-match starter likelihood). The v1 chain was:
Lees notitie →
- Niet verscheept27 May 2026
Do teams try harder in must-win games? (No, actually)
Football economics literature (Brams & Ismail 2018; Apesteguia & Palacios-Huerta 2010 on tournament-incentive distortions) reports that match outcomes in the final round of group-stage tournaments deviate from baseline expectations when the
Lees notitie →
- Niet verscheept27 May 2026
Letting team ratings drift over time (didn't improve predictions)
Per the design note (variant a, "EMA on (α_t, β_t)"): each team's attack/defence parameters should EVOLVE through time rather than absorb every era's matches into a single stationary compromise. Refit DC at K snapshot timestamps (= the 8 qu
Lees notitie →
- Niet verscheept24 May 2026
Do some playing styles beat others? (Not enough to measure)
- `scripts/build_style_matchup_training.py` (per-match training join)
Lees notitie →
- Niet verscheept23 May 2026
Retuning the models for tournament football — what changed
PR #310 documented that all four models in the ensemble are ~7% worse on tournament matches than on the all-matches average. The natural follow-up is to refit the predict-time knobs on a tournament-only training slice and serve tournament-v
Lees notitie →
- Niet verscheept21 May 2026
Does extra rest between matches help? (Not measurably)
Sports-science literature reports a measurable effect of recovery time on football performance: better-rested teams score slightly more goals than fatigued ones. The expected magnitude is small but consistent across studies (Mohr et al. 201
Lees notitie →
- Niet verscheept
Can international-tournament StatsBomb signals beat the club-derived baseline?
PR #525 + PR #532 produced two new per-team signals extracted from StatsBomb open event data across WC 2018/2022, Euro 2020/2024, Copa America 2024, AFCON 2023:
Lees notitie →