Onderzoek

Negatieve resultaten

De modelvarianten en featuretoevoegingen die zijn getest, beoordeeld aan de hand van de 8×90-dagen walk-forward Brier + ECE-gate, en het verschepende ensemble niet verbeterden. Volledig gepubliceerd omdat het besluit om niet te verschepen hetzelfde kalibratieverhaal is als het besluit om wel te verschepen: elk item hieronder documenteert een hypothese die iemand had kunnen formuleren, de test die haar beoordeelde, en de reden waarom de test nee zei.

11 van de 25 notities in het corpus zijn afwijzingen. De volledige notitie-index, inclusief de varianten die wel zijn verscheept, staat op /research/notes/.

Waarom de afwijzingen publiceren

Geen selectief kiezen. Als alleen de varianten die de gate verbeterden zouden worden gepubliceerd, zou het verschepende ensemble onvermijdelijker lijken dan het is. De afwijzingen zijn het bewijs van wat het corpus en de gate niet kunnen onderscheiden: ze vormen de negatieve ruimte rond elke verscheepte modelwijziging.
Voorkomt opnieuw testen per ongeluk. Een zes maanden oude mislukte ablatie is onzichtbaar voor een nieuwe medewerker tenzij de beschrijving vindbaar is. Negatieve resultaten op hetzelfde oppervlak houden als positieve betekent dat "heeft iemand dit al geprobeerd?" een antwoord heeft dat niet vereist dat je de commitlog leest.
Geeft het plafond van het model aan. Een reeks mislukte capaciteitsintensieve varianten op hetzelfde corpus is zelf een meting: de gate is moeilijk te verslaan met de momenteel beschikbare data. Dat signaal is nuttiger voor een lezer die de mislukkingen kan zien dan voor iemand die alleen de successen ziet.

Negatieve resultaten

Waarom de afwijzingen publiceren

A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't

Is composite coverage the lever for the player-strength offset? (No)

Does a player-form (momentum) offset improve match forecasts? (No)

Can we fit the player-strength coefficient instead of hand-setting it? (No)

Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)

Do teams try harder in must-win games? (No, actually)

Letting team ratings drift over time (didn't improve predictions)

Do some playing styles beat others? (Not enough to measure)

Retuning the models for tournament football — what changed

Does extra rest between matches help? (Not measurably)

Can international-tournament StatsBomb signals beat the club-derived baseline?

Waarom de afwijzingen publiceren

A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't

Is composite *coverage* the lever for the player-strength offset? (No)

Does a player-form (momentum) offset improve match forecasts? (No)

Can we fit the player-strength coefficient instead of hand-setting it? (No)

Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)

Do teams try harder in must-win games? (No, actually)

Letting team ratings drift over time (didn't improve predictions)

Do some playing styles beat others? (Not enough to measure)

Retuning the models for tournament football — what changed

Does extra rest between matches help? (Not measurably)

Can international-tournament StatsBomb signals beat the club-derived baseline?

Is composite coverage the lever for the player-strength offset? (No)