Ricerca
Risultati negativi
Le varianti del modello e le aggiunte di feature che sono state testate, giudicate dal gate walk-forward Brier + ECE a 8×90 giorni, e non hanno migliorato l'ensemble in produzione. Pubblicate integralmente perché la decisione di non pubblicare è la stessa storia di calibrazione della decisione di pubblicare: ogni voce qui sotto registra un'ipotesi che qualcuno avrebbe potuto formulare, il test che l'ha giudicata e il motivo per cui il test ha detto no.
11 note su 23 nel corpus non sono state pubblicate. L'indice completo delle note, incluse le varianti che sono state pubblicate, si trova su /research/notes/.
Perché pubblicare i non pubblicati
- Niente cherry-picking. Se fossero pubblicate solo le varianti che hanno migliorato il gate, l'ensemble in produzione sembrerebbe più inevitabile di quanto sia. I non pubblicati sono la prova di ciò che il corpus e il gate non riescono a distinguere: sono lo spazio negativo attorno a ogni modifica pubblicata.
- Evita di ritestare per errore. Un'ablazione fallita sei mesi fa è invisibile per un nuovo collaboratore a meno che il suo resoconto non sia trovabile. Mantenere i risultati negativi sulla stessa superficie dei positivi significa che "qualcuno ci ha già provato?" ha una risposta che non richiede la lettura del log dei commit.
- Delimita il tetto del modello. Una serie di varianti ad alta capacità fallite sullo stesso corpus è a sua volta una misura: il gate è difficile da battere con i dati attualmente disponibili. Quel segnale è più utile per un lettore che può vedere i fallimenti che per uno che vede solo i successi.
- Non pubblicata3 June 2026
A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't
The feasibility probe found that, after controlling for team strength, only
Leggi la nota →
- Non pubblicata29 May 2026
Is composite *coverage* the lever for the player-strength offset? (No)
player-composite's match coverage — whether honestly (point-in-time WC
Leggi la nota →
- Non pubblicata29 May 2026
Does a player-form (momentum) offset improve match forecasts? (No)
player-form differential offset `Δ = α·(form_home − form_away)` does
Leggi la nota →
- Non pubblicata29 May 2026
Can we fit the player-strength coefficient instead of hand-setting it? (No)
α = 0.05 offset (Model 16) beats a per-fold fitted α on median Brier.
Leggi la nota →
- Non pubblicata27 May 2026
Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)
Model 5 (`scripts/build_anytime_scorer.py`) produces `P(player scores ≥ 1 across the WC tournament)`. The headline depends on `E[minutes]`, which is derived from `start_prob` (the per-match starter likelihood). The v1 chain was:
Leggi la nota →
- Non pubblicata27 May 2026
Do teams try harder in must-win games? (No, actually)
Football economics literature (Brams & Ismail 2018; Apesteguia & Palacios-Huerta 2010 on tournament-incentive distortions) reports that match outcomes in the final round of group-stage tournaments deviate from baseline expectations when the
Leggi la nota →
- Non pubblicata27 May 2026
Letting team ratings drift over time (didn't improve predictions)
Per the design note (variant a, "EMA on (α_t, β_t)"): each team's attack/defence parameters should EVOLVE through time rather than absorb every era's matches into a single stationary compromise. Refit DC at K snapshot timestamps (= the 8 qu
Leggi la nota →
- Non pubblicata24 May 2026
Do some playing styles beat others? (Not enough to measure)
- `scripts/build_style_matchup_training.py` (per-match training join)
Leggi la nota →
- Non pubblicata23 May 2026
Retuning the models for tournament football — what changed
PR #310 documented that all four models in the ensemble are ~7% worse on tournament matches than on the all-matches average. The natural follow-up is to refit the predict-time knobs on a tournament-only training slice and serve tournament-v
Leggi la nota →
- Non pubblicata21 May 2026
Does extra rest between matches help? (Not measurably)
Sports-science literature reports a measurable effect of recovery time on football performance: better-rested teams score slightly more goals than fatigued ones. The expected magnitude is small but consistent across studies (Mohr et al. 201
Leggi la nota →
- Non pubblicata
Can international-tournament StatsBomb signals beat the club-derived baseline?
PR #525 + PR #532 produced two new per-team signals extracted from StatsBomb open event data across WC 2018/2022, Euro 2020/2024, Copa America 2024, AFCON 2023:
Leggi la nota →