Recherche
Résultats négatifs
Les variantes du modèle et les ajouts de variables qui ont été testés, évalués contre le seuil walk-forward Brier + ECE de 8×90 jours, et qui n'ont pas amélioré l'ensemble en production. Publiés intégralement parce que la décision de ne pas publier relève de la même logique de calibration que la décision de publier : chaque entrée ci-dessous consigne une hypothèse, le test qui l'a jugée et la raison pour laquelle le test a dit non.
11 notes sur 23 dans le corpus sont des non-publiés. L'index complet des notes, y compris les variantes qui ont été publiées, se trouve à /research/notes/.
Pourquoi publier les non-publiés
- Pas de sélection à la carte. Si seules les variantes ayant amélioré le seuil étaient publiées, l'ensemble en production semblerait plus inévitable qu'il ne l'est. Les non-publiés sont la preuve de ce que le corpus et le seuil ne parviennent pas à distinguer : l'espace négatif autour de chaque modification publiée du modèle.
- Empêche de retester par accident. Une ablation échouée il y a six mois est invisible pour un nouveau collaborateur à moins que son compte rendu soit consultable. Garder les résultats négatifs sur la même surface que les positifs signifie que « quelqu'un a-t-il déjà essayé cela ? » a une réponse qui ne nécessite pas de lire l'historique des commits.
- Délimite le plafond du modèle. Une série de variantes échouées à forte capacité sur le même corpus est en soi une mesure : le seuil est difficile à dépasser avec les données actuellement disponibles. Ce signal est plus utile à un lecteur qui peut voir les échecs qu'à un qui ne voit que les réussites.
- Non publié3 June 2026
A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't
The feasibility probe found that, after controlling for team strength, only
Lire la note →
- Non publié29 May 2026
Is composite *coverage* the lever for the player-strength offset? (No)
player-composite's match coverage — whether honestly (point-in-time WC
Lire la note →
- Non publié29 May 2026
Does a player-form (momentum) offset improve match forecasts? (No)
player-form differential offset `Δ = α·(form_home − form_away)` does
Lire la note →
- Non publié29 May 2026
Can we fit the player-strength coefficient instead of hand-setting it? (No)
α = 0.05 offset (Model 16) beats a per-fold fitted α on median Brier.
Lire la note →
- Non publié27 May 2026
Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)
Model 5 (`scripts/build_anytime_scorer.py`) produces `P(player scores ≥ 1 across the WC tournament)`. The headline depends on `E[minutes]`, which is derived from `start_prob` (the per-match starter likelihood). The v1 chain was:
Lire la note →
- Non publié27 May 2026
Do teams try harder in must-win games? (No, actually)
Football economics literature (Brams & Ismail 2018; Apesteguia & Palacios-Huerta 2010 on tournament-incentive distortions) reports that match outcomes in the final round of group-stage tournaments deviate from baseline expectations when the
Lire la note →
- Non publié27 May 2026
Letting team ratings drift over time (didn't improve predictions)
Per the design note (variant a, "EMA on (α_t, β_t)"): each team's attack/defence parameters should EVOLVE through time rather than absorb every era's matches into a single stationary compromise. Refit DC at K snapshot timestamps (= the 8 qu
Lire la note →
- Non publié24 May 2026
Do some playing styles beat others? (Not enough to measure)
- `scripts/build_style_matchup_training.py` (per-match training join)
Lire la note →
- Non publié23 May 2026
Retuning the models for tournament football — what changed
PR #310 documented that all four models in the ensemble are ~7% worse on tournament matches than on the all-matches average. The natural follow-up is to refit the predict-time knobs on a tournament-only training slice and serve tournament-v
Lire la note →
- Non publié21 May 2026
Does extra rest between matches help? (Not measurably)
Sports-science literature reports a measurable effect of recovery time on football performance: better-rested teams score slightly more goals than fatigued ones. The expected magnitude is small but consistent across studies (Mohr et al. 201
Lire la note →
- Non publié
Can international-tournament StatsBomb signals beat the club-derived baseline?
PR #525 + PR #532 produced two new per-team signals extracted from StatsBomb open event data across WC 2018/2022, Euro 2020/2024, Copa America 2024, AFCON 2023:
Lire la note →