Recherche

Résultats négatifs

Les variantes du modèle et les ajouts de variables qui ont été testés, évalués contre le seuil walk-forward Brier + ECE de 8×90 jours, et qui n'ont pas amélioré l'ensemble en production. Publiés intégralement parce que la décision de ne pas publier relève de la même logique de calibration que la décision de publier : chaque entrée ci-dessous consigne une hypothèse, le test qui l'a jugée et la raison pour laquelle le test a dit non.

11 notes sur 25 dans le corpus sont des non-publiés. L'index complet des notes, y compris les variantes qui ont été publiées, se trouve à /research/notes/.

Pourquoi publier les non-publiés

Pas de sélection à la carte. Si seules les variantes ayant amélioré le seuil étaient publiées, l'ensemble en production semblerait plus inévitable qu'il ne l'est. Les non-publiés sont la preuve de ce que le corpus et le seuil ne parviennent pas à distinguer : l'espace négatif autour de chaque modification publiée du modèle.
Empêche de retester par accident. Une ablation échouée il y a six mois est invisible pour un nouveau collaborateur à moins que son compte rendu soit consultable. Garder les résultats négatifs sur la même surface que les positifs signifie que « quelqu'un a-t-il déjà essayé cela ? » a une réponse qui ne nécessite pas de lire l'historique des commits.
Délimite le plafond du modèle. Une série de variantes échouées à forte capacité sur le même corpus est en soi une mesure : le seuil est difficile à dépasser avec les données actuellement disponibles. Ce signal est plus utile à un lecteur qui peut voir les échecs qu'à un qui ne voit que les réussites.

Résultats négatifs

Pourquoi publier les non-publiés

A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't

Is composite coverage the lever for the player-strength offset? (No)

Does a player-form (momentum) offset improve match forecasts? (No)

Can we fit the player-strength coefficient instead of hand-setting it? (No)

Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)

Do teams try harder in must-win games? (No, actually)

Letting team ratings drift over time (didn't improve predictions)

Do some playing styles beat others? (Not enough to measure)

Retuning the models for tournament football — what changed

Does extra rest between matches help? (Not measurably)

Can international-tournament StatsBomb signals beat the club-derived baseline?

Pourquoi publier les non-publiés

A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't

Is composite *coverage* the lever for the player-strength offset? (No)

Does a player-form (momentum) offset improve match forecasts? (No)

Can we fit the player-strength coefficient instead of hand-setting it? (No)

Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)

Do teams try harder in must-win games? (No, actually)

Letting team ratings drift over time (didn't improve predictions)

Do some playing styles beat others? (Not enough to measure)

Retuning the models for tournament football — what changed

Does extra rest between matches help? (Not measurably)

Can international-tournament StatsBomb signals beat the club-derived baseline?

Is composite coverage the lever for the player-strength offset? (No)