Investigación
Resultados negativos
Las variantes del modelo y adiciones de características que se probaron, se juzgaron contra la compuerta walk-forward de Brier + ECE de 8x90 días, y no mejoraron el ensamble publicado. Publicadas íntegramente porque la decisión de no publicar es la misma historia de calibración que la decisión de publicar: cada entrada de abajo registra una hipótesis que alguien podría haber formulado, la prueba que la juzgó y la razón por la que la prueba dijo no.
11 de 23 notas en el corpus son no-publicados. El índice completo de notas, incluyendo las variantes que sí se publicaron, está en /research/notes/.
Por qué publicar los no-publicados
- Sin selección parcial. Si solo se publicaran las variantes que mejoraron la compuerta, el ensamble publicado parecería más inevitable de lo que es. Los no-publicados son evidencia de lo que el corpus y la compuerta no pueden distinguir: son el espacio negativo alrededor de cada cambio publicado del modelo.
- Evita volver a probar por accidente. Una ablación fallida de hace seis meses es invisible para un nuevo colaborador a menos que su informe sea localizable. Mantener los resultados negativos en la misma superficie que los positivos significa que "¿alguien probó esto?" tiene una respuesta que no requiere leer el historial de commits.
- Delimita el techo del modelo. Una serie de variantes fallidas de alta capacidad con el mismo corpus es en sí misma una medición: la compuerta es difícil de superar con los datos actualmente disponibles. Esa señal es más útil para un lector que puede ver los fracasos que para uno que solo ve los éxitos.
- No publicado3 June 2026
A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't
The feasibility probe found that, after controlling for team strength, only
Leer nota →
- No publicado29 May 2026
Is composite *coverage* the lever for the player-strength offset? (No)
player-composite's match coverage — whether honestly (point-in-time WC
Leer nota →
- No publicado29 May 2026
Does a player-form (momentum) offset improve match forecasts? (No)
player-form differential offset `Δ = α·(form_home − form_away)` does
Leer nota →
- No publicado29 May 2026
Can we fit the player-strength coefficient instead of hand-setting it? (No)
α = 0.05 offset (Model 16) beats a per-fold fitted α on median Brier.
Leer nota →
- No publicado27 May 2026
Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)
Model 5 (`scripts/build_anytime_scorer.py`) produces `P(player scores ≥ 1 across the WC tournament)`. The headline depends on `E[minutes]`, which is derived from `start_prob` (the per-match starter likelihood). The v1 chain was:
Leer nota →
- No publicado27 May 2026
Do teams try harder in must-win games? (No, actually)
Football economics literature (Brams & Ismail 2018; Apesteguia & Palacios-Huerta 2010 on tournament-incentive distortions) reports that match outcomes in the final round of group-stage tournaments deviate from baseline expectations when the
Leer nota →
- No publicado27 May 2026
Letting team ratings drift over time (didn't improve predictions)
Per the design note (variant a, "EMA on (α_t, β_t)"): each team's attack/defence parameters should EVOLVE through time rather than absorb every era's matches into a single stationary compromise. Refit DC at K snapshot timestamps (= the 8 qu
Leer nota →
- No publicado24 May 2026
Do some playing styles beat others? (Not enough to measure)
- `scripts/build_style_matchup_training.py` (per-match training join)
Leer nota →
- No publicado23 May 2026
Retuning the models for tournament football — what changed
PR #310 documented that all four models in the ensemble are ~7% worse on tournament matches than on the all-matches average. The natural follow-up is to refit the predict-time knobs on a tournament-only training slice and serve tournament-v
Leer nota →
- No publicado21 May 2026
Does extra rest between matches help? (Not measurably)
Sports-science literature reports a measurable effect of recovery time on football performance: better-rested teams score slightly more goals than fatigued ones. The expected magnitude is small but consistent across studies (Mohr et al. 201
Leer nota →
- No publicado
Can international-tournament StatsBomb signals beat the club-derived baseline?
PR #525 + PR #532 produced two new per-team signals extracted from StatsBomb open event data across WC 2018/2022, Euro 2020/2024, Copa America 2024, AFCON 2023:
Leer nota →