Investigación

Resultados negativos

Las variantes del modelo y adiciones de características que se probaron, se juzgaron contra la compuerta walk-forward de Brier + ECE de 8x90 días, y no mejoraron el ensamble publicado. Publicadas íntegramente porque la decisión de no publicar es la misma historia de calibración que la decisión de publicar: cada entrada de abajo registra una hipótesis que alguien podría haber formulado, la prueba que la juzgó y la razón por la que la prueba dijo no.

11 de 25 notas en el corpus son no-publicados. El índice completo de notas, incluyendo las variantes que sí se publicaron, está en /research/notes/.

Por qué publicar los no-publicados

Sin selección parcial. Si solo se publicaran las variantes que mejoraron la compuerta, el ensamble publicado parecería más inevitable de lo que es. Los no-publicados son evidencia de lo que el corpus y la compuerta no pueden distinguir: son el espacio negativo alrededor de cada cambio publicado del modelo.
Evita volver a probar por accidente. Una ablación fallida de hace seis meses es invisible para un nuevo colaborador a menos que su informe sea localizable. Mantener los resultados negativos en la misma superficie que los positivos significa que "¿alguien probó esto?" tiene una respuesta que no requiere leer el historial de commits.
Delimita el techo del modelo. Una serie de variantes fallidas de alta capacidad con el mismo corpus es en sí misma una medición: la compuerta es difícil de superar con los datos actualmente disponibles. Esa señal es más útil para un lector que puede ver los fracasos que para uno que solo ve los éxitos.

Resultados negativos

Por qué publicar los no-publicados

A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't

Is composite coverage the lever for the player-strength offset? (No)

Does a player-form (momentum) offset improve match forecasts? (No)

Can we fit the player-strength coefficient instead of hand-setting it? (No)

Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)

Do teams try harder in must-win games? (No, actually)

Letting team ratings drift over time (didn't improve predictions)

Do some playing styles beat others? (Not enough to measure)

Retuning the models for tournament football — what changed

Does extra rest between matches help? (Not measurably)

Can international-tournament StatsBomb signals beat the club-derived baseline?

Por qué publicar los no-publicados

A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't

Is composite *coverage* the lever for the player-strength offset? (No)

Does a player-form (momentum) offset improve match forecasts? (No)

Can we fit the player-strength coefficient instead of hand-setting it? (No)

Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)

Do teams try harder in must-win games? (No, actually)

Letting team ratings drift over time (didn't improve predictions)

Do some playing styles beat others? (Not enough to measure)

Retuning the models for tournament football — what changed

Does extra rest between matches help? (Not measurably)

Can international-tournament StatsBomb signals beat the club-derived baseline?

Is composite coverage the lever for the player-strength offset? (No)