Pesquisa

Resultados negativos

As variantes do modelo e adições de features que foram testadas, julgadas contra o portão walk-forward de Brier + ECE de 8×90 dias, e não melhoraram o conjunto publicado. Publicadas integralmente porque a decisão de não publicar é a mesma história de calibração da decisão de publicar: cada entrada abaixo registra uma hipótese que alguém poderia ter formulado, o teste que a julgou e o motivo pelo qual o teste disse não.

11 de 25 notas no corpus são não publicados. O índice completo de notas, incluindo as variantes que foram publicadas, está em /research/notes/.

Por que publicar os não publicados

Sem seleção enviesada. Se apenas as variantes que melhoraram o portão fossem publicadas, o conjunto publicado pareceria mais inevitável do que é. Os não publicados são evidência do que o corpus e o portão não conseguem distinguir — são o espaço negativo ao redor de cada mudança publicada no modelo.
Evita reteste acidental. Uma ablação fracassada de seis meses atrás é invisível para um novo colaborador a menos que seu relatório seja encontrável. Manter resultados negativos na mesma superfície dos positivos significa que "alguém já tentou isso?" tem uma resposta que não exige ler o log de commits.
Delimita o teto do modelo. Uma sequência de variantes fracassadas com alta capacidade no mesmo corpus é em si uma medição: o portão é difícil de bater com os dados disponíveis atualmente. Esse sinal é mais útil para um leitor que pode ver as falhas do que para um que só vê os acertos.

Resultados negativos

Por que publicar os não publicados

A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't

Is composite coverage the lever for the player-strength offset? (No)

Does a player-form (momentum) offset improve match forecasts? (No)

Can we fit the player-strength coefficient instead of hand-setting it? (No)

Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)

Do teams try harder in must-win games? (No, actually)

Letting team ratings drift over time (didn't improve predictions)

Do some playing styles beat others? (Not enough to measure)

Retuning the models for tournament football — what changed

Does extra rest between matches help? (Not measurably)

Can international-tournament StatsBomb signals beat the club-derived baseline?

Por que publicar os não publicados

A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't

Is composite *coverage* the lever for the player-strength offset? (No)

Does a player-form (momentum) offset improve match forecasts? (No)

Can we fit the player-strength coefficient instead of hand-setting it? (No)

Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)

Do teams try harder in must-win games? (No, actually)

Letting team ratings drift over time (didn't improve predictions)

Do some playing styles beat others? (Not enough to measure)

Retuning the models for tournament football — what changed

Does extra rest between matches help? (Not measurably)

Can international-tournament StatsBomb signals beat the club-derived baseline?

Is composite coverage the lever for the player-strength offset? (No)