Forschung

Negative Ergebnisse

Die Modellvarianten und Feature-Ergänzungen, die getestet, gegen das 8×90-Tage Walk-Forward Brier- + ECE-Gate bewertet und das versendete Ensemble nicht verbessert haben. Vollständig veröffentlicht, weil die Entscheidung, nicht zu veröffentlichen, dieselbe Kalibrierungsgeschichte ist wie die Entscheidung zu veröffentlichen: Jeder Eintrag unten dokumentiert eine Hypothese, die jemand hätte formulieren können, den Test, der sie bewertet hat, und den Grund, warum der Test Nein gesagt hat.

11 von 25 Notizen im Korpus sind Nicht-Veröffentlichungen. Der vollständige Notizen-Index, einschliesslich der Varianten, die veröffentlicht wurden, befindet sich unter /research/notes/.

Warum die Nicht-Veröffentlichungen publizieren

Kein Rosinenpicken. Wenn nur die Varianten veröffentlicht würden, die das Gate verbessert haben, würde das versendete Ensemble unvermeidlicher wirken, als es ist. Die Nicht-Veröffentlichungen sind der Beweis für das, was Korpus und Gate nicht unterscheiden können: der Negativraum um jede veröffentlichte Modelländerung.
Verhindert erneutes Testen aus Versehen. Eine sechs Monate alte gescheiterte Ablation ist für einen neuen Mitarbeiter unsichtbar, wenn ihr Bericht nicht auffindbar ist. Negative Ergebnisse auf derselben Oberfläche wie positive zu halten bedeutet, dass "Hat das schon jemand versucht?" eine Antwort hat, die nicht das Lesen des Commit-Logs erfordert.
Begrenzt die Obergrenze des Modells. Eine Reihe gescheiterter kapazitätsintensiver Varianten auf demselben Korpus ist selbst eine Messung: Das Gate ist mit den derzeit verfügbaren Daten schwer zu schlagen. Dieses Signal ist für einen Leser nützlicher, der die Fehlschläge sehen kann, als für einen, der nur die Erfolge sieht.

Negative Ergebnisse

Warum die Nicht-Veröffentlichungen publizieren

A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't

Is composite coverage the lever for the player-strength offset? (No)

Does a player-form (momentum) offset improve match forecasts? (No)

Can we fit the player-strength coefficient instead of hand-setting it? (No)

Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)

Do teams try harder in must-win games? (No, actually)

Letting team ratings drift over time (didn't improve predictions)

Do some playing styles beat others? (Not enough to measure)

Retuning the models for tournament football — what changed

Does extra rest between matches help? (Not measurably)

Can international-tournament StatsBomb signals beat the club-derived baseline?

Warum die Nicht-Veröffentlichungen publizieren

A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't

Is composite *coverage* the lever for the player-strength offset? (No)

Does a player-form (momentum) offset improve match forecasts? (No)

Can we fit the player-strength coefficient instead of hand-setting it? (No)

Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)

Do teams try harder in must-win games? (No, actually)

Letting team ratings drift over time (didn't improve predictions)

Do some playing styles beat others? (Not enough to measure)

Retuning the models for tournament football — what changed

Does extra rest between matches help? (Not measurably)

Can international-tournament StatsBomb signals beat the club-derived baseline?

Is composite coverage the lever for the player-strength offset? (No)