Forschung

Negative Ergebnisse

Die Modellvarianten und Feature-Ergänzungen, die getestet, gegen das 8×90-Tage Walk-Forward Brier- + ECE-Gate bewertet und das versendete Ensemble nicht verbessert haben. Vollständig veröffentlicht, weil die Entscheidung, nicht zu veröffentlichen, dieselbe Kalibrierungsgeschichte ist wie die Entscheidung zu veröffentlichen: Jeder Eintrag unten dokumentiert eine Hypothese, die jemand hätte formulieren können, den Test, der sie bewertet hat, und den Grund, warum der Test Nein gesagt hat.

11 von 23 Notizen im Korpus sind Nicht-Veröffentlichungen. Der vollständige Notizen-Index, einschliesslich der Varianten, die veröffentlicht wurden, befindet sich unter /research/notes/.

Warum die Nicht-Veröffentlichungen publizieren

  • Kein Rosinenpicken. Wenn nur die Varianten veröffentlicht würden, die das Gate verbessert haben, würde das versendete Ensemble unvermeidlicher wirken, als es ist. Die Nicht-Veröffentlichungen sind der Beweis für das, was Korpus und Gate nicht unterscheiden können: der Negativraum um jede veröffentlichte Modelländerung.
  • Verhindert erneutes Testen aus Versehen. Eine sechs Monate alte gescheiterte Ablation ist für einen neuen Mitarbeiter unsichtbar, wenn ihr Bericht nicht auffindbar ist. Negative Ergebnisse auf derselben Oberfläche wie positive zu halten bedeutet, dass "Hat das schon jemand versucht?" eine Antwort hat, die nicht das Lesen des Commit-Logs erfordert.
  • Begrenzt die Obergrenze des Modells. Eine Reihe gescheiterter kapazitätsintensiver Varianten auf demselben Korpus ist selbst eine Messung: Das Gate ist mit den derzeit verfügbaren Daten schwer zu schlagen. Dieses Signal ist für einen Leser nützlicher, der die Fehlschläge sehen kann, als für einen, der nur die Erfolge sieht.
Negative Ergebnisse · onthepitch