リサーチ

ネガティブリザルト

8×90日ウォークフォワード Brier + ECE ゲートに対してテストされ、出荷アンサンブルを改善しなかったモデルバリアントと特徴量追加の一覧。不採用の決定は採用の決定と同じキャリブレーション物語であるため、全文を公開しています。各エントリは仮説、テスト、テストの判定理由を記録しています。

コーパス 25 ノート中 11 件が不採用。採用されたバリアントを含む完全なノートインデックスは /research/notes/.

なぜ不採用を公開するのか

チェリーピッキングの防止。 ゲートを改善したバリアントだけを公開すると、出荷アンサンブルは実際よりも必然的に見えてしまいます。不採用はコーパスとゲートが区別できないものの証拠であり、出荷されたモデル変更の周囲のネガティブスペースです。
意図しない再テストの防止。 6ヶ月前の失敗したアブレーションは、そのレポートが発見可能でなければ新しい協力者には見えません。ネガティブリザルトをポジティブと同じ場所に置くことで、「誰かこれを試したことがあるか？」という問いにコミットログを読まずに答えられます。
モデルの天井の限界を示す。 同じコーパスで容量の大きいバリアントが連続して失敗することは、それ自体が測定です。現在のデータではゲートを突破するのが難しいことを示しています。このシグナルは、成功だけを見る読者よりも、失敗を見られる読者にとって有用です。