研究

阴性结果

经过测试、以 8×90 天前向 Brier + ECE 门控为标准进行判定、未能改善现有集成模型的模型变体和特征添加。完整发布, 因为不发布的决定与发布的决定同属一个校准故事: 下方每一条记录了一个可能被提出的假设、判定它的测试, 以及测试结果为否的原因。

语料库 23 篇笔记中有 11 篇未发布。 完整笔记索引(包括已发布的变体)位于 /research/notes/.

为什么发布未通过的结果

  • 避免选择性发布。 如果只发布通过门控的变体, 现有的集成模型会显得比实际更加必然。未通过的结果是每次已发布模型变更周围负空间的证据, 展示了语料库和门控无法区分的内容。
  • 防止意外重复测试。 六个月前失败的消融实验对新协作者来说是不可见的, 除非其报告可被发现。将阴性结果与阳性结果放在同一平台上, 意味着「有人试过这个吗?」有一个不需要翻阅提交日志的答案。
  • 界定模型天花板。 一系列在相同语料库上失败的高容量变体本身就是一种测量: 以当前可用数据, 门控很难被超越。对于能看到失败记录的读者来说, 这个信号比只看到成功的读者更有用。
阴性结果 · onthepitch