Onderzoek

Negatieve resultaten

De modelvarianten en featuretoevoegingen die zijn getest, beoordeeld aan de hand van de 8×90-dagen walk-forward Brier + ECE-gate, en het verschepende ensemble niet verbeterden. Volledig gepubliceerd omdat het besluit om niet te verschepen hetzelfde kalibratieverhaal is als het besluit om wel te verschepen: elk item hieronder documenteert een hypothese die iemand had kunnen formuleren, de test die haar beoordeelde, en de reden waarom de test nee zei.

11 van de 23 notities in het corpus zijn afwijzingen. De volledige notitie-index, inclusief de varianten die wel zijn verscheept, staat op /research/notes/.

Waarom de afwijzingen publiceren

  • Geen selectief kiezen. Als alleen de varianten die de gate verbeterden zouden worden gepubliceerd, zou het verschepende ensemble onvermijdelijker lijken dan het is. De afwijzingen zijn het bewijs van wat het corpus en de gate niet kunnen onderscheiden: ze vormen de negatieve ruimte rond elke verscheepte modelwijziging.
  • Voorkomt opnieuw testen per ongeluk. Een zes maanden oude mislukte ablatie is onzichtbaar voor een nieuwe medewerker tenzij de beschrijving vindbaar is. Negatieve resultaten op hetzelfde oppervlak houden als positieve betekent dat "heeft iemand dit al geprobeerd?" een antwoord heeft dat niet vereist dat je de commitlog leest.
  • Geeft het plafond van het model aan. Een reeks mislukte capaciteitsintensieve varianten op hetzelfde corpus is zelf een meting: de gate is moeilijk te verslaan met de momenteel beschikbare data. Dat signaal is nuttiger voor een lezer die de mislukkingen kan zien dan voor iemand die alleen de successen ziet.
Negatieve resultaten · onthepitch