الأبحاث
النتائج السلبية
متغيرات النموذج وإضافات الميزات التي اختُبرت وحُكم عليها مقابل بوابة Brier + ECE لفترة 8×90 يوماً walk-forward، ولم تحسّن المجموعة المنشورة. تُنشر بالكامل لأن قرار عدم النشر هو نفس قصة المعايرة لقرار النشر: كل مدخل أدناه يسجل فرضية كان يمكن لشخص كتابتها، والاختبار الذي حكم عليها، وسبب رفض الاختبار.
11 من 23 ملاحظة في المجموعة لم تُعتمد. فهرس الملاحظات الكامل، بما في ذلك المتغيرات التي اعتُمدت، موجود في /research/notes/.
لماذا ننشر ما لم يُعتمد
- بدون انتقاء. لو نُشرت فقط المتغيرات التي حسّنت البوابة، لبدت المجموعة المنشورة أكثر حتمية مما هي عليه. ما لم يُعتمد هو دليل على ما لا يستطيع المجموع والبوابة التمييز بينه — هو الفضاء السلبي حول كل تغيير مُعتمد.
- يمنع إعادة الاختبار بالخطأ. استبعاد فاشل منذ ستة أشهر غير مرئي لمتعاون جديد ما لم يكن تقريره قابلاً للاكتشاف. الاحتفاظ بالنتائج السلبية على نفس السطح مع الإيجابية يعني أن "هل جرّب أحد هذا؟" له جواب لا يتطلب قراءة سجل التنفيذ.
- يحد سقف النموذج. سلسلة من المتغيرات الفاشلة ذات السعة العالية على نفس المجموعة هي بحد ذاتها قياس: البوابة صعبة الاجتياز بالبيانات المتاحة حالياً. هذه الإشارة أكثر فائدة للقارئ الذي يرى الإخفاقات من القارئ الذي يرى النجاحات فقط.
- لم تُعتمد3 June 2026
A within-match chase layer "passes" the headline gate — and the placebo proves it shouldn't
The feasibility probe found that, after controlling for team strength, only
اقرأ الملاحظة →
- لم تُعتمد29 May 2026
Is composite *coverage* the lever for the player-strength offset? (No)
player-composite's match coverage — whether honestly (point-in-time WC
اقرأ الملاحظة →
- لم تُعتمد29 May 2026
Does a player-form (momentum) offset improve match forecasts? (No)
player-form differential offset `Δ = α·(form_home − form_away)` does
اقرأ الملاحظة →
- لم تُعتمد29 May 2026
Can we fit the player-strength coefficient instead of hand-setting it? (No)
α = 0.05 offset (Model 16) beats a per-fold fitted α on median Brier.
اقرأ الملاحظة →
- لم تُعتمد27 May 2026
Anytime-scorer `start_prob` v2 — predicted-XI layer (default-off)
Model 5 (`scripts/build_anytime_scorer.py`) produces `P(player scores ≥ 1 across the WC tournament)`. The headline depends on `E[minutes]`, which is derived from `start_prob` (the per-match starter likelihood). The v1 chain was:
اقرأ الملاحظة →
- لم تُعتمد27 May 2026
Do teams try harder in must-win games? (No, actually)
Football economics literature (Brams & Ismail 2018; Apesteguia & Palacios-Huerta 2010 on tournament-incentive distortions) reports that match outcomes in the final round of group-stage tournaments deviate from baseline expectations when the
اقرأ الملاحظة →
- لم تُعتمد27 May 2026
Letting team ratings drift over time (didn't improve predictions)
Per the design note (variant a, "EMA on (α_t, β_t)"): each team's attack/defence parameters should EVOLVE through time rather than absorb every era's matches into a single stationary compromise. Refit DC at K snapshot timestamps (= the 8 qu
اقرأ الملاحظة →
- لم تُعتمد24 May 2026
Do some playing styles beat others? (Not enough to measure)
- `scripts/build_style_matchup_training.py` (per-match training join)
اقرأ الملاحظة →
- لم تُعتمد23 May 2026
Retuning the models for tournament football — what changed
PR #310 documented that all four models in the ensemble are ~7% worse on tournament matches than on the all-matches average. The natural follow-up is to refit the predict-time knobs on a tournament-only training slice and serve tournament-v
اقرأ الملاحظة →
- لم تُعتمد21 May 2026
Does extra rest between matches help? (Not measurably)
Sports-science literature reports a measurable effect of recovery time on football performance: better-rested teams score slightly more goals than fatigued ones. The expected magnitude is small but consistent across studies (Mohr et al. 201
اقرأ الملاحظة →
- لم تُعتمد
Can international-tournament StatsBomb signals beat the club-derived baseline?
PR #525 + PR #532 produced two new per-team signals extracted from StatsBomb open event data across WC 2018/2022, Euro 2020/2024, Copa America 2024, AFCON 2023:
اقرأ الملاحظة →