Späť na rubriku
Modely ⭐ Dôležité

GPT-5.5 halucinuje 3× viac ako open-weight GLM-5.2, ukazuje benchmark

Sobota 20. júna 2026 Zdroj: Hacker News

Čo sa stalo

Na Hacker News sa 19. júna 2026 prebojoval blog post (skóre 149) s benchmarkom GPT-5.5 vs. GLM-5.2 (MIT-licenc. open-weight model od Z.ai) na AA-Omniscience hallucination benchmark.

Kontext a dopad

Výsledok je nezvyčajne disonantný: open-weight GLM-5.2 (28 % hallucination rate) výrazne porazil GPT-5.5 (86 %). Komunita varuje pred preháňaním — benchmark je len jeden, a 'omniscience' meria odpovedanie na otázky, kde model nemá fakt; refusal je tu žiadúci. GLM-5.2 je opatrnejší a častejšie odmietne. Napriek tomu — pre tvorcov RAG a agentov je signál, že defaultná opatrnosť open modelu môže byť feature, nie bug.

Detaily

  • GPT-5.5: 86 % hallucination rate na AA-Omniscience
  • GLM-5.2: 28 % hallucination rate (3× menej)
  • Rovnaké podmienky: high reasoning, temp 1, coding assistant prompt, OpenRouter