Armin Ronacher: Lepšie modely, horšie nástroje — Claude Sonnet 5 halucinuje extra tool polia
Čo sa stalo
Armin Ronacher (autor Python frameworkov Flask a Werkzeug) publikoval 4. júla 2026 analýzu demonštrujúcu, že novšie verzie Claude — konkrétne Opus 4.8 a Sonnet 5 — menej spoľahlivo nasledujú nestandardné tool call schemata a halucinujú polia, ktoré v schéme neexistujú.
Kontext a dopad
Ronacher tvrdí, že RL post-training zameraný na vlastný Claude Code harness spôsobuje lock-in do Anthropic ekosystému — projekty s vlastnými tool schemas trpia degradovanou spoľahlivosťou oproti starším Claude modelom. Príspevok zhromažďoval 72 bodov na HN a linkol ho Simon Willison.
Detaily
- Príspevok na lucumr.pocoo.org, 4. júla 2026
- Záver: 'tool schemas nie sú neutrálne' pri Anthropic modeloch
- Regresia zdokumentovaná pri Opus 4.8 a Sonnet 5 oproti starším Claude verziám
- Príčina: RL tréning optimalizovaný primárne na Claude Code harness formát
- Dôsledok: závislosť third-party harnesses na Anthropic-natívnych schémach
- HN skóre: 72 bodov; linkol Simon Willison
Otvoriť pôvodný zdroj
lucumr.pocoo.org