Simon Willison: Prompt injection je problém 'role confusion'
Hlavná myšlienka
Prompt injection nie je 'útok na safety filter', je to štruktúrny problém: LLM-ká rozhodujú, či je text system alebo user prompt, podľa povrchových formátovacích kódov, nie podľa sémantickej role. 'Destyling' (odstránenie formátovania) preto rapídne posúva success rate útoku.
Kontext
Willison reaguje na nový paper od Ye, Cui a Hadfield-Menell. Sám dlhodobo tvrdí, že prompt injection nemá deterministickú obranu — tento paper podľa neho prvýkrát jasne formuluje, prečo. Reframe-uje problém z bezpečnostného filtra na otázku tréningovej cieľovej funkcie.
Prečo to stojí za pozornosť
Pre developerov agentických systémov je to silný argument, prečo perimeter defenses (regex, classifier) nestačia — a prečo treba investovať do role-aware trénovania alebo execution sandboxingu. Pre security tímy je to nový mental model pri threat modelingu LLM aplikácií.
Detaily / argumenty
- Paper: Ye, Cui, Hadfield-Menell (2026)
- 'Destyling' = odstránenie formátovacích cues z útočného textu
- Success rate útoku spadol z 61 % na 10 % po destyling-u
- Implikácia: model 'vidí' rolu cez formát, nie cez význam
- Willison: 'naše obrany sú štruktúrne nedostatočné, kým nezmeníme tréning'