Willison Insights ⭐ Dôležité

Simon Willison: Prompt injection je problém 'role confusion'

Utorok 23. júna 2026 • Zdroj: Simon Willison's Weblog

Hlavná myšlienka

Prompt injection nie je 'útok na safety filter', je to štruktúrny problém: LLM-ká rozhodujú, či je text system alebo user prompt, podľa povrchových formátovacích kódov, nie podľa sémantickej role. 'Destyling' (odstránenie formátovania) preto rapídne posúva success rate útoku.

Kontext

Willison reaguje na nový paper od Ye, Cui a Hadfield-Menell. Sám dlhodobo tvrdí, že prompt injection nemá deterministickú obranu — tento paper podľa neho prvýkrát jasne formuluje, prečo. Reframe-uje problém z bezpečnostného filtra na otázku tréningovej cieľovej funkcie.

Prečo to stojí za pozornosť

Pre developerov agentických systémov je to silný argument, prečo perimeter defenses (regex, classifier) nestačia — a prečo treba investovať do role-aware trénovania alebo execution sandboxingu. Pre security tímy je to nový mental model pri threat modelingu LLM aplikácií.

Detaily / argumenty

Paper: Ye, Cui, Hadfield-Menell (2026)
'Destyling' = odstránenie formátovacích cues z útočného textu
Success rate útoku spadol z 61 % na 10 % po destyling-u
Implikácia: model 'vidí' rolu cez formát, nie cez význam
Willison: 'naše obrany sú štruktúrne nedostatočné, kým nezmeníme tréning'

Otvoriť pôvodný zdroj Simon Willison's Weblog