Späť na rubriku
Willison ⭐ Dôležité

Simon Willison: Prompt injection je problém 'role confusion'

Utorok 23. júna 2026 Zdroj: Simon Willison's Weblog

Hlavná myšlienka

Prompt injection nie je 'útok na safety filter', je to štruktúrny problém: LLM-ká rozhodujú, či je text system alebo user prompt, podľa povrchových formátovacích kódov, nie podľa sémantickej role. 'Destyling' (odstránenie formátovania) preto rapídne posúva success rate útoku.

Kontext

Willison reaguje na nový paper od Ye, Cui a Hadfield-Menell. Sám dlhodobo tvrdí, že prompt injection nemá deterministickú obranu — tento paper podľa neho prvýkrát jasne formuluje, prečo. Reframe-uje problém z bezpečnostného filtra na otázku tréningovej cieľovej funkcie.

Prečo to stojí za pozornosť

Pre developerov agentických systémov je to silný argument, prečo perimeter defenses (regex, classifier) nestačia — a prečo treba investovať do role-aware trénovania alebo execution sandboxingu. Pre security tímy je to nový mental model pri threat modelingu LLM aplikácií.

Detaily / argumenty

  • Paper: Ye, Cui, Hadfield-Menell (2026)
  • 'Destyling' = odstránenie formátovacích cues z útočného textu
  • Success rate útoku spadol z 61 % na 10 % po destyling-u
  • Implikácia: model 'vidí' rolu cez formát, nie cez význam
  • Willison: 'naše obrany sú štruktúrne nedostatočné, kým nezmeníme tréning'
Otvoriť pôvodný zdroj Simon Willison's Weblog