Späť na rubriku
Willison ⭐ Dôležité

Čo sa stalo, keď sa 2 000 ľudí pokúsilo hacknúť môjho AI asistenta

Sobota 27. júna 2026 Zdroj: Simon Willison

Hlavná myšlienka

Frontier modely (konkrétne Claude Opus 4.6) sú dnes výrazne odolnejšie voči prompt injection ako pred rokom, no 6 000 neúspešných pokusov stále nedáva žiadnu garanciu bezpečnosti voči sofistikovanejšiemu útočníkovi.

Kontext

Fernando Irarrázaval spustil verejnú výzvu hackmyclaw.com, kde mohli ľudia posielať e-maily AI asistentovi OpenClaw a pokúšať sa získať tajomstvá. Systém bol chránený explicitnými pravidlami v prompte zakazujúcimi únik credentials, modifikáciu vlastných súborov, spúšťanie kódu z e-mailov a exfiltráciu dát. Cena experimentu: 500 USD a suspendácia Google účtu.

Prečo to stojí za pozornosť

Willison patrí k najcitovanejším hlasom v oblasti prompt injection a tento príspevok je dobrým aktuálnym dátovým bodom o stave obrany. Zároveň zdôrazňuje, že empirické testy nikdy nenahradia formálne garancie - varuje pred nasadením do produkcie tam, kde môže injection spôsobiť nezvratné škody.

Detaily / argumenty

  • 2 000 účastníkov, 6 000 pokusov, 0 úspešných únikov tajomstiev
  • Underlying model: Claude Opus 4.6
  • Willison spája výsledok so safety dokumentáciou v OpenAI GPT-5.6 system card
  • Odporúča neopierať sa o tréning modelu ako jedinú vrstvu obrany
  • Kvalitnú diskusiu k téme nájdete podľa neho aj v Hacker News vlákne
Otvoriť pôvodný zdroj Simon Willison