Čo sa stalo, keď sa 2 000 ľudí pokúsilo hacknúť môjho AI asistenta
Hlavná myšlienka
Frontier modely (konkrétne Claude Opus 4.6) sú dnes výrazne odolnejšie voči prompt injection ako pred rokom, no 6 000 neúspešných pokusov stále nedáva žiadnu garanciu bezpečnosti voči sofistikovanejšiemu útočníkovi.
Kontext
Fernando Irarrázaval spustil verejnú výzvu hackmyclaw.com, kde mohli ľudia posielať e-maily AI asistentovi OpenClaw a pokúšať sa získať tajomstvá. Systém bol chránený explicitnými pravidlami v prompte zakazujúcimi únik credentials, modifikáciu vlastných súborov, spúšťanie kódu z e-mailov a exfiltráciu dát. Cena experimentu: 500 USD a suspendácia Google účtu.
Prečo to stojí za pozornosť
Willison patrí k najcitovanejším hlasom v oblasti prompt injection a tento príspevok je dobrým aktuálnym dátovým bodom o stave obrany. Zároveň zdôrazňuje, že empirické testy nikdy nenahradia formálne garancie - varuje pred nasadením do produkcie tam, kde môže injection spôsobiť nezvratné škody.
Detaily / argumenty
- 2 000 účastníkov, 6 000 pokusov, 0 úspešných únikov tajomstiev
- Underlying model: Claude Opus 4.6
- Willison spája výsledok so safety dokumentáciou v OpenAI GPT-5.6 system card
- Odporúča neopierať sa o tréning modelu ako jedinú vrstvu obrany
- Kvalitnú diskusiu k téme nájdete podľa neho aj v Hacker News vlákne