Willison Insights ⭐ Dôležité

Čo sa stalo, keď sa 2 000 ľudí pokúsilo hacknúť môjho AI asistenta

Sobota 27. júna 2026 • Zdroj: Simon Willison

Hlavná myšlienka

Frontier modely (konkrétne Claude Opus 4.6) sú dnes výrazne odolnejšie voči prompt injection ako pred rokom, no 6 000 neúspešných pokusov stále nedáva žiadnu garanciu bezpečnosti voči sofistikovanejšiemu útočníkovi.

Kontext

Fernando Irarrázaval spustil verejnú výzvu hackmyclaw.com, kde mohli ľudia posielať e-maily AI asistentovi OpenClaw a pokúšať sa získať tajomstvá. Systém bol chránený explicitnými pravidlami v prompte zakazujúcimi únik credentials, modifikáciu vlastných súborov, spúšťanie kódu z e-mailov a exfiltráciu dát. Cena experimentu: 500 USD a suspendácia Google účtu.

Prečo to stojí za pozornosť

Willison patrí k najcitovanejším hlasom v oblasti prompt injection a tento príspevok je dobrým aktuálnym dátovým bodom o stave obrany. Zároveň zdôrazňuje, že empirické testy nikdy nenahradia formálne garancie - varuje pred nasadením do produkcie tam, kde môže injection spôsobiť nezvratné škody.

Detaily / argumenty

2 000 účastníkov, 6 000 pokusov, 0 úspešných únikov tajomstiev
Underlying model: Claude Opus 4.6
Willison spája výsledok so safety dokumentáciou v OpenAI GPT-5.6 system card
Odporúča neopierať sa o tréning modelu ako jedinú vrstvu obrany
Kvalitnú diskusiu k téme nájdete podľa neho aj v Hacker News vlákne

Otvoriť pôvodný zdroj Simon Willison