Semgrep benchmark: open-weight GLM-5.2 prekonáva Claude Opus v detekcii IDOR zraniteľností
Čo sa stalo
Semgrep zverejnil podrobnú evaluáciu Zhipu open-weight modelu GLM-5.2 na úlohách ofenzívnej kybernetiky. Post sa dostal na vrch Hacker News s 336 bodmi.
Kontext a dopad
GLM-5.2 dosiahol 39 % F1 v detekcii IDOR (Insecure Direct Object Reference) za $0.17 za zraniteľnosť, čo je vyššie ako Claude Opus 4.8 (28 %) a Opus 4.6 (37 %) na rovnakom minimálnom harnesi. Semgrep argumentuje, že keď MIT-licencovaný čínsky model dosahuje paritu na cyber benchmarkoch, US export controls na frontier modely strácajú zmysel — bezpečnostné výhody plynú z open-weight ekosystému, nie z geopolitického gating.
Detaily
- GLM-5.2: 39 % F1 IDOR, $0.17/vuln
- Claude Opus 4.8: 28 %
- Claude Opus 4.6: 37 %
- MIT licencia, plne lokálne nasadenie
- 336 bodov HN, široký dosah v sec-research komunite
Otvoriť pôvodný zdroj
Semgrep