Senior SWE-Bench: benchmark hodnotí AI agentov ako seniorných inžinierov — ani najlepší model neprekoná 25 %
Čo sa stalo
Snorkel AI spustil Senior SWE-Bench, otvorenú sadu 156 reálnych programátorských úloh z open-source repozitárov. Na rozdiel od predchádzajúcich benchmarkových sád sú zadania zámerene menej predpisové (o 31 % kratšie), čo núti agentov sami odvodiť kontext z kódovej bázy.
Kontext a dopad
Existujúce benchmarky (vrátane SWE-Bench Verified) čelia kritike za príliš popisné zadania, ktoré nezodpovedajú reálnej práci. Senior SWE-Bench je navrhnutý tak, aby hodnotil agentov štandardmi seniorného vývojára vrátane code taste, t. j. súladu s konvenciami projektu. Výsledky ukazujú, že ani špičkové modely nedosahujú ľudskú úroveň.
Detaily
- 156 úloh z reálnych pull requestov (Python, Go, Elixir, Rust, TypeScript)
- Hodnotenie: správnosť + taste score (konvencie kódovej bázy)
- Najlepší výsledok: Claude Opus 4.8 — 24,0 %
- Claude Sonnet 5: 19,4 %
- Zadania sú o 31 % kratšie ako v predchádzajúcich benchmarkoch
- Dataset tag: v2026.06
Otvoriť pôvodný zdroj
Snorkel AI