Späť na rubriku
Výskum

Senior SWE-Bench: benchmark hodnotí AI agentov ako seniorných inžinierov — ani najlepší model neprekoná 25 %

Štvrtok 2. júla 2026 Zdroj: Snorkel AI

Čo sa stalo

Snorkel AI spustil Senior SWE-Bench, otvorenú sadu 156 reálnych programátorských úloh z open-source repozitárov. Na rozdiel od predchádzajúcich benchmarkových sád sú zadania zámerene menej predpisové (o 31 % kratšie), čo núti agentov sami odvodiť kontext z kódovej bázy.

Kontext a dopad

Existujúce benchmarky (vrátane SWE-Bench Verified) čelia kritike za príliš popisné zadania, ktoré nezodpovedajú reálnej práci. Senior SWE-Bench je navrhnutý tak, aby hodnotil agentov štandardmi seniorného vývojára vrátane code taste, t. j. súladu s konvenciami projektu. Výsledky ukazujú, že ani špičkové modely nedosahujú ľudskú úroveň.

Detaily

  • 156 úloh z reálnych pull requestov (Python, Go, Elixir, Rust, TypeScript)
  • Hodnotenie: správnosť + taste score (konvencie kódovej bázy)
  • Najlepší výsledok: Claude Opus 4.8 — 24,0 %
  • Claude Sonnet 5: 19,4 %
  • Zadania sú o 31 % kratšie ako v predchádzajúcich benchmarkoch
  • Dataset tag: v2026.06
Otvoriť pôvodný zdroj Snorkel AI