CursorBench 3.1: Cursor porovnáva 36 modelov na reálnych kódovacích úlohách — Fable 5 Max vedie s 72,9 %
Čo je nové
- CursorBench 3.1: Nová verzia zameriava úlohy na pochopenie kódovej bázy, diagnostiku bugov, plánovanie a code review (oproti edit/refactor/bugfix v 3.0).
- 36 testovaných modelov: Zahŕňa frontier aj open-source modely.
- Vylepšené hodnotenie: Nové kritériá pre edit úlohy.
Výsledky (top modely)
- Fable 5 Max: 72,9 % / 18,02 USD za úlohu
- GPT-5.5 Extra High: 64,3 % / 4,37 USD za úlohu
- Composer 2.5: 63,2 % / 0,55 USD za úlohu (najlepší pomer cena/výkon)
Prečo to stojí za pozornosť
Benchmark vychádza z reálnych Cursor sessionov (nie syntetických príkladov), čo dáva praktickejší pohľad na výkon modelov v každodennom kódovaní a pomáha developerom vybrať model podľa svojho budgetu.
Otvoriť pôvodný zdroj
Cursor