Späť na rubriku
Výskum ⭐ Dôležité

OpenAI vydal GeneBench-Pro — benchmark pre AI agentov v biológii, GPT-5.6 Sol dosiahol 31,5 %

Piatok 3. júla 2026 Zdroj: OpenAI

Čo sa stalo

OpenAI vydal GeneBench-Pro — nový benchmark na hodnotenie AI agentov pri reálnych výskumných úlohách z výpočtovej biológie. Obsahuje 129 problémov pokrývajúcich genomiku, kvantitatívnu biológiu a translačnú medicínu, pričom každá úloha zahŕňa hlučné reálne datasety a odborné rozhodovanie.

Kontext a dopad

Každá úloha by podľa odborníkov trvala ľudskému expertovi 20–40 hodín. Benchmark odhaľuje, že ani najlepší AI model ešte zďaleka nedosahuje expert-úroveň v tejto doméne. OpenAI predpokladá saturáciu benchmarku koncom roka 2026 pri aktuálnom tempe zlepšovania.

Detaily

  • 129 úloh z genomiky, kvantitatívnej biológie a translačnej medicíny
  • GPT-5.6 Sol: 31,5 % (najlepší výsledok)
  • Claude Opus 4.8: 16 %
  • Gemini 3.5 Flash: 8,1 %
  • Každá úloha = 20–40 hodín ľudskej expertnej práce
  • OpenAI predpokladá saturáciu benchmarku do konca 2026