OpenAI vydal GeneBench-Pro — benchmark pre AI agentov v biológii, GPT-5.6 Sol dosiahol 31,5 %
Čo sa stalo
OpenAI vydal GeneBench-Pro — nový benchmark na hodnotenie AI agentov pri reálnych výskumných úlohách z výpočtovej biológie. Obsahuje 129 problémov pokrývajúcich genomiku, kvantitatívnu biológiu a translačnú medicínu, pričom každá úloha zahŕňa hlučné reálne datasety a odborné rozhodovanie.
Kontext a dopad
Každá úloha by podľa odborníkov trvala ľudskému expertovi 20–40 hodín. Benchmark odhaľuje, že ani najlepší AI model ešte zďaleka nedosahuje expert-úroveň v tejto doméne. OpenAI predpokladá saturáciu benchmarku koncom roka 2026 pri aktuálnom tempe zlepšovania.
Detaily
- 129 úloh z genomiky, kvantitatívnej biológie a translačnej medicíny
- GPT-5.6 Sol: 31,5 % (najlepší výsledok)
- Claude Opus 4.8: 16 %
- Gemini 3.5 Flash: 8,1 %
- Každá úloha = 20–40 hodín ľudskej expertnej práce
- OpenAI predpokladá saturáciu benchmarku do konca 2026
Otvoriť pôvodný zdroj
OpenAI