Výskum AI ⭐ Dôležité

OpenAI vydal GeneBench-Pro — benchmark pre AI agentov v biológii, GPT-5.6 Sol dosiahol 31,5 %

Piatok 3. júla 2026 • Zdroj: OpenAI

Čo sa stalo

OpenAI vydal GeneBench-Pro — nový benchmark na hodnotenie AI agentov pri reálnych výskumných úlohách z výpočtovej biológie. Obsahuje 129 problémov pokrývajúcich genomiku, kvantitatívnu biológiu a translačnú medicínu, pričom každá úloha zahŕňa hlučné reálne datasety a odborné rozhodovanie.

Kontext a dopad

Každá úloha by podľa odborníkov trvala ľudskému expertovi 20–40 hodín. Benchmark odhaľuje, že ani najlepší AI model ešte zďaleka nedosahuje expert-úroveň v tejto doméne. OpenAI predpokladá saturáciu benchmarku koncom roka 2026 pri aktuálnom tempe zlepšovania.

Detaily

129 úloh z genomiky, kvantitatívnej biológie a translačnej medicíny
GPT-5.6 Sol: 31,5 % (najlepší výsledok)
Claude Opus 4.8: 16 %
Gemini 3.5 Flash: 8,1 %
Každá úloha = 20–40 hodín ľudskej expertnej práce
OpenAI predpokladá saturáciu benchmarku do konca 2026

Otvoriť pôvodný zdroj OpenAI