Čipy AI ⭐ Dôležité

GLM-5.2 na AMD MI355X: 80 % výkonu NVIDIA B200 pri 2× nižšej cene — CUDA moat sa reálne rozpadá

Sobota 4. júla 2026 • Zdroj: Wafer AI

Čo sa stalo

Inžinieri TensorWave zverejnili analýzu inferenčného výkonu modelu GLM-5.2 na GPU AMD MI355X s MXFP4 kvantizáciou cez AMD Quark. Výsledky takmer zodpovedajú výkonu NVIDIA B200 pri zlomku ceny.

Kontext a dopad

NVIDIA dlhodobo ťaží z CUDA ekosystému, ktorý bráni migráciu zákazníkov na iný hardware. Tento benchmark naznačuje, že bariéra sa reálne trhá: AMD alternatíva dnes dosiahne 80 % výkonu pri inferencii za výrazne nižšiu cenu, pričom nevyžaduje prácu s vlastnými kernelmi — čo bol historicky hlavný odstrašujúci faktor.

Detaily

Aggregate throughput: 2 626 tok/s/node pri 2,4 req/s
Single-stream: 213 tok/s (10k vstup / 1,5k výstup)
Porovnanie: 80 % výkonu NVIDIA B200, cena >2× nižšia
Kvantizácia: MXFP4 cez AMD Quark
Framework: sglang (opravená podpora speculative decoding)
Záver: CUDA moat sa trhá — bez vlastných kernelov

Otvoriť pôvodný zdroj Wafer AI