GLM-5.2 na AMD MI355X: 80 % výkonu NVIDIA B200 pri 2× nižšej cene — CUDA moat sa reálne rozpadá
Čo sa stalo
Inžinieri TensorWave zverejnili analýzu inferenčného výkonu modelu GLM-5.2 na GPU AMD MI355X s MXFP4 kvantizáciou cez AMD Quark. Výsledky takmer zodpovedajú výkonu NVIDIA B200 pri zlomku ceny.
Kontext a dopad
NVIDIA dlhodobo ťaží z CUDA ekosystému, ktorý bráni migráciu zákazníkov na iný hardware. Tento benchmark naznačuje, že bariéra sa reálne trhá: AMD alternatíva dnes dosiahne 80 % výkonu pri inferencii za výrazne nižšiu cenu, pričom nevyžaduje prácu s vlastnými kernelmi — čo bol historicky hlavný odstrašujúci faktor.
Detaily
- Aggregate throughput: 2 626 tok/s/node pri 2,4 req/s
- Single-stream: 213 tok/s (10k vstup / 1,5k výstup)
- Porovnanie: 80 % výkonu NVIDIA B200, cena >2× nižšia
- Kvantizácia: MXFP4 cez AMD Quark
- Framework: sglang (opravená podpora speculative decoding)
- Záver: CUDA moat sa trhá — bez vlastných kernelov
Otvoriť pôvodný zdroj
Wafer AI