Modely AI 🔥 Top

Google DeepMind vydal DiffusionGemma — 26B MoE model s difúznou hlavou pre rýchle lokálne AI

Piatok 26. júna 2026 • Zdroj: NVIDIA / Google DeepMind

Čo sa stalo

Google DeepMind vydal DiffusionGemma — experimentálny 26B-parametrový MoE model (3,8B aktívnych) s difúznou hlavou, ktorá generuje text paralelne v blokoch namiesto autoregresívne token po tokene. NVIDIA súčasne optimalizovala beh na RTX GPU a DGX Spark pre lokálnu inferenciu.

Kontext a dopad

Difúzny text generation je dlhodobo skúmaná alternatíva k autoregresívnym transformerom (Inception Labs Mercury, Stanford SEDD), ale dosiaľ nemal silnú produkčnú implementáciu. DiffusionGemma je prvý mainstream MoE model s touto architektúrou, ktorý ide do otvoreného weightu. Pre lokálne AI to môže byť zlomové: paralelný blokový dekódovací proces je výrazne rýchlejší než token-by-token, hlavne na consumer GPU s obmedzenou pamäťovou priepustnosťou.

Detaily

Architektúra: 26B parametrov, 3,8B aktívnych (MoE)
Generuje text v paralelných blokoch cez diffusion head
Optimalizácia: NVIDIA RTX GPU a DGX Spark workstation
Zaradenie: experimentálny — Google ho pozícionuje ako research preview
Súčasť rodiny Gemma 3 open-weight modelov

Otvoriť pôvodný zdroj NVIDIA / Google DeepMind